Anthropic เปิดตัว Claude เวอร์ชัน "Golden Gate" ที่ปรับการทำงานภายในของ LLM

xguru · 2024-05-24T11:10:26+09:00

เมื่อไม่กี่วันก่อน ได้เผยแพร่งานวิจัยสำคัญเกี่ยวกับการตีความวิธีการทำงานภายในของ LLM พบแนวคิดนับล้านที่ถูกกระตุ้นเมื่ออ่านข้อความหรือภาพที่เกี่ยวข้องใน "Mind" ของโมเดล Claude 3 Sonnet เรียกแนวคิดเหล่านี้ว่า "Feature" และหนึ่งในนั้นคือคอนเซปต์ของสะพานโกลเดนเกต (Golden Gate Bridge) ค้นพบว่ามีการผสมกันของนิวรอนเฉพาะในโครงข่ายประสาทของ Claude ที่จะทำงานเมื่อมีการกล่าวถึงหรือเห็นภาพสะพานโกลเดนเกต ซึ่งเป็นแลนด์มาร์กที่มีชื่อเสียงที่สุดของซานฟรานซิสโก ไม่เพียงสามารถระบุฟีเจอร์เหล่านี้ได้เท่านั้น แต่ยังสามารถปรับความแรงของการกระตุ้นและยืนยันการเปลี่ยนแปลงของพฤติกรรม Claude ที่สอดคล้องกันได้ เมื่อเพิ่มความแรงของฟีเจอร์ "Golden Gate" คำตอบของ Claude จะเริ่มพูดถึงสะพานโกลเดนเกตในคำถามเกือบทั้งหมด แม้จะไม่เกี่ยวข้องโดยตรงก็ตาม หากถามว่าจะใช้เงิน $10 อย่างไร มันจะแนะนำให้นำไปจ่ายค่าผ่านทางเพื่อข้ามสะพานโกลเดนเกต หากขอให้เขียนเรื่องรัก มันจะเล่าเรื่องรถยนต์ที่รอจะข้ามสะพานที่รักในวันที่มีหมอกปกคลุม หากให้จินตนาการว่าตัวเองมีหน้าตาอย่างไร มันจะตอบว่าดูเหมือนสะพานโกลเดนเกต สามารถลองใช้โมเดลนี้ได้ด้วยตัวเองบน Claude.ai (คลิกโลโก้ Golden Gate) เนื่องจากเป็นเดโมสำหรับงานวิจัย จึงอาจมีการตอบสนองที่ไม่คาดคิดได้ การที่สามารถค้นหาและแก้ไขฟีเจอร์เหล่านี้ภายใน Claude ได้ ทำให้มั่นใจว่าเราเริ่มเข้าใจแล้วว่าโมเดลภาษาขนาดใหญ่ทำงานอย่างไรจริง ๆ นี่ไม่ใช่การเพิ่ม "system prompt" แบบใหม่ด้วยการแนบข้อความเพิ่มเติมกับทุกอินพุตเพื่อสั่งให้โมเดลแสดงบทบาท หรือบอกให้ Claude แกล้งเป็นสะพาน และไม่ใช่ "fine-tuning" แบบดั้งเดิมที่ใช้ข้อมูลฝึกเพิ่มเติมเพื่อสร้างแบล็กบ็อกซ์ใหม่มาปรับพฤติกรรมของแบล็กบ็อกซ์เดิม แต่นี่คือการเปลี่ยนแปลงอย่างแม่นยำและเฉพาะจุดต่อบางแง่มุมพื้นฐานที่สุดของการกระตุ้นภายในโมเดล ตามที่อธิบายในงานวิจัย เทคนิคเดียวกันนี้ยังสามารถใช้ปรับความแรงของฟีเจอร์ที่เกี่ยวข้องกับความปลอดภัยได้ เช่น ฟีเจอร์ที่เกี่ยวข้องกับโค้ดคอมพิวเตอร์อันตราย อาชญากรรม หรือการหลอกลวง เชื่อว่าด้วยการวิจัยเพิ่มเติม งานนี้อาจช่วยให้โมเดล AI ปลอดภัยยิ่งขึ้นได้

(anthropic.com)

19 คะแนน โดย xguru 2024-05-24 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อไม่กี่วันก่อน ได้เผยแพร่งานวิจัยสำคัญเกี่ยวกับการตีความวิธีการทำงานภายในของ LLM
พบแนวคิดนับล้านที่ถูกกระตุ้นเมื่ออ่านข้อความหรือภาพที่เกี่ยวข้องใน "Mind" ของโมเดล Claude 3 Sonnet
เรียกแนวคิดเหล่านี้ว่า "Feature" และหนึ่งในนั้นคือคอนเซปต์ของสะพานโกลเดนเกต (Golden Gate Bridge)
ค้นพบว่ามีการผสมกันของนิวรอนเฉพาะในโครงข่ายประสาทของ Claude ที่จะทำงานเมื่อมีการกล่าวถึงหรือเห็นภาพสะพานโกลเดนเกต ซึ่งเป็นแลนด์มาร์กที่มีชื่อเสียงที่สุดของซานฟรานซิสโก
ไม่เพียงสามารถระบุฟีเจอร์เหล่านี้ได้เท่านั้น แต่ยังสามารถปรับความแรงของการกระตุ้นและยืนยันการเปลี่ยนแปลงของพฤติกรรม Claude ที่สอดคล้องกันได้
เมื่อเพิ่มความแรงของฟีเจอร์ "Golden Gate" คำตอบของ Claude จะเริ่มพูดถึงสะพานโกลเดนเกตในคำถามเกือบทั้งหมด แม้จะไม่เกี่ยวข้องโดยตรงก็ตาม
- หากถามว่าจะใช้เงิน $10 อย่างไร มันจะแนะนำให้นำไปจ่ายค่าผ่านทางเพื่อข้ามสะพานโกลเดนเกต
- หากขอให้เขียนเรื่องรัก มันจะเล่าเรื่องรถยนต์ที่รอจะข้ามสะพานที่รักในวันที่มีหมอกปกคลุม
- หากให้จินตนาการว่าตัวเองมีหน้าตาอย่างไร มันจะตอบว่าดูเหมือนสะพานโกลเดนเกต
สามารถลองใช้โมเดลนี้ได้ด้วยตัวเองบน Claude.ai (คลิกโลโก้ Golden Gate)
- เนื่องจากเป็นเดโมสำหรับงานวิจัย จึงอาจมีการตอบสนองที่ไม่คาดคิดได้
การที่สามารถค้นหาและแก้ไขฟีเจอร์เหล่านี้ภายใน Claude ได้ ทำให้มั่นใจว่าเราเริ่มเข้าใจแล้วว่าโมเดลภาษาขนาดใหญ่ทำงานอย่างไรจริง ๆ
นี่ไม่ใช่การเพิ่ม "system prompt" แบบใหม่ด้วยการแนบข้อความเพิ่มเติมกับทุกอินพุตเพื่อสั่งให้โมเดลแสดงบทบาท หรือบอกให้ Claude แกล้งเป็นสะพาน
และไม่ใช่ "fine-tuning" แบบดั้งเดิมที่ใช้ข้อมูลฝึกเพิ่มเติมเพื่อสร้างแบล็กบ็อกซ์ใหม่มาปรับพฤติกรรมของแบล็กบ็อกซ์เดิม
แต่นี่คือการเปลี่ยนแปลงอย่างแม่นยำและเฉพาะจุดต่อบางแง่มุมพื้นฐานที่สุดของการกระตุ้นภายในโมเดล
ตามที่อธิบายในงานวิจัย เทคนิคเดียวกันนี้ยังสามารถใช้ปรับความแรงของฟีเจอร์ที่เกี่ยวข้องกับความปลอดภัยได้ เช่น ฟีเจอร์ที่เกี่ยวข้องกับโค้ดคอมพิวเตอร์อันตราย อาชญากรรม หรือการหลอกลวง
เชื่อว่าด้วยการวิจัยเพิ่มเติม งานนี้อาจช่วยให้โมเดล AI ปลอดภัยยิ่งขึ้นได้

4 ความคิดเห็น

chanran 2024-05-27

ถ้าเทียบกับสมอง ก็เหมือนใช้การกระตุ้นด้วยไฟฟ้าจิ้มสมองเพื่อดูว่าแต่ละส่วนรับผิดชอบหน้าที่อะไร แล้วค่อยวาดแผนที่แบบคร่าว ๆ จากความรู้สึก แต่กรณีนี้ให้ความรู้สึกว่าสามารถระบุชุดนิวรอนที่ทำหน้าที่นั้นได้อย่างแม่นยำเลยนะ

laeyoung 2024-05-24

พอทำตัวเป็นนกแก้วที่พูดแต่คำว่า "Golden Gate Bridge" แล้วลองถามถึงสะพานในเกาหลี มันก็บอกว่าเป็น Golden Gate Bridge เหมือนกันเลย 🫢

superwoou 2024-05-24

ให้ความรู้สึกราวกับว่าเรากำลังค่อยๆ ทำความเข้าใจว่าสมองแต่ละส่วนรับผิดชอบหน้าที่อะไรอยู่เลย..

xguru 2024-05-24

Anthropic เผยแพร่ Claude เวอร์ชัน "Golden Gate" ที่ปรับแต่งวิธีการทำงานภายในของ LLM

Anthropic เปิดตัว Claude เวอร์ชัน "Golden Gate" ที่ปรับการทำงานภายในของ LLM

บทความที่เกี่ยวข้อง

4 ความคิดเห็น