- เมื่อไม่กี่วันก่อน ได้เผยแพร่งานวิจัยสำคัญเกี่ยวกับการตีความวิธีการทำงานภายในของ LLM
- พบแนวคิดนับล้านที่ถูกกระตุ้นเมื่ออ่านข้อความหรือภาพที่เกี่ยวข้องใน "Mind" ของโมเดล Claude 3 Sonnet
- เรียกแนวคิดเหล่านี้ว่า "Feature" และหนึ่งในนั้นคือคอนเซปต์ของสะพานโกลเดนเกต (Golden Gate Bridge)
- ค้นพบว่ามีการผสมกันของนิวรอนเฉพาะในโครงข่ายประสาทของ Claude ที่จะทำงานเมื่อมีการกล่าวถึงหรือเห็นภาพสะพานโกลเดนเกต ซึ่งเป็นแลนด์มาร์กที่มีชื่อเสียงที่สุดของซานฟรานซิสโก
- ไม่เพียงสามารถระบุฟีเจอร์เหล่านี้ได้เท่านั้น แต่ยังสามารถปรับความแรงของการกระตุ้นและยืนยันการเปลี่ยนแปลงของพฤติกรรม Claude ที่สอดคล้องกันได้
- เมื่อเพิ่มความแรงของฟีเจอร์ "Golden Gate" คำตอบของ Claude จะเริ่มพูดถึงสะพานโกลเดนเกตในคำถามเกือบทั้งหมด แม้จะไม่เกี่ยวข้องโดยตรงก็ตาม
- หากถามว่าจะใช้เงิน $10 อย่างไร มันจะแนะนำให้นำไปจ่ายค่าผ่านทางเพื่อข้ามสะพานโกลเดนเกต
- หากขอให้เขียนเรื่องรัก มันจะเล่าเรื่องรถยนต์ที่รอจะข้ามสะพานที่รักในวันที่มีหมอกปกคลุม
- หากให้จินตนาการว่าตัวเองมีหน้าตาอย่างไร มันจะตอบว่าดูเหมือนสะพานโกลเดนเกต
- สามารถลองใช้โมเดลนี้ได้ด้วยตัวเองบน Claude.ai (คลิกโลโก้ Golden Gate)
- เนื่องจากเป็นเดโมสำหรับงานวิจัย จึงอาจมีการตอบสนองที่ไม่คาดคิดได้
- การที่สามารถค้นหาและแก้ไขฟีเจอร์เหล่านี้ภายใน Claude ได้ ทำให้มั่นใจว่าเราเริ่มเข้าใจแล้วว่าโมเดลภาษาขนาดใหญ่ทำงานอย่างไรจริง ๆ
- นี่ไม่ใช่การเพิ่ม "system prompt" แบบใหม่ด้วยการแนบข้อความเพิ่มเติมกับทุกอินพุตเพื่อสั่งให้โมเดลแสดงบทบาท หรือบอกให้ Claude แกล้งเป็นสะพาน
- และไม่ใช่ "fine-tuning" แบบดั้งเดิมที่ใช้ข้อมูลฝึกเพิ่มเติมเพื่อสร้างแบล็กบ็อกซ์ใหม่มาปรับพฤติกรรมของแบล็กบ็อกซ์เดิม
- แต่นี่คือการเปลี่ยนแปลงอย่างแม่นยำและเฉพาะจุดต่อบางแง่มุมพื้นฐานที่สุดของการกระตุ้นภายในโมเดล
- ตามที่อธิบายในงานวิจัย เทคนิคเดียวกันนี้ยังสามารถใช้ปรับความแรงของฟีเจอร์ที่เกี่ยวข้องกับความปลอดภัยได้ เช่น ฟีเจอร์ที่เกี่ยวข้องกับโค้ดคอมพิวเตอร์อันตราย อาชญากรรม หรือการหลอกลวง
- เชื่อว่าด้วยการวิจัยเพิ่มเติม งานนี้อาจช่วยให้โมเดล AI ปลอดภัยยิ่งขึ้นได้
4 ความคิดเห็น
ถ้าเทียบกับสมอง ก็เหมือนใช้การกระตุ้นด้วยไฟฟ้าจิ้มสมองเพื่อดูว่าแต่ละส่วนรับผิดชอบหน้าที่อะไร แล้วค่อยวาดแผนที่แบบคร่าว ๆ จากความรู้สึก แต่กรณีนี้ให้ความรู้สึกว่าสามารถระบุชุดนิวรอนที่ทำหน้าที่นั้นได้อย่างแม่นยำเลยนะ
พอทำตัวเป็นนกแก้วที่พูดแต่คำว่า "Golden Gate Bridge" แล้วลองถามถึงสะพานในเกาหลี มันก็บอกว่าเป็น Golden Gate Bridge เหมือนกันเลย 🫢
ให้ความรู้สึกราวกับว่าเรากำลังค่อยๆ ทำความเข้าใจว่าสมองแต่ละส่วนรับผิดชอบหน้าที่อะไรอยู่เลย..
Anthropic เผยแพร่ Claude เวอร์ชัน "Golden Gate" ที่ปรับแต่งวิธีการทำงานภายในของ LLM