19 คะแนน โดย xguru 2024-05-24 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อไม่กี่วันก่อน ได้เผยแพร่งานวิจัยสำคัญเกี่ยวกับการตีความวิธีการทำงานภายในของ LLM
  • พบแนวคิดนับล้านที่ถูกกระตุ้นเมื่ออ่านข้อความหรือภาพที่เกี่ยวข้องใน "Mind" ของโมเดล Claude 3 Sonnet
  • เรียกแนวคิดเหล่านี้ว่า "Feature" และหนึ่งในนั้นคือคอนเซปต์ของสะพานโกลเดนเกต (Golden Gate Bridge)
  • ค้นพบว่ามีการผสมกันของนิวรอนเฉพาะในโครงข่ายประสาทของ Claude ที่จะทำงานเมื่อมีการกล่าวถึงหรือเห็นภาพสะพานโกลเดนเกต ซึ่งเป็นแลนด์มาร์กที่มีชื่อเสียงที่สุดของซานฟรานซิสโก
  • ไม่เพียงสามารถระบุฟีเจอร์เหล่านี้ได้เท่านั้น แต่ยังสามารถปรับความแรงของการกระตุ้นและยืนยันการเปลี่ยนแปลงของพฤติกรรม Claude ที่สอดคล้องกันได้
  • เมื่อเพิ่มความแรงของฟีเจอร์ "Golden Gate" คำตอบของ Claude จะเริ่มพูดถึงสะพานโกลเดนเกตในคำถามเกือบทั้งหมด แม้จะไม่เกี่ยวข้องโดยตรงก็ตาม
    • หากถามว่าจะใช้เงิน $10 อย่างไร มันจะแนะนำให้นำไปจ่ายค่าผ่านทางเพื่อข้ามสะพานโกลเดนเกต
    • หากขอให้เขียนเรื่องรัก มันจะเล่าเรื่องรถยนต์ที่รอจะข้ามสะพานที่รักในวันที่มีหมอกปกคลุม
    • หากให้จินตนาการว่าตัวเองมีหน้าตาอย่างไร มันจะตอบว่าดูเหมือนสะพานโกลเดนเกต
  • สามารถลองใช้โมเดลนี้ได้ด้วยตัวเองบน Claude.ai (คลิกโลโก้ Golden Gate)
    • เนื่องจากเป็นเดโมสำหรับงานวิจัย จึงอาจมีการตอบสนองที่ไม่คาดคิดได้
  • การที่สามารถค้นหาและแก้ไขฟีเจอร์เหล่านี้ภายใน Claude ได้ ทำให้มั่นใจว่าเราเริ่มเข้าใจแล้วว่าโมเดลภาษาขนาดใหญ่ทำงานอย่างไรจริง ๆ
  • นี่ไม่ใช่การเพิ่ม "system prompt" แบบใหม่ด้วยการแนบข้อความเพิ่มเติมกับทุกอินพุตเพื่อสั่งให้โมเดลแสดงบทบาท หรือบอกให้ Claude แกล้งเป็นสะพาน
  • และไม่ใช่ "fine-tuning" แบบดั้งเดิมที่ใช้ข้อมูลฝึกเพิ่มเติมเพื่อสร้างแบล็กบ็อกซ์ใหม่มาปรับพฤติกรรมของแบล็กบ็อกซ์เดิม
  • แต่นี่คือการเปลี่ยนแปลงอย่างแม่นยำและเฉพาะจุดต่อบางแง่มุมพื้นฐานที่สุดของการกระตุ้นภายในโมเดล
  • ตามที่อธิบายในงานวิจัย เทคนิคเดียวกันนี้ยังสามารถใช้ปรับความแรงของฟีเจอร์ที่เกี่ยวข้องกับความปลอดภัยได้ เช่น ฟีเจอร์ที่เกี่ยวข้องกับโค้ดคอมพิวเตอร์อันตราย อาชญากรรม หรือการหลอกลวง
  • เชื่อว่าด้วยการวิจัยเพิ่มเติม งานนี้อาจช่วยให้โมเดล AI ปลอดภัยยิ่งขึ้นได้

4 ความคิดเห็น

 
chanran 2024-05-27

ถ้าเทียบกับสมอง ก็เหมือนใช้การกระตุ้นด้วยไฟฟ้าจิ้มสมองเพื่อดูว่าแต่ละส่วนรับผิดชอบหน้าที่อะไร แล้วค่อยวาดแผนที่แบบคร่าว ๆ จากความรู้สึก แต่กรณีนี้ให้ความรู้สึกว่าสามารถระบุชุดนิวรอนที่ทำหน้าที่นั้นได้อย่างแม่นยำเลยนะ

 
laeyoung 2024-05-24

พอทำตัวเป็นนกแก้วที่พูดแต่คำว่า "Golden Gate Bridge" แล้วลองถามถึงสะพานในเกาหลี มันก็บอกว่าเป็น Golden Gate Bridge เหมือนกันเลย 🫢

 
superwoou 2024-05-24

ให้ความรู้สึกราวกับว่าเรากำลังค่อยๆ ทำความเข้าใจว่าสมองแต่ละส่วนรับผิดชอบหน้าที่อะไรอยู่เลย..