การสกัดแนวคิดจาก GPT-4

(openai.com)

2 คะแนน โดย GN⁺ 2024-06-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดเผยวิธีที่ขยายขนาดได้สำหรับแยกการแทนค่าภายใน GPT‑4 ออกเป็น 16 ล้านฟีเจอร์ เพื่อทำความเข้าใจภายในของโมเดลภาษาให้ดีขึ้น
เครื่องมือหลักคือ sparse autoencoder ซึ่งเป็นแนวทางที่พยายามเชื่อมโยงรูปแบบ activation จำนวนน้อยที่ส่งผลต่อเอาต์พุตเข้ากับแนวคิดที่มนุษย์เข้าใจได้
วิธีใหม่นี้แสดง scaling ที่คาดการณ์ได้มากกว่าวิธีเดิม และถูกใช้ฝึก autoencoder หลายตัวบน activation ของ GPT‑2 small และ GPT‑4
ข้อจำกัดก็ชัดเจนเช่นกัน: ฟีเจอร์จำนวนมากยังตีความได้ยาก และ activation ของ GPT‑4 ที่ผ่าน sparse autoencoder ให้ประสิทธิภาพเพียงระดับเดียวกับโมเดลที่ใช้ปริมาณการคำนวณในการฝึกน้อยกว่าประมาณ 10 เท่า
งานวิจัย โค้ด และเครื่องมือแสดงภาพฟีเจอร์ที่เผยแพร่เป็นฐานสำหรับงานวิจัยต่อยอด และในระยะสั้นมีแผนจะตรวจสอบว่ามีประโยชน์ต่อ การมอนิเตอร์และการชี้นำ พฤติกรรมของโมเดลภาษาหรือไม่

เหตุใดจึงตีความภายในของโครงข่ายประสาทเทียมได้ยาก

วิธีทำความเข้าใจ กิจกรรมของนิวรอน ภายในโมเดลภาษาในปัจจุบันยังไม่เป็นที่ตั้งมั่นเพียงพอ
สิ่งประดิษฐ์อย่างรถยนต์สามารถออกแบบ ประเมิน และซ่อมแซมได้บนพื้นฐานของสเปกชิ้นส่วน แต่โครงข่ายประสาทเทียมไม่ใช่ชิ้นส่วนที่ออกแบบโดยตรง หากเป็นผลลัพธ์ของ อัลกอริทึมการเรียนรู้
ด้วยเหตุนี้ โครงข่ายประสาทเทียมจึงไม่สามารถแยกออกเป็นชิ้นส่วนที่ระบุได้ง่าย และทำให้การจัดการความปลอดภัยของ AI ทำได้ยาก ไม่เหมือนการอนุมานความปลอดภัยของรถยนต์
หากจะตีความโครงข่ายประสาทเทียม ก่อนอื่นต้องค้นหา หน่วยประกอบ ที่มีประโยชน์ในการอธิบายการคำนวณของนิวรอน

แนวทาง sparse autoencoder

activation ภายในโมเดลภาษาถูกเปิดใช้งานเป็นรูปแบบที่คาดการณ์ได้ยาก และดูเหมือนจะแทนแนวคิดหลายอย่างพร้อมกัน
activation ปรากฏอย่างหนาแน่น โดยในแต่ละอินพุตมีองค์ประกอบจำนวนมากถูกเปิดใช้งานร่วมกัน
แนวคิดในโลกจริงมีเพียงส่วนน้อยจากทั้งหมดที่เกี่ยวข้องในบริบทใดบริบทหนึ่ง ดังนั้น ความเบาบาง จึงสำคัญ
sparse autoencoder เป็นวิธีระบุ ฟีเจอร์ จำนวนน้อยที่สำคัญต่อการสร้างเอาต์พุตเฉพาะ
- คาดหวังโครงสร้างที่คล้ายกับแนวคิดจำนวนน้อยที่มนุษย์เก็บไว้ในใจเมื่ออนุมานสถานการณ์
- แม้ไม่ได้ให้รางวัลโดยตรงต่อความตีความได้ ฟีเจอร์ก็แสดงรูปแบบ activation แบบเบาบางที่สอดคล้องกับแนวคิดที่มนุษย์เข้าใจได้อย่างเป็นธรรมชาติ
โมเดลภาษาขนาดใหญ่แทนแนวคิดจำนวนมหาศาล ดังนั้นเพื่อครอบคลุมแนวคิดของ frontier model ได้เพียงพอ autoencoder ก็ต้องมีขนาดใหญ่มากเช่นกัน

ฟีเจอร์ขนาดใหญ่ที่พบใน GPT‑4

OpenAI พัฒนาวิธีวิทยาที่สามารถขยาย sparse autoencoder ใน frontier AI model ไปสู่ระดับ ฟีเจอร์หลายสิบล้านรายการ
วิธีวิทยานี้ให้ผลตอบแทนจากการ scaling ดีกว่าวิธีเดิม และมี คุณสมบัติการขยายขนาด ที่ราบรื่นและคาดการณ์ได้
ยังได้แนะนำตัวชี้วัดใหม่หลายตัวสำหรับประเมินคุณภาพของฟีเจอร์
ด้วยสูตรนี้ ได้ฝึก autoencoder หลากหลายตัวบน activation ของ GPT‑2 small และ GPT‑4
- สำหรับ GPT‑4 ได้ฝึก autoencoder ที่มี 16 ล้านฟีเจอร์
ตรวจสอบความตีความได้ของฟีเจอร์โดยแสดงภาพเอกสารที่ฟีเจอร์เฉพาะถูกเปิดใช้งาน
- ตัวอย่างรวมถึงฟีเจอร์เกี่ยวกับข้อบกพร่องของมนุษย์, การขึ้นราคา, X และ Y, log การฝึก, คำถามเชิงวาทศิลป์, วงแหวนพีชคณิต และ dopamine
- ใน GPT‑4 ยังพบฟีเจอร์ที่เกี่ยวข้องกับ “การกล่าวถึงสิ่งต่าง ๆ โดยเฉพาะมนุษย์ ว่ามีข้อบกพร่อง”
สามารถสำรวจฟีเจอร์เพิ่มเติมได้ใน เครื่องมือแสดงภาพฟีเจอร์

ข้อจำกัดที่ยังเหลืออยู่

แม้มีความคาดหวังว่าความตีความได้อาจช่วยเพิ่มความน่าเชื่อถือและความสามารถในการชี้นำของโมเดล แต่งานปัจจุบันยังอยู่ใน ระยะเริ่มต้น
ฟีเจอร์จำนวนมากที่ค้นพบยังคงตีความได้ยาก
- บางครั้งถูกเปิดใช้งานโดยไม่มีรูปแบบที่ชัดเจน
- บางครั้งเกิด activation ปลอม ที่ไม่เกี่ยวข้องกับแนวคิดซึ่งโดยปกติดูเหมือนว่าฟีเจอร์นั้นเข้ารหัสอยู่
- ยังไม่มีวิธีที่ดีในการยืนยันความถูกต้องของการตีความ
sparse autoencoder ไม่สามารถจับพฤติกรรมทั้งหมดของโมเดลต้นฉบับได้
- เมื่อนำ activation ของ GPT‑4 ผ่าน sparse autoencoder จะได้ประสิทธิภาพเทียบเท่ากับโมเดลที่ฝึกด้วยปริมาณการคำนวณในการฝึกน้อยกว่าประมาณ 10 เท่า
- หากต้องการทำแผนที่แนวคิดของ frontier LLM ให้สมบูรณ์ อาจต้องขยายไปถึงฟีเจอร์ระดับพันล้านหรือหลายล้านล้านรายการ
- แม้จะมีเทคนิค scaling ที่ปรับปรุงแล้ว ขนาดระดับนั้นก็ยังท้าทายอยู่มาก
sparse autoencoder สามารถค้นหาฟีเจอร์ ณ จุดหนึ่งในโมเดลได้ แต่นั่นเป็นเพียงขั้นตอนหนึ่งในการตีความโมเดลทั้งระบบ
- โมเดลคำนวณฟีเจอร์นั้นอย่างไร
- ฟีเจอร์นั้นถูกใช้ในส่วนถัด ๆ ไปของโมเดลอย่างไร
- การทำความเข้าใจทั้งสองประเด็นนี้ยังต้องอาศัยงานอีกมาก

เอกสารที่เผยแพร่และขั้นตอนถัดไป

OpenAI เผยแพร่ งานวิจัย ที่บรรจุการทดลองและวิธีการ
มีชุด autoencoder ทั้งหมดสำหรับ GPT‑2 small และ โค้ด สำหรับใช้งาน
ยังเผยแพร่ เครื่องมือแสดงภาพฟีเจอร์ สำหรับดูว่าฟีเจอร์ของ GPT‑2 และ GPT‑4 อาจสอดคล้องกับอะไร
ในระยะสั้น มีแผนจะทดสอบบน frontier model ว่าฟีเจอร์ที่ค้นพบมีประโยชน์ในทางปฏิบัติต่อ การมอนิเตอร์และการชี้นำ พฤติกรรมของโมเดลภาษาหรือไม่
ในระยะยาว เป้าหมายคือให้ความตีความได้มอบวิธีใหม่ในการอนุมานความปลอดภัยและความแข็งแกร่งของโมเดล และเพิ่มความไว้วางใจอย่างมากผ่านการให้หลักประกันต่อพฤติกรรมของโมเดล AI ที่ทรงพลัง

1 ความคิดเห็น

GN⁺ 2024-06-07

ความเห็นจาก Hacker News

หนึ่งในตัวอย่างแรก ๆ คือ GPT-4 feature: ends of phrases related to price increases แต่จากคำตอบ 5 อัน มี 2 อันที่ดูเหมือนไม่เกี่ยวกับการขึ้นราคาเลย
เช่น มีทั้งประโยคที่บอกว่าราคาน้ำมันดิบลดลง หรือประโยคในใบแจ้งหนี้ซักรีดที่พูดถึงราคาตามสัญญา
เหมือนจะตีความอะไรผิดไปนิดหน่อย ทั้งที่น่าจะมีตัวอย่างให้เลือกเยอะ เลยสงสัยว่าทำไมถึงเลือกตัวอย่างพวกนี้มา
- ต้องดูว่าตัวอย่างส่วนใหญ่ไม่มีตัวนับไฮไลต์สีเขียว
  ไฮไลต์สีเขียวปรากฏในประโยคอย่าง small losses. KEEPING SCORE: The Dow Jones industrial average rose... และประโยคที่เหลือก็ดูเหมือนถูกใส่มาเพื่อให้เห็นความต่างว่าเซลล์ประสาทนี้ตอบสนองต่อ รูปแบบเฉพาะ มากแค่ไหน
เจ๋งมาก และให้ความรู้สึกว่าเป็นทิศทางของ การค้นหาความหมายเชิงลึก ที่รอกันมานาน
ชอบตัวอย่างที่กรองเอกสารด้วยแนวคิดอย่าง “การขึ้นราคา” หรือค้นหาด้วยแนวคิดระดับสูงกว่าอย่าง “คำถามเชิงวาทศิลป์”
สงสัยว่าถ้าเทียบกับวิธีฝึกหรือ fine-tune โมเดลด้วยตัวอย่างคำถามเชิงวาทศิลป์แล้วให้มันไปหาในเอกสาร จะต่างกันแค่ไหน
แทนที่จะป้อนอินพุตแล้วให้มันสร้างคำตอบ วิธีนี้ดูแค่การกระตุ้นของโครงข่ายประสาท จึงอาจเร็วหรือแม่นยำกว่าก็ได้
- Exa กำลังลองทำเรื่องนี้อยู่
  เคยเจอผลลัพธ์ที่น่าสนใจอยู่บ้างด้วยวิธีนี้ แต่ตอนนี้ยังไม่รู้สึกว่าดีพอจริง ๆ
  https://exa.ai/search?c=all
น่าสนใจ และทำให้นึกถึงงานคล้ายกันที่ Anthropic ทำกับ Claude 3 Sonnet
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- หน้าเว็บให้ความรู้สึกเหมือนสื่ออย่างแรงว่า OpenAI เป็นผู้คิดค้น sparse autoencoder สำหรับโปรเจกต์นี้
  ที่แปลกพอสมควรคือบนหน้าเว็บไม่ใส่อ้างอิงไว้ แต่กลับไปซ่อนแหล่งที่มาไว้ในตัวบทความวิจัย
- วิธีการเหมือนกัน และใกล้เคียงกับการที่ OpenAI เอางานวิจัยของ Anthropic มาปรับใช้กับโมเดลของตัวเอง
- เคยมีคนบอกว่าการฝึกสิ่งนี้ใช้ ทรัพยากรการคำนวณ เกือบระดับเดียวกับตอนฝึกโมเดลดั้งเดิม
น่าสนใจที่ผลลัพธ์แบบนี้ออกมาภายในเวลาไม่ถึง 3 สัปดาห์หลังจาก “Mapping the Mind of a Large Language Model” ของ Anthropic
งานแบบนี้น่าตื่นเต้นมาก และแม้จะยังได้ยินกันบ่อยว่า “เราไม่รู้เลยว่า LLM หรือ deep learning ทำงานอย่างไร” แต่งานวิจัยลักษณะนี้ทำให้คำพูดนั้นดูเหมือนเป็นการเหมารวมเกินไป
สงสัยว่าเป็นการรีบปล่อยออกมาเพื่อตอบโต้การประกาศของ Anthropic และการลาออกจาก OpenAI ของ Jan Leike หรือเปล่า
ลิงก์บทความก็ไม่ได้ไปที่ Arxiv และความลึกของการวิเคราะห์ก็ดูตื้นกว่ามาก แต่อาจไม่เกี่ยวกันก็ได้
- ตัวบทความเองก็พูดซ้ำ ๆ ว่า “ปัจจุบันเราไม่รู้ว่าจะตีความกิจกรรมของเซลล์ประสาทในโมเดลภาษาอย่างไร”, “ต่างจากสิ่งประดิษฐ์ส่วนใหญ่ของมนุษย์ เราไม่เข้าใจการทำงานภายในของโครงข่ายประสาทดีนัก”, และ “โครงข่ายยังไม่เป็นที่เข้าใจดี และไม่สามารถแยกออกเป็นส่วนที่ระบุได้อย่างชัดเจนง่าย ๆ”
  ที่คนพูดกันว่าเรายังไม่รู้ว่าทำไมโมเดลถึงให้เอาต์พุตแบบนั้น ก็เพราะตามที่บทความระบุไว้อย่างชัดเจนว่า เรา ยังไม่รู้จริง ๆ
- ไม่เกี่ยวกับเหตุการณ์อื่นที่พูดถึง พวกเขาวางแผนจะเผยแพร่บทความวิจัยในช่วงเวลานี้อยู่แล้ว
  การบอกว่าเรายังแทบไม่รู้ว่า LLM ทำงานอย่างไร ก็ยังถือว่าถูกต้องอยู่มาก
  sparse autoencoder อาจเปลี่ยนเรื่องนี้ได้ในอนาคต แต่ยังอีกไกล
- งานวิจัยแบบนี้กลับยิ่งตอกย้ำว่า เรายังเข้าใจการทำงานภายในน้อยมาก
  ในบล็อกโพสต์เองก็ย้ำหลายครั้งว่างานนี้ยังอยู่ระยะเริ่มต้นและมีข้อจำกัดมาก
- ขี้เกียจไปไล่หาที่มา แต่มีคนบน Twitter ไปพบว่า commit แรกเกิดขึ้นเมื่อ 6 เดือนก่อน
  น่าจะเป็นไปได้ว่าทุกคนอยู่ในบรรยากาศเดียวกันที่ซานฟรานซิสโก และกระแสแบบนี้ก็แพร่ไปทั่ววงการอยู่แล้ว
- การที่ชื่อบทความเหมือนจะสื่อว่า LLM มี จิตใจ ไม่น่าจะเป็นสัญญาณที่ดีนักเกี่ยวกับผู้เขียน
  ยังมีถ้อยคำเรื่อง “ความปลอดภัย” แบบไม่มีความหมายโผล่มาอีกเรื่อย ๆ
  ถ้าแสดงงานที่ทำออกมาให้คนทำซ้ำได้ก็คงดี แต่ถ้ามองเป็นงานโฆษณาก็ไม่ได้แย่
ในอีกตัวอย่างหนึ่ง ดูเหมือนจะจัดเอกสารที่เป็นคำอธิบายทางวิทยาศาสตร์เกี่ยวกับกายวิภาคระบบสืบพันธุ์เป็น เนื้อหาทางเพศ
ลิงก์ของแนวคิดอยู่ที่นี่ [content warning]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
สงสัยว่าวิธีนี้ต่างจากหรือดีกว่าการเอาอะไรอย่าง SHAP[0][1] มาปรับใช้กับโมเดลอย่างไร
ประโยคบรรทัดแรกที่ว่า “ปัจจุบันเราไม่รู้ว่าจะตีความกิจกรรมของเซลล์ประสาทในโมเดลภาษาอย่างไร” ดูเหมือนจะเป็นคำพูดที่ผิดเลยหรือเปล่า
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- มองว่า SHAP เป็นอีกเรื่องหนึ่งพอสมควร
  การวิเคราะห์แบบ Shapley โดยพื้นฐานเป็นวิธีเชิงทฤษฎีเกม และไม่ขึ้นกับชนิดของโมเดล โดยดูเพียงว่าส่วนย่อยแต่ละส่วนของอินพุตมีส่วนต่อการทำนายหนึ่ง ๆ มากแค่ไหน ไม่ได้แตะว่าภายในโมเดลทำงานอย่างไรจนสร้างเอาต์พุตนั้นออกมา
  ถ้ามีแค่ black box ที่เรียกใช้งานได้ ก็สามารถคำนวณค่า Shapley หรือค่าประมาณได้ แต่ไม่ได้อธิบายว่าโมเดลทำงานภายในอย่างไรหรือทำไมถึงทำงานแบบนั้น
ช่วยอธิบายแบบเข้าใจง่ายได้ไหมว่าทำไมเรื่องนี้ถึงสำคัญ? ไม่ถึงขั้นระดับเด็ก 5 ขวบก็ได้ แต่อยากฟังแบบภาษาพื้นฐาน
- ใน AI ที่อิงกับ LLM มี “คุณลักษณะ” อยู่มากมาย ซึ่งค่อนข้างคล้ายกับ “แนวคิด” ในระดับหนึ่ง
  ตัวอย่างเช่น อาจรวมตั้งแต่แนวคิดของเครื่องหมายอะพอสทรอฟีในคำว่า don't ไปจนถึงแพตเทิร์นที่ว่าในบริบทประวัติศาสตร์อเมริกายุคต้น หลัง "George Wash" มักจะตามด้วย "ington"
  ภายในโครงข่ายประสาทของ LLM สิ่งเหล่านี้จะถูกแมปไปยังเส้นทางที่คล้ายวงจรซอฟต์แวร์
  เรายังไม่ค่อยเข้าใจว่าคุณลักษณะเหล่านี้เกิดขึ้นภายใน LLM ได้อย่างไร วงจรใดถูกกระตุ้นตอนสร้างคำตอบ และทำไมจึงตามวงจรนั้น ทำให้ส่วนนี้ดีบักยากและปรับปรุงโมเดลได้ยากด้วย
  ถ้า LLM/AI พัฒนาไปไกลพอ เราคงอยากระบุให้ได้ว่ามันกำลังจงใจหลอกเราหรือไม่ แต่ตอนนี้เรายังทำไม่ได้
  เพราะแบบนี้ สาขาที่พยายามทำความเข้าใจว่าแท้จริงแล้วเกิดอะไรขึ้นภายในโครงข่ายประสาทระหว่างการสร้างและส่งออกแนวคิดจึงเรียกว่า interpretability
  OpenAI, DeepMind และ Anthropic พบวิธีส่องดูวงจรภายในของ LLM และดึงคุณลักษณะบางส่วนออกมาให้เห็นได้
  โดยโยนคำถามให้โมเดลก่อน แล้วดูว่าส่วนไหนของวงจรภายใน “ติดขึ้น” จากนั้นในขั้นตรวจสอบก็เอาวงจรนั้นออกเพื่อดูว่าคุณลักษณะนั้นถูกใช้ในคำตอบน้อยลงหรือไม่
  กราฟและคำที่ถูกเน้นคือภาพแทนเชิงภาพของแนวคิดที่พอมั่นใจได้ค่อนข้างมาก
  เช่น แนวคิดของคำว่า “AND” ที่ใช้เชื่อมสองส่วนของประโยค ก็จะเน้นคำว่า “AND”
  ถ้าสนใจ interpretability ผมมองว่า Neel Nanda เป็นแหล่งข้อมูลที่ดีที่สุด
  แต่แนวทางของเขาต่างจากวิธีของ OpenAI ที่กล่าวถึงในบทความนี้: https://www.neelnanda.io/mechanistic-interpretability
- แนวคิดระดับสูง ที่เก็บอยู่ในโมเดลขนาดใหญ่ เช่น diffusion model หรือ transformer มักแยกออกจากกันได้ยาก และตัวโมเดลเองก็แทบจะเป็นกล่องดำ
  มีงานวิจัยจำนวนมากที่พยายามส่องดูว่าโมเดลรู้อะไรบ้าง และนี่ก็เป็นอีกก้าวหนึ่งในทิศทางนั้น
  มันช่วยให้แยกแนวคิดต่าง ๆ ได้ง่ายขึ้น
  จากตรงนี้อาจนำไปสู่การวิเคราะห์ความรู้ภายในโมเดล และอาจทำให้เพิ่ม ลบ หรือปรับความสำคัญของแนวคิดบางอย่างได้ โดยกระทบแนวคิดที่ไม่เกี่ยวข้องน้อยลง
  แต่ความละเอียดที่เทคนิคเฉพาะนี้ให้ได้ยังน่ากังขาเสมอ และบางแนวคิดก็อยู่ใกล้กันเกินไปจนแยกยาก จึงคงไม่สมบูรณ์แบบ
- ตามคำตอบของ ChatGPT เอง บทความนี้พูดถึงวิธีที่นักวิจัยใช้ sparse autoencoder เพื่อระบุและตีความคุณลักษณะสำคัญภายในโมเดลภาษาที่ซับซ้อนอย่าง GPT-4 ทำให้เข้าใจการทำงานภายในได้มากขึ้น
  ความก้าวหน้าแบบนี้ช่วยเพิ่มความปลอดภัยและความน่าเชื่อถือของ AI โดยแบ่งกระบวนการตัดสินใจของโมเดลออกเป็นส่วนที่ง่ายกว่าและมนุษย์ตีความได้
- โดยรวมแล้วก็เป็นการทำตามงานที่ Anthropic เคยทำ จึงไม่ได้ใหม่ในระดับรากฐาน
  สิ่งที่ทำที่นี่คือการหาแพตเทิร์นภายใน GPT-4 ที่สอดคล้องกับแนวคิดเฉพาะที่ระบุได้
  งานนี้ดูเหมือนจะเป็นผลงานของทีมความปลอดภัยของ OpenAI ที่ตอนนี้แทบถูกยุบไปแล้ว และมีชื่อของ Ilya กับ Jan Leike อดีตผู้ร่วมลีดที่เพิ่งออกไปอยู่ด้วย
  ในเชิงทางการ เป้าหมายคือเรื่องความปลอดภัย และเพื่อให้สามารถเร่งหรือลดการกระตุ้นของแนวคิดบางอย่างระหว่างที่โมเดลทำงานได้
  ตัวอย่างคือเดโมของ Anthropic ที่ทำให้โมเดลหมกมุ่นกับ Golden Gate Bridge: https://www.anthropic.com/news/golden-gate-claude
  งานลักษณะนี้ดูมีศักยภาพเชิงใช้งานด้วย ไม่ใช่แค่ด้านความปลอดภัย เพราะมันชี้ให้เห็นว่าสามารถควบคุมโมเดลให้ทำงานในลักษณะเฉพาะได้
แบบนี้หมายความว่า การเผยแพร่ autoencoder ที่ฝึกครอบอยู่บนโครงข่ายนั้นเพื่อใช้อธิบายเอาต์พุตของโครงข่าย ควรกลายเป็นแนวปฏิบัติที่ดีใช่ไหม?
ถ้าโมเดลเปิดทั้งหมดบน Hugging Face มีของแนบแบบนี้ก็น่าจะมีประโยชน์
- ตัว encoder แบบนั้นน่าจะผูกกับโมเดลเฉพาะตัว
นี่มันเหมือน fMRI สำหรับโครงข่ายประสาทหรือเปล่า?
เหมือนเราจะดูได้ว่าหัวข้อแต่ละแบบทำให้บริเวณไหนติดขึ้น
เลยสงสัยว่าบางทีอาจต่อโครงข่ายประเมินอีกตัวเข้าไปเพื่อประเมินบริเวณที่ติดขึ้นโดยอัตโนมัติได้ไหม
มันดูเหมือนอาจไปได้ไกลถึงขั้นเดียวกับที่ AI เคยสร้างภาพที่ผู้ป่วยกำลังมองจากแค่สแกน fMRI
หนึ่งในความสามารถที่คาดหวังจากงานวิจัยแบบนี้คือการระบุ hotspot ที่ถูกใช้ระหว่างการให้เหตุผล
ดูแล้วเหมือนอาจแคชส่วนเหล่านี้ทั้งหมดหรือบางส่วนได้แบบ virtual machine เพื่อลดเวลาในการตอบ และลดจำนวนรอบการคำนวณที่ต้องใช้ด้วย

การสกัดแนวคิดจาก GPT-4

เหตุใดจึงตีความภายในของโครงข่ายประสาทเทียมได้ยาก

แนวทาง sparse autoencoder

ฟีเจอร์ขนาดใหญ่ที่พบใน GPT‑4

ข้อจำกัดที่ยังเหลืออยู่

เอกสารที่เผยแพร่และขั้นตอนถัดไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News