ความสามารถแบบ “พุ่งพรวด” ของ LLM อาจค่อยเป็นค่อยไปและคาดการณ์ได้

(quantamagazine.org)

1 คะแนน โดย GN⁺ 2024-03-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นักวิจัยจาก Stanford มองว่าบางส่วนของ ความสามารถเชิงอุบัติ (emergent ability) ของ LLM อาจไม่ได้เกิดขึ้นอย่างฉับพลัน แต่ดูเหมือนเป็นการกระโดดครั้งใหญ่เพราะ วิธีการวัด ประสิทธิภาพ
BIG-bench ประเมิน LLM ด้วยงาน 204 รายการ และสังเกตเห็น การพัฒนาแบบไม่ต่อเนื่อง ในบางงาน โดยประสิทธิภาพแทบเป็นศูนย์อยู่ช่วงหนึ่งก่อนจะพุ่งขึ้นหลังโมเดลมีขนาดถึงระดับหนึ่ง
ตัวชี้วัดความแม่นยำ ที่ดูเพียงถูก/ผิด เช่น การบวกเลขสามหลัก จะนับคำตอบที่ถูกบางส่วนว่าเป็นความล้มเหลว จึงอาจบดบังกระบวนการพัฒนาที่แท้จริง
หากให้คะแนนบางส่วนตามแต่ละหลัก จะเห็น การพัฒนาแบบค่อยเป็นค่อยไป คือเมื่อพารามิเตอร์เพิ่มขึ้น โมเดลทายตัวเลขได้ถูกต้องมากขึ้น ทำให้การตีความว่าความสามารถในการบวกเป็นสิ่งอุบัติลดน้ำหนักลง
ยังมีประเด็นค้างอยู่ทั้งเรื่องการคาดการณ์ว่าตัวชี้วัดใดจะเผยให้เห็นการพัฒนาแบบฉับพลัน และปัญหาการประเมินงานที่คำตอบจริงมีความสำคัญ จึงจำเป็นต้องมี วิทยาศาสตร์การคาดการณ์ สำหรับโมเดลรุ่นถัดไป

การกระโดดของประสิทธิภาพอย่างฉับพลันที่ BIG-bench เห็น

Beyond the Imitation Game benchmark หรือ BIG-bench ประเมินความสามารถของโมเดลภาษาขนาดใหญ่ด้วยงาน 204 รายการที่สร้างโดยนักวิจัย 450 คน
ในงานจำนวนมาก เมื่อโมเดลมีขนาดใหญ่ขึ้น ประสิทธิภาพก็ดีขึ้นอย่างราบรื่นและคาดการณ์ได้ แต่ในบางงาน ประสิทธิภาพที่แทบอยู่ที่ศูนย์เป็นเวลาหนึ่งกลับพุ่งขึ้นอย่างฉับพลัน
บทความวิจัยเดือนสิงหาคม 2022 มองว่าพฤติกรรมเช่นนี้น่าประหลาดใจและคาดเดาได้ยาก และควรถูกนำไปพิจารณาในการอภิปรายเรื่องความปลอดภัย ศักยภาพ และความเสี่ยงของ AI
ความสามารถนี้ถูกเรียกว่า อุบัติการณ์ (emergence) ซึ่งหมายถึงพฤติกรรมรวมหมู่ที่ปรากฏขึ้นก็ต่อเมื่อระบบไปถึงระดับความซับซ้อนสูง

ข้อโต้แย้งจาก Stanford: อาจเป็นภาพลวงตาที่เกิดจากตัวชี้วัดมากกว่าโมเดล

Sanmi Koyejo, Rylan Schaeffer และ Brando Miranda จาก Stanford University โต้แย้งในบทความวิจัยใหม่ว่า การปรากฏขึ้นอย่างฉับพลันของความสามารถอาจมีต้นตอมาจากวิธีวัดประสิทธิภาพของ LLM
ประเด็นสำคัญคือ ความสามารถไม่ได้เกิดขึ้นอย่างคาดการณ์ไม่ได้ แต่ ตัวชี้วัดการวัดผล อาจทำให้การพัฒนาที่ราบรื่นและคาดการณ์ได้ดูเหมือนการกระโดดอย่างฉับพลัน
ทีมวิจัยยอมรับข้อเท็จจริงเองว่า LLM มีประสิทธิภาพมากขึ้นเมื่อมีขนาดใหญ่ขึ้น
อย่างไรก็ตาม เส้นโค้งการพัฒนาจะดูราบรื่น หรือดูขึ้น ๆ ลง ๆ และแหลมคม ไม่ได้ขึ้นอยู่กับการทำงานภายในของโมเดลเท่านั้น แต่ยังได้รับผลจากการเลือกตัวชี้วัดหรือจำนวนตัวอย่างทดสอบที่ไม่เพียงพอด้วย

ขนาดโมเดลและสิ่งที่ประเมิน

LLM ถูกฝึกด้วยการวิเคราะห์ ชุดข้อมูลข้อความ ขนาดมหาศาลจากแหล่งออนไลน์ เช่น หนังสือ การค้นหาเว็บ และ Wikipedia เพื่อค้นหาความเชื่อมโยงระหว่างคำที่มักปรากฏร่วมกัน
ขนาดโมเดลวัดด้วยจำนวนพารามิเตอร์ และพารามิเตอร์สอดคล้องโดยคร่าว ๆ กับรูปแบบที่คำต่าง ๆ สามารถเชื่อมโยงกันได้
ขนาดของโมเดลหลักมีดังนี้
- GPT-2: พารามิเตอร์ 1.5 พันล้าน ตัว
- GPT-3.5: พารามิเตอร์ 350 พันล้าน ตัว
- GPT-4: เปิดตัวในเดือนมีนาคม 2023 เป็นพื้นฐานของ Microsoft Copilot และมีรายงานว่าใช้พารามิเตอร์ 1.75 ล้านล้าน ตัว
ประเด็นว่ามีงานที่ LLM ขนาดใหญ่ทำได้แต่โมเดลขนาดเล็กทำไม่ได้นั้น ไม่ใช่แก่นของข้อถกเถียง
นักวิจัยจาก Stanford ก็ยอมรับว่า ความซับซ้อนเพิ่มเติมของโมเดลที่ใหญ่ขึ้นสามารถเพิ่มประสิทธิภาพในปัญหาที่ยากและหลากหลายกว่าเดิมได้

ข้อจำกัดของตัวชี้วัดความแม่นยำที่เผยให้เห็นจากการบวกเลขสามหลัก

ในงานวิจัย BIG-bench ปี 2022 GPT-3 และ LAMDA ถูกประเมินว่าแก้โจทย์บวกเลขได้ไม่ถูกต้องเมื่อมีพารามิเตอร์น้อย
GPT-3 ดูเหมือนจู่ ๆ จะบวกเลขได้เมื่อถูกฝึกด้วยพารามิเตอร์ 13 พันล้าน ตัว และ LAMDA ก็แสดงความเปลี่ยนแปลงคล้ายกันที่พารามิเตอร์ 68 พันล้าน ตัว
ผลลัพธ์นี้นำไปสู่การตีความว่าความสามารถในการบวกอุบัติขึ้นที่ค่าเกณฑ์บางอย่าง
นักวิจัยจาก Stanford ชี้ว่า การประเมินนี้ดูเพียง ความแม่นยำ เท่านั้น ดังนั้นหากไม่ถูกทั้งหมดก็จะถูกนับว่าเป็นความล้มเหลว
- ตัวอย่างเช่น หากตอบ 376 สำหรับ 100+278 คำตอบนี้ใกล้คำตอบจริงมากกว่า −9.34 มาก แต่ในตัวชี้วัดแบบถูก/ผิด ทั้งคู่ถือว่าล้มเหลว
ทีมวิจัยใช้ ตัวชี้วัดคะแนนบางส่วน ที่ดูว่าทำนายตัวเลขหลักแรก หลักที่สอง และหลักที่สามได้ดีเพียงใดแยกกัน
ด้วยตัวชี้วัดนี้ เมื่อพารามิเตอร์เพิ่มขึ้น จะเห็นรูปแบบที่ LLM ทำนายลำดับตัวเลขของผลบวกได้แม่นยำขึ้นเรื่อย ๆ
ดังนั้น ความสามารถในการบวกจึงอาจตีความได้ว่าเป็น การพัฒนาแบบค่อยเป็นค่อยไปและคาดการณ์ได้ ไม่ใช่การกระโดดที่ฉับพลันและคาดการณ์ไม่ได้

ข้อถกเถียงที่ยังเหลืออยู่

Tianshi Li จาก Northeastern University มองว่าบทความของ Stanford ยังไม่ได้อธิบายถึงวิธีคาดการณ์ว่าตัวชี้วัดใดจะแสดงให้เห็นการพัฒนาอย่างฉับพลันของ LLM และเมื่อใด
ในแง่นี้ จึงยังมีพื้นที่ให้มองว่าความสามารถบางอย่างยังคง คาดการณ์ไม่ได้
Jason Wei จาก OpenAI แย้งว่า สำหรับความสามารถที่คำตอบถูกต้องมีความสำคัญ เช่น เลขคณิต คำตอบที่ถูกต้องเองนั้นสำคัญ ดังนั้นรายงานก่อนหน้าที่ว่ามีอุบัติการณ์ก็ยังถือว่าสมเหตุสมผล
Alex Tamkin จาก Anthropic ประเมินว่าบทความใหม่ทำให้เราแบ่งงานหลายขั้นตอนออกเป็นส่วนย่อย และรับรู้บทบาทขององค์ประกอบแต่ละส่วนได้
ขณะเดียวกัน Tamkin มองว่าไม่อาจกล่าวได้ว่าการกระโดดทั้งหมดเป็นภาพลวงตา และมีเอกสารวิชาการที่แสดงความไม่ต่อเนื่องแม้ใช้การทำนายแบบขั้นตอนเดียวหรือตัวชี้วัดแบบต่อเนื่อง

โจทย์สำหรับการคาดการณ์โมเดลที่ใหญ่ขึ้น

Xia “Ben” Hu จาก Rice University มองว่า แม้ปัจจุบันจะอธิบายอุบัติการณ์ของ LLM ได้ด้วยเครื่องมือวัดแบบอื่น แต่คำอธิบายเดียวกันอาจใช้ไม่ได้กับ LLM ในอนาคตที่ใหญ่และซับซ้อนกว่า
Hu กล่าวว่า เมื่อ LLM ขยายไปสู่ระดับถัดไป มันจะยืมความรู้จากงานอื่นและโมเดลอื่น
สำหรับ Tamkin การถกเถียงเรื่องอุบัติการณ์เชื่อมโยงโดยตรงกับความพยายามคาดการณ์ว่า LLM จะมีพฤติกรรมอย่างไร
เนื่องจากเทคโนโลยี LLM มีขอบเขตการใช้งานกว้าง การสร้าง วิทยาศาสตร์การคาดการณ์ เพื่อไม่ให้เราประหลาดใจกับโมเดลรุ่นถัดไปจึงมีความสำคัญมากขึ้น

1 ความคิดเห็น

GN⁺ 2024-03-26

ความคิดเห็นบน Hacker News

งานวิจัยนี้มีปัญหาอยู่หลายอย่าง: 1) การเปลี่ยนตัวชี้วัดความแม่นยำแบบผ่าน/ไม่ผ่านเป็นตัวชี้วัดที่นุ่มนวลกว่าอย่าง ระยะห่างการแก้ไขโทเคน อาจเป็นตัวแทนความสามารถที่แย่มาก ขึ้นอยู่กับโจทย์
2) แม้ดูตามตัวชี้วัดของผู้เขียน ก็ยังพบ ความสามารถเชิงอุบัติที่เป็นไปได้ อยู่บางอย่าง
3) หลังจากเรื่องผ่านไปแล้ว ทุกอย่างก็ดูง่ายไปหมด เราสามารถกลับไปดูข้อมูลแล้วปรับแต่งจนกว่าจะเจอการแปลงที่ทำให้อุบัติการณ์หายไปได้ แต่ในตอนนั้นใช้ตัวชี้วัดความแม่นยำของการทดสอบที่พบได้ทั่วไป และสิ่งที่ควรจับตาจริง ๆ คือผลลัพธ์นั้นคาดเดาไม่ได้และน่าประหลาดใจ
บทความนี้มีคุณค่า แต่ไม่ควรลากข้อสรุปไปไกลเกินไป
- อย่างที่กล่าวไว้ช่วงท้ายบทความ การบวกที่เกือบถูกไม่ได้มีความหมายมากนัก มันมีแค่ถูกหรือผิด
  ถึงอย่างนั้น แม้หลังเปลี่ยนวิธีให้คะแนนแล้ว ความสามารถเชิงอุบัติ บางส่วนก็ยังเหลืออยู่ จึงถือว่าความพยายามนั้นดี
ผมคิดว่า “ถ้าใช้ไม้บรรทัดคนละแบบ อุบัติการณ์ก็หายไป” น่าจะใช้ได้กับ พฤติกรรมเชิงอุบัติ ส่วนใหญ่ไม่ใช่หรือ
ถ้าเปลี่ยนสเกลไปดูโมเลกุลน้ำทีละโมเลกุล ก็จะเห็นว่าไม่ได้มีน้ำแข็งก้อนหนึ่งโผล่ขึ้นมากะทันหัน แต่เป็นโมเลกุลที่ค่อย ๆ จับเข้ากับโครงสร้างผลึกทีละตัว
- ไม่จำเป็นต้องเป็นอย่างนั้น ปัญหาคือคำนิยามในแมชชีนเลิร์นนิงนั้นหลวมเป็นพิเศษ
  ผมเขียนไว้ละเอียดกว่านี้ที่นี่[0] สิ่งที่คุณพูดคือการอธิบายอุบัติการณ์ แต่ต่างจากสิ่งที่ถูกอ้างเมื่อบอกว่า LLM มี ความสามารถเชิงอุบัติ ความแตกต่างนั้นก็อธิบายไว้ในบทความด้วย
  [0] https://news.ycombinator.com/item?id=39812315
- แต่แม้รู้โครงสร้างโมเลกุลที่ 50°C และ 75°C ก็แทบไม่ได้รู้อะไรเกี่ยวกับ จุดเยือกแข็ง เลย
  อีกตัวอย่างหนึ่ง ถ้าวัดจำนวนกรณีติดเชื้อของไวรัสบางชนิด มันอาจแพร่ไปทั่วโลก (R0 > 1 เช่น COVID-19) หรือไม่แพร่กระจายกว้าง (R0 < 1 เช่น Ebola) แม้จะไม่ใช่ทวิภาวะโดยสมบูรณ์ แต่เมื่อมองจากภายนอกก็ดูเหมือนเป็นทวิภาวะ จึงเป็นพฤติกรรมเชิงอุบัติ
  กลับกัน หากวัด R0 โดยตรง จะเห็นการเพิ่มขึ้นแบบค่อยเป็นค่อยไป และทำนายการกลายพันธุ์ในอนาคต ประสิทธิภาพวัคซีน ฯลฯ ได้ง่ายกว่ามาก
  ผมมองว่า “อุบัติ” หมายถึงสิ่งอย่าง ซิกมอยด์ ส่วน “ค่อยเป็นค่อยไป” หมายถึงฟังก์ชันเชิงเส้นหรือลอการิทึม
- ไม่มีใครเข้าใจผิดว่าน้ำแข็งเป็นอุบัติการณ์แบบฉับพลัน มองด้วยตาเปล่าก็ชัดเจนว่าเป็นสิ่งที่ ค่อย ๆ ก่อตัวขึ้น
บทความวิจัย: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
หลังจากอนาคตมาถึงแล้ว การทำนายก็ง่ายขึ้นเสมอ
จริง ๆ แล้วอาจมีคุณสมบัติเชิงอุบัติอย่าง การเปลี่ยนเฟส ที่แม้มองย้อนหลังแล้วก็ยังทำนายได้ยาก แต่ผมคิดว่าน่าจะไม่พบบ่อย และยังสงสัยด้วยว่ามีตัวอย่าง LLM ที่น่าเชื่อถือสักกรณีหรือไม่
กรณีที่พบทั่วไปกว่าน่าจะเป็นความสามารถระดับสูงที่พึ่งพาความสามารถย่อยหลายอย่าง และความสัมพันธ์นั้นคาดเดาได้ยาก องค์ประกอบต่าง ๆ อาจพัฒนาอย่างราบรื่นก็จริง แต่ต้องรู้ว่าควรมองอะไร กล่าวคือองค์ประกอบสำคัญคืออะไร
หากจะทำนายความสามารถเชิงอุบัติ ต้องระบุองค์ประกอบที่จำเป็นล่วงหน้า และต้องจำลองในระดับหนึ่งด้วยว่าแต่ละองค์ประกอบควรอยู่ในระดับใดจึงจะรองรับพฤติกรรมที่คาดหวังได้
แน่นอนว่าไม่ใช่แค่เรื่องขนาดโมเดลหรือปริมาณข้อมูลเท่านั้น ชนิดและคุณภาพของข้อมูลก็สำคัญเช่นกัน และระหว่างเวอร์ชันของโมเดลอาจมีการเปลี่ยนแปลงอย่างรวดเร็วได้ การวิเคราะห์ล่วงหน้าว่าโมเดลจะเรียนรู้แพตเทิร์นหรือการจัดการใหม่อะไร หรือก็คือความสามารถขององค์ประกอบใด จากชุดฝึกที่อัปเดตแล้วนั้นทำได้ยากมาก
ผมสงสัยเหมือนกันว่าทิศทางตรงข้ามเกิดขึ้นบ่อยแค่ไหน กรณีที่ผู้ออกแบบโมเดลระบุได้สำเร็จว่า “ถ้าจะทำ X ต้องมีความสามารถ A, B, C และถ้าจะได้ A, B, C ต้องใช้ชุดข้อมูลใหม่ P และ Q” ในสถานการณ์สมมติแบบนั้น ก็คงวัดความคืบหน้าไปสู่ความสามารถ X ได้
- เท่าที่รู้ ก่อน Transformer เรื่องแบบนั้นไม่เคยเกิดขึ้นเลย เพราะโมเดลไม่สามารถบรรจุทักษะแยกย่อยจำนวนมากขนาดนั้นไว้โดยไม่รบกวนกันเองได้
  การที่มีโมเดลซึ่งมีความสามารถคุณภาพสูงหลายอย่างในตัวเอง ยังถือเป็นปรากฏการณ์ที่ค่อนข้างใหม่
  ถึงอย่างนั้น ผมคิดว่าแนวทางแบบนั้นจำเป็น และ LLM ชั้นนำในปัจจุบันก็น่าจะกำลังทำสิ่งคล้ายกันอยู่แล้ว เพียงแต่ไม่มีที่ไหนเปิดเผยว่ากำลังทำอะไร จึงเป็นแค่การคาดเดา
“แต่ในงานอื่น ๆ การพัฒนาความสามารถไม่ได้ราบรื่น ประสิทธิภาพคงอยู่ใกล้ศูนย์อยู่พักหนึ่งแล้วจู่ ๆ ก็กระโดดขึ้น งานวิจัยอื่น ๆ ก็พบการกระโดดของความสามารถในลักษณะคล้ายกัน”
โอ้ ชื่อที่ส่งมานี่ค่อนข้างไม่แม่นเลยไม่ใช่หรือ
- ย่อหน้านั้นเป็นการสรุป ผลการวิจัยก่อนหน้า และบทความนี้ก็กำลังท้าทายผลลัพธ์นั้นโดยตรง
- ในบริบทนี้ ดูเหมือนหมายความว่าความสามารถเหล่านั้นถูกศึกษาและสร้างขึ้นอย่างตั้งใจ ไม่ได้จู่ ๆ โผล่ออกมาจากที่ไหนก็ไม่รู้
  คนส่วนใหญ่ในโลกถูกการปรากฏตัวอย่างกะทันหันของ “AI” ทำให้ตั้งตัวไม่ทัน แต่ก็มีคนที่รู้อยู่แล้วว่าสิ่งเหล่านี้กำลังจะมา
วิธีการให้คะแนนบางส่วนก็ใช้ได้ แต่ถ้าจะพยายามฝึกโมเดลให้ตอบคำตอบที่ถูกต้อง การที่ตอบถูกหรือไม่นั้นก็สำคัญ
ตอนฝึกเลขคณิตด้วยโมเดลขนาดเล็ก แม้กราฟ loss จะไปถึงสถานะเสถียรแล้ว ก็ยังเห็นว่าตัวเลขบางตัวถูก แต่คำตอบโดยรวมยังผิดอยู่ ยังฝึกต่อได้ แต่จำนวน epoch การฝึก ที่ต้องใช้ดูเหมือนจะแปรผกผันแบบเอ็กซ์โปเนนเชียลกับขนาดโมเดล
ดังนั้นโมเดลที่มีพารามิเตอร์ x ตัวจะใช้เวลานานกว่าโมเดลที่มี 2x ตัวอยู่ n² เท่า อะไรทำนองนั้น
เมื่อจำนวนพารามิเตอร์อยู่ระดับหนึ่ง การจะได้คำตอบที่ถูกต้องด้วยการฝึกแบบ gradient descent แทบจะเป็นไปไม่ได้ในทางปฏิบัติ
ยิ่งมีพารามิเตอร์มาก ก็ยิ่งผลักให้ลู่เข้าได้ง่าย ซึ่งเป็นตัวชี้วัดที่สำคัญจริง ๆ
หลังจากจุดหนึ่ง เวลาที่คาดว่าจะต้องใช้จนความสามารถนั้นปรากฏขึ้นเองจะยาวนานกว่าช่วงชีวิตมนุษย์ หรือแม้แต่ช่วงชีวิตของมนุษยชาติทั้งหมดด้วยซ้ำ ในแง่ที่ว่าการเพิ่มขนาดโมเดลทำให้สิ่งนี้เป็นไปได้ ผมคิดว่าพูดได้ว่าความสามารถนั้น emergent ขึ้นมาอย่างฉับพลันพอสมควร
- ประเด็นสำคัญคือ แม้เราจะต้องการโมเดลที่ตอบถูก แต่ถ้าจะดูว่าอยู่ห่างจากเป้าหมายแค่ไหน ก็ควรใช้ คะแนนบางส่วน แทนความถูกต้องแบบสองค่า
  ถ้าใช้ตัวชี้วัดที่การปรับปรุงดูเหมือนเกิดขึ้นฉับพลันและคาดเดาไม่ได้ ความสามารถอาจปรากฏขึ้นเอง ทำให้ประเมินไม่ได้เลยว่าต้องฝึกต่ออีกเท่าไร
  กลับกัน ถ้าตัวชี้วัดคะแนนบางส่วนดีขึ้นอย่างราบรื่นและคาดการณ์ได้ ก็มีโอกาส extrapolate ความคืบหน้าการฝึกเพื่อกะได้ว่าจะถึงความแม่นยำเป้าหมายเมื่อไร มากกว่าการ extrapolate ความแม่นยำโดยตรง
  ถ้าเวลาที่คาดไว้ยาวนานเกินไปจนต้องตัดสินใจฝึกโมเดลที่ใหญ่กว่า ก็อาจใช้การ extrapolate ระหว่างขนาดโมเดลเพื่อประเมินได้ว่าต้องใช้โมเดลใหญ่แค่ไหน
- การฝึกโมเดลดูเหมือนจะถูกปรับให้เหมาะกับ ความต่อเนื่อง มากเกินไป เช่น ตัวแปรต่อเนื่องสามารถแบ่งย่อยได้ไม่จำกัด แต่ตรรกะและอัลกอริทึมไม่ใช่สิ่งคลุมเครือแบบนั้น หากเป็นโครงสร้างที่แข็งแรง
  เพื่อให้เอเจนต์ที่เรียนรู้สามารถเรียนตรรกะและอัลกอริทึมได้อย่างถูกต้อง ดูเหมือนว่ามันต้องสามารถ generalize จากแนวคิดที่คลุมเครือไปสู่แนวคิดที่แข็งแรงได้ ยังไม่แน่ชัดว่าสิ่งนั้นจะเกิดขึ้นเองจากการ scale แบบง่าย ๆ หรือจำเป็นต้องมีการเปลี่ยนผ่านพื้นฐาน
- เห็นโพสต์นี้ไหม? https://news.ycombinator.com/item?id=39575264
  ฟังดูเหมือนเป็นเรื่องที่เชื่อมโยงกัน
เป็น paper ที่ดี อย่างไรก็ดี emergence ไม่ได้จำเป็นต้องต้องมีการกระโดดของตัวชี้วัดอย่างฉับพลันหรือความคาดเดาไม่ได้เสมอไป ความสามารถใหม่อาจเกิดขึ้นแบบค่อยเป็นค่อยไปก็ได้
- เวลาพูดถึง “emergence” ในแมชชีนเลิร์นนิง ตามที่ paper ที่นำคำนี้มาใช้อธิบายไว้ หมายถึง ตัวชี้วัดที่มีการกระโดดอย่างฉับพลัน: https://arxiv.org/abs/2206.07682
โมเดลอาจกำลังฉลาดขึ้นโดยไม่มีการกระโดดแบบไม่ต่อเนื่องก็ได้ เพียงแต่เพราะวัดด้วยวิธีที่ไม่ให้คะแนนคำตอบบางส่วน เราเลยพลาดสัญญาณที่มันคมขึ้นมาอย่างต่อเนื่อง
เรื่องนี้ดูจะสอดคล้องอยู่บ้างกับสิ่งที่ดูเหมือนเป็นความคิดของ Sam Altman ดูเหมือน OpenAI จะรู้สึกว่าสามารถคาดการณ์ ความสามารถด้านการให้เหตุผล ของโมเดลได้ค่อนข้างดีจากปริมาณ compute ในการฝึกและขนาดข้อมูลเท่านั้น
- Sam Altman ใกล้เคียงกับฝ่ายเซลส์มากกว่า และนั่นไม่ใช่ความคิดของเขาเท่าไร แต่เป็นความคิดของผู้เชี่ยวชาญจำนวนมากที่ทำงานใน OpenAI ซึ่งเขานำมาพูดซ้ำ
นาฬิกาที่หยุดเดินก็ยังถูกวันละสองครั้ง
LLM คือ เครื่องจักรสร้างความน่าเชื่อถือผิวเผิน สมมติฐานพื้นฐานที่กำลังตรวจสอบตรงนี้คือ เมื่อความน่าเชื่อถือผิวเผินเพิ่มขึ้น ความถูกต้องก็จะเพิ่มขึ้นด้วย
สมมติฐานนี้หักล้างได้ง่าย ๆ แค่ดูคอนเทนต์ที่มนุษย์เขียนซึ่งใช้ฝึก LLM ดังนั้นปรากฏการณ์ทั้งหมดที่พึ่งพามันย่อมมีเพดานบน เพราะฉะนั้นการทำให้ LLM ใหญ่ขึ้นอย่างเดียวจะไม่ทำให้เกิด AGI
- การบอกว่า “LLM คือเครื่องจักรสร้างความน่าเชื่อถือผิวเผิน” เป็นวิธีหนึ่งในการมอง LLM แต่แค่นั้นไม่ได้ทำให้ความสามารถมีเพดานบนโดยอัตโนมัติ
  การบอกว่ามนุษย์เป็นสิ่งมีชีวิตที่สืบพันธุ์ก็จริงเช่นกัน มองเผิน ๆ อาจดูเหมือนมนุษย์ถูกคัดเลือกเพื่อความสามารถในการสืบพันธุ์เท่านั้น จึงไม่น่าจะวิวัฒนาการให้มีสติปัญญาได้ แต่ความจริงไม่ใช่อย่างนั้น แม้เป็นการจัดประเภทที่จริง ก็ไม่ได้กำหนดเพดานความสามารถของมนุษย์
  LLM วิวัฒน์มาเพื่อเก็บรักษาความรู้ให้มีประสิทธิภาพสูงสุด
  กลยุทธ์ง่าย ๆ ของการเก็บรักษาความรู้คือการท่องจำ และ neural network ก็ท่องจำได้แน่นอน
  อีกกลยุทธ์คือการใช้ อัลกอริทึม neural network ก็สามารถวิวัฒน์ให้เก็บรักษาความรู้ด้วยอัลกอริทึมได้ เช่น เคยเห็น neural network ขนาดเล็กวิวัฒน์โครงสร้างคล้าย FFT เพื่อทำการบวก ตอนแรกเริ่มจากการท่องจำและยังไม่สมบูรณ์ แต่ช่วงท้ายของการฝึกได้เปลี่ยนไปใช้อัลกอริทึมการบวกแบบ FFT และให้ผลลัพธ์สมบูรณ์
  ผมมองว่า LLM ที่ดีกว่าเก็บรักษาความรู้ด้วยการบีบอัดที่ซับซ้อน ซึ่งรวมถึงการสร้าง world model และเชื่อมข้อความอินพุตเข้ากับโมเดลนั้น
  ผมคิดว่านี่คือส่วนประกอบของเครื่องจักรให้เหตุผล มันยังไม่สมบูรณ์ มีบั๊ก และสถาปัตยกรรมปัจจุบันอาจใกล้ถึงขีดจำกัด แต่ก็แตกต่างจากการท่องจำล้วน ๆ อย่างสิ้นเชิง
- กำลังตั้งสมมติฐานว่ามนุษย์แสวงหา ความถูกต้อง อย่างสม่ำเสมอ ไม่ใช่ความน่าเชื่อถือผิวเผิน
  ข้อเท็จจริงที่ว่าระบบวิทยาศาสตร์ทั้งระบบถูกออกแบบมาเพื่อกดทับข้ออ้างที่ดูน่าเชื่อถือแต่ผิด กลับแสดงให้เห็นสิ่งตรงข้าม
- ในความหมายเชิงปรัชญาก็ถูก แต่ในทางปฏิบัติ AI กำลังอยู่บนเส้นทางที่จะเหนือกว่ามนุษย์ในงานและตำแหน่งจำนวนมากที่ก่อนหน้านี้ถูกมองว่าต้องใช้สติปัญญา
- ข้อสรุปที่ว่า “ปรากฏการณ์ทั้งหมดที่พึ่งพามันย่อมมีเพดานบน” ฟังดูน่าเชื่อถือ แต่ถูกโต้แย้งได้ง่ายด้วยตัวอย่างสวนทาง นักเรียนที่ดีสามารถเหนือกว่าครูได้ และนักเรียนธรรมดาหากเรียนจากครูหลายคน ก็อาจเหนือกว่าทุกคนได้
  นอกประเด็นนิดหนึ่ง นั่นจึงเป็นเหตุผลที่ผมคิดว่าระบบ master-journeyman ในยุคกลางมีประสิทธิภาพมาก
  พูดให้เป็นนามธรรมขึ้น ข้อสรุปนั้นดูเหมือนตั้งสมมติฐานว่า transfer learning ไม่มีอยู่จริง
ตัวชี้วัดที่ผู้เขียนใช้ทำให้สับสน
edit distance ดูเหมือนเป็นวิธีที่แปลกในการทดสอบว่าโมเดลเข้าใจเลขคณิตหรือไม่ ([1], Figure 3) 1+3=3 น่าจะถูกถือว่าถูกพอ ๆ กับ 1+1=9
สงสัยว่าทำไมไม่ดูว่าเอาต์พุตของโมเดลห่างจากค่าจริงแค่ไหนด้วย abs(actual-expected) อยากรู้ว่าตัวชี้วัดนั้นก็มี จุดเปลี่ยนความโค้ง หรือไม่
https://arxiv.org/abs/2206.07682
- ขึ้นอยู่กับว่าทำเลขคณิตอย่างไร ถ้าคนทำบวกแนวตั้ง 12345+35791=58136 ก็เป็นความผิดพลาดใหญ่พอ ๆ กับ 48146 ผลจริงคือ 48136 และทั้งสองกรณีผิดแค่หลักเดียวเหมือนกัน วงจร half-adder แบบไบนารีก็ทำงานในลักษณะเดียวกัน
  เราไม่รู้ว่า LLM ทำเลขคณิตอย่างไร token edit distance อาจน่าสนใจก็ได้ แต่ไม่ว่าจะอย่างไร ข้ออ้างหลักของ paper ก็ไม่ได้เปลี่ยนไปมากนัก
  แยกอีกเรื่อง ลิงก์ผิด paper ที่พูดถึงอยู่คืออันนี้: https://arxiv.org/pdf/2304.15004.pdf

ความสามารถแบบ “พุ่งพรวด” ของ LLM อาจค่อยเป็นค่อยไปและคาดการณ์ได้

การกระโดดของประสิทธิภาพอย่างฉับพลันที่ BIG-bench เห็น

ข้อโต้แย้งจาก Stanford: อาจเป็นภาพลวงตาที่เกิดจากตัวชี้วัดมากกว่าโมเดล

ขนาดโมเดลและสิ่งที่ประเมิน

ข้อจำกัดของตัวชี้วัดความแม่นยำที่เผยให้เห็นจากการบวกเลขสามหลัก

ข้อถกเถียงที่ยังเหลืออยู่

โจทย์สำหรับการคาดการณ์โมเดลที่ใหญ่ขึ้น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News