- ท่ามกลางความกังขาที่เพิ่มขึ้นในหมู่ห้องวิจัย AI รายใหญ่ต่อ กลยุทธ์การขยายแบบไม่สิ้นสุด มีตัวอย่างที่ชี้ว่าขนาดโมเดลไม่ได้รับประกันความแม่นยำต่อความเป็นจริง
- GLM-5.2 โมเดล open-weight ภายใต้สัญญาอนุญาต MIT มี 753B พารามิเตอร์ และพารามิเตอร์ที่ทำงานอยู่จริงราว 40B เข้าใกล้ GPT-5.5 เหลือเพียง 4 คะแนน
- อัตราหลอนของ AA-Omniscience อยู่ที่ GLM-5.2 28%, GPT-5.5 86%, DeepSeek V4 Pro 94% ทำให้ช่องว่างด้าน การปรับเทียบความไม่แน่นอน มีความสำคัญพอๆ กับคะแนนประสิทธิภาพ
- ในการทดสอบ Python นั้น DeepSeek V4 Pro ใช้เวลา 3 นาที 52 วินาทีและ 7.7k reasoning tokens แต่ยังตอบผิด ขณะที่ GLM-5.2 ใช้ 12 วินาทีและราว 800 tokens เพื่อชี้ว่าเป็น ความเป็นไปไม่ได้ทางเทคนิค
- การเลือกโมเดลตัดสินจากจำนวนพารามิเตอร์หรือประสิทธิภาพตามทฤษฎีอย่างเดียวได้ยาก และต้องดูทั้งความสามารถดิบ อัตราหลอน และประสิทธิภาพการคำนวณร่วมกัน
ข้อสงสัยต่อกลยุทธ์การขยายโมเดล
- ในหมู่ห้องวิจัย AI หลักๆ กำลังมีความกังขามากขึ้นต่อแนวทางที่พยายามยกระดับประสิทธิภาพต่อเนื่องด้วย การเพิ่มจำนวนพารามิเตอร์และขยายข้อมูลฝึก เพียงอย่างเดียว
- Claude Fable 5 ถูกสหรัฐฯ จำกัดการใช้งานหลังเปิดตัว 3 วัน และถูกมองว่าเป็นกรณีแรกของการแบน AI ของสหรัฐฯ ที่มีที่มาจากความมั่นคงแห่งชาติ
- กรณีที่โมเดลขนาดระดับต้นๆ ของโลกถูกแบนเพราะความเสี่ยงจาก jailbreak เพียงแบบเดียว ถูกใช้เป็นตัวอย่างที่แสดงข้อจำกัดของกระบวนทัศน์การขยาย
- โมเดลขนาดใหญ่ยังคงทำคะแนนสูงใน Artificial Analysis Intelligence Index แต่โมเดล open-weight ก็ลดช่องว่างลงได้มากเช่นกัน
- GLM-5.2 ของ Z.ai เป็น LLM แบบ open-weight ภายใต้สัญญาอนุญาต MIT ที่มี 753B พารามิเตอร์ และพารามิเตอร์ที่ทำงานอยู่จริงราว 40B
- GLM-5.2 เข้าใกล้ GPT-5.5 เหลือ 4 คะแนน และ Fable 5 เหลือ 9 คะแนนใน Artificial Analysis Intelligence Index
- ในสถานการณ์ที่คาดว่าโมเดลแบบปิดมีขนาดใหญ่กว่า GLM-5.2 ราว 1.5~2 เท่า การหดแคบลงของช่องว่างนี้สนับสนุนความเป็นไปได้ของ plateau ของสติปัญญาจริง
ปัญหาการปรับเทียบความไม่แน่นอนที่อัตราหลอนเปิดเผย
- โมเดลที่ฝึกด้วยข้อมูลข้อเท็จจริงจำนวนมากและไม่เน้นเชิงทฤษฎี อาจถูกเสริมแรงให้ตอบแม้ในยามที่ไม่รู้
- อัตราหลอนของ AA-Omniscience benchmark แตกต่างกันมากในแต่ละโมเดล
- เปรียบเทียบอัตราหลอน:
- DeepSeek V4 Pro: 1.6T พารามิเตอร์, พารามิเตอร์ที่ทำงานอยู่จริง 49B, AA Intelligence Index 44 คะแนน, อัตราหลอน 94%
- GLM-5.2: อัตราหลอน 28%
- Opus 4.8: อัตราหลอน 36%
- Fable 5: อัตราหลอน 48%
- GPT-5.5: อัตราหลอน 86%
- อัตราหลอน 94% ของ DeepSeek V4 Pro หมายความว่าในคำถามที่มันหาคำตอบไม่ได้ สัดส่วนที่ตอบว่า “ไม่รู้” มีเพียงราว 6% ส่วนที่เหลือเป็นคำตอบผิดที่ให้มาอย่างมั่นใจ
ประสิทธิภาพการคำนวณที่แยกกันชัดในบททดสอบ Python
- การทดสอบเปรียบเทียบดำเนินด้วยคำถาม Python ที่ค่อนข้างซับซ้อนและมีข้อบกพร่องเชิงสถาปัตยกรรมที่ชัดเจน
- ทั้งสองโมเดลถูกทดสอบบน OpenRouter ด้วย
highreasoning effort และ temperature 1 - system prompt คือ “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 ให้บริการโดย Z.ai ด้วย FP8 precision และ DeepSeek V4 Pro ให้บริการโดย Baidu Qianfan ด้วย FP8 precision
- ทั้งสองโมเดลถูกทดสอบบน OpenRouter ด้วย
- DeepSeek V4 Pro ใช้เวลา 3 นาที 52 วินาที พร้อมใช้ 7.7k reasoning tokens แต่ยังสร้างคำตอบผิดอย่างมั่นใจ
- GLM-5.2 ใช้เวลาเพียง 12 วินาทีและ reasoning tokens ราว 800 เพื่อสรุปว่าการที่ single-threaded task จะทำ multiplexed I/O โดยไม่มี yielding หรือ system polling นั้นเป็นไปไม่ได้ทางเทคนิค
- หากเพิ่ม reasoning budget, ขนาดคอร์ปัส และจำนวนพารามิเตอร์แบบไม่ยั้ง อาจยิ่งสิ้นเปลืองการคำนวณและเพิ่มความเสี่ยงที่จะสร้างคำตอบผิดที่ดูน่าเชื่อถือ
- แม้แต่โมเดลขนาดใหญ่มากก็อาจพูดว่า “ไม่รู้” ไม่ได้ หรือมองไม่เห็นข้อผิดพลาดด้านตรรกะและเทคนิคที่ซับซ้อน ดังนั้นต้องประเมินทั้ง raw capability, uncertainty calibration/hallucination rate, computational efficiency ร่วมกัน
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
การบอกว่าความฉลาดที่แท้จริงหยุดนิ่งไปมากแล้ว และหากฝึกโมเดลที่ใหญ่ขึ้นต่อไปในอนาคต ความฉลาดจะไม่เพียงหยุดนิ่งแต่ยังจะแย่ลงด้วยนั้นเป็นข้ออ้างที่ค่อนข้างแรงมาก
ไม่เข้าใจว่าทำไมถึงสรุปได้ว่าโมเดลที่ใหญ่ขึ้นและข้อมูลที่มากขึ้นจะนำไปสู่การหลอนมากขึ้น ทั้งที่ในช่วงหลายปีที่ผ่านมาแนวโน้มจริงกลับตรงกันข้าม และแม้บางโมเดลอาจยังหลอนมากกว่าเดิมได้ แต่โมเดลปัจจุบันก็หลอนน้อยกว่า ChatGPT 175B รุ่นแรกเริ่มที่เล็กกว่าและฝึกด้วยข้อมูลน้อยกว่ามากอย่างชัดเจน
ที่พูดถึงข้อมูลก็เพราะมีคำอ้างอิงว่าห้องแล็บ AI หลัก ๆ เริ่มตั้งข้อสงสัยกับการขยายจำนวนพารามิเตอร์และข้อมูลฝึกแบบไม่สิ้นสุด ดูเหมือนว่าสถานการณ์ตอนนี้คืออุตสาหกรรมเห็นแล้วว่ายังมีอะไรให้รีดออกจากโมเดลที่เล็กกว่า 1Tได้อีกมาก เพียงแต่ถ้าจะปลดล็อกความสามารถที่ต้องการ ก็น่าจะต้องใช้ข้อมูลที่มากขึ้นและมีคุณภาพสูงขึ้นภายใน distribution นั้น
เราอาจสร้างโจทย์ตรรกะแบบฝืน ๆ ได้ แต่ภาษาอังกฤษไม่ใช่ตรรกะเชิงรูปนัย จึงมักกลายเป็นเกมภาษา ปัญหาแนว “Monty Hall” ก็ใกล้เคียงกับเกมภาษาที่น่าสนใจเฉพาะสำหรับมนุษย์ เพราะถ้านำเสนออีกแบบก็จะเห็นชัดขึ้นทันที
สุดท้ายแล้วผู้ฝึกโมเดลกำลังต่อสู้กับความธรรมดาอย่างท่วมท้นของคลังข้อความฝึก หรือก็คือผลผลิตของมนุษย์ทั้งหมดที่ถูกบันทึกไว้ในประวัติศาสตร์ เมื่อโมเดลพัฒนาขึ้น ขั้นต่อไปก็น่าจะเป็นโมเดลที่ออกแบบร่วมกับมนุษย์เพื่อก้าวข้ามข้อจำกัดนี้ วิธีใช้ภาษา กระบวนการแก้ปัญหา และสิ่งที่ตอนนี้เรียกว่า “orchestration” ก็จะวิวัฒน์ไปพร้อมกัน
หากมันจัดการบริบทขนาดมหาศาลได้และไม่ต้องมีข้อจำกัดแบบเดียวกัน อุปมาอุปไมยจากโลกจริงก็อาจใช้ไม่ค่อยได้ และยังทำให้เกิดคำถามอย่างเช่น อาการหลอนกับการอนุมานนอกช่วงต่างกันมากแค่ไหน
ความสงสัยและความสับสนจำนวนมากเกี่ยวกับ LLM ไม่ต่างจากเวลาที่คนซึ่งมีสติปัญญาระดับกลางฟังคำอธิบายของคนที่ฉลาดมาก แล้วคิดว่าอีกฝ่ายพูดเพ้อเจ้อ ก่อนจะกล่าวหาว่าหยิ่งและไม่เป็นมิตร
เหมือนที่หมาป่าถูกทำให้เชื่องจนกลายเป็นสุนัขให้มีลักษณะที่เหมาะกับการอยู่ใกล้มนุษย์ LLM ก็จะวิวัฒน์โดยมีข้อจำกัด ความหยิ่ง อคติด้านสุนทรียะ และอคติเดิม ๆ ของเราเป็นศูนย์กลาง สิ่งที่มนุษย์ส่วนใหญ่ต้องการจาก LLM โดยพื้นฐานแล้วไม่ใช่ความฉลาดและความมีเหตุผล
คำอ้างที่เกี่ยวข้องคือส่วนที่บอกว่า “เมื่อโมเดลถูกฝึกด้วยข้อมูลจำนวนมากที่มีลักษณะเป็นข้อเท็จจริงมากและไม่เป็นเชิงทฤษฎี มันจะเรียนรู้ที่จะตอบให้ได้เสมอ”
ดังนั้นจริง ๆ แล้วมีข้ออ้างแยกกันอยู่สองข้อคือ 1) โมเดลที่ใหญ่ขึ้นมีผลลัพธ์ที่เริ่มตัน 2) โมเดลที่ฝึกด้วยข้อมูลข้อเท็จจริงจำนวนมากมีอัตราการหลอนสูง
ข้อ 1 ใกล้เคียงกับสิ่งที่รู้กันดีอยู่แล้ว จำได้ว่างานวิจัย scaling laws ของ OpenAI เมื่อหลายปีก่อนก็แสดงให้เห็นผลตอบแทนที่ลดลงของจำนวนพารามิเตอร์และปริมาณข้อมูลฝึก ส่วนข้อ 2 ไม่แน่ใจว่ามีหลักฐานอื่นนอกจากเนื้อหาในต้นฉบับหรือไม่
บางที GPT-5.5 อาจถูกจำกัดอย่างหนักเพราะขาดทรัพยากรด้านการคำนวณ หน่วยความจำ หรือพลังงานก็ได้
เห็นด้วยว่าการสรุปว่าโมเดลที่ใหญ่ขึ้นเริ่มตันแล้วดูเป็นการพูดเกินจริง
อย่างที่ชัดเจนมาตั้งแต่แรก scaling laws เพียงแค่ทำให้ความสามารถบางส่วนที่มีอยู่ในข้อมูลฐานเกิดขึ้นได้ และช่วยให้โครงข่ายประสาทเทียมแบบ artificial neural network ทำการนามธรรมสิ่งเหล่านั้นใน latent space เท่านั้น
สงสัยว่านี่คือหน้าตาของ “LLM ขั้นต่ำที่ใช้งานได้จริง” หรือเปล่า มักคิดอยู่บ่อย ๆ ว่า LLM ต้องใหญ่แค่ไหน ถึงจะถึงจุดที่จากนั้นเราสามารถใส่หน้าต่างบริบทที่ใหญ่ขึ้นและเนื้อหาความรู้แบบไดนามิกอย่างไฟล์ PDF หรือ Markdown เข้าไป เพื่อให้มันมีความรู้ที่อยู่นอกข้อมูลฝึกได้
ดูเหมือนว่า LLM ไม่ได้ต้องการข้อมูลเพิ่ม แต่ต้องการกระบวนการขัดเกลาให้ดีขึ้น
อาการหลอนดูเผิน ๆ เหมือนเป็นปัญหาที่จัดการได้ง่ายด้วย RLVR เพราะตอนนี้ก็สร้างร่องรอยการให้เหตุผลจำนวนมหาศาลที่ตรวจคำตอบได้อยู่แล้ว ดังนั้นก็แค่ใส่ “ไม่รู้” ให้เป็นคำตอบที่ใช้ได้ แล้วสำหรับโจทย์ที่ไม่มีร่องรอยการให้เหตุผลนับพันเส้นไหนไปถึงคำตอบที่ถูก ก็ยกระดับร่องรอยที่ไปถึง “ไม่รู้” ให้เป็นข้อมูลฝึกได้
โดยแก่นแล้วคือการสอนโมเดลว่า “ไม่รู้” เป็นคำตอบที่ถูกต้องได้
เหมือน Sam Altman เองก็เคยเขียนบล็อกเป็นนัยถึงแนวคิดนี้มาก่อน เลยคงเป็นไอเดียที่ชัดเจนสำหรับทุกคนอยู่แล้ว ถ้าอย่างนั้นก็น่าจะต้องมองว่าในทางปฏิบัติมันไม่ง่ายอย่างที่คิด
เท่าที่ผมรู้ benchmark AI ที่ทำให้การเดาสุ่มมีคะแนนเฉลี่ยแย่กว่าการตอบ “ไม่รู้” ทุกข้อมีเพียง AA-Omniscience เท่านั้น
การฝึกโทเค็น “ไม่รู้” แยกต่างหากหมายความว่าต้องสร้างคูเมืองระหว่างมันกับโทเค็นอื่นทั้งหมด แทนที่จะมีบริเวณสัญญาณรบกวนพร่า ๆ ระหว่าง “ใช่” กับ “ไม่ใช่” ที่ทั้งคู่ยังมีความน่าจะเป็นค่อนข้างสูง ก็ต้องมียอดเขาลูกใหม่ที่ “ไม่รู้” สูงกว่าแทน แล้วก็จะเกิดบริเวณพร่าใหม่ระหว่าง “ใช่” กับ “ไม่รู้” และระหว่าง “ไม่รู้” กับ “ไม่ใช่” อีก ถ้าจะฝึกคำตอบอีกแบบหนึ่งในช่องว่างระหว่างนั้นก็ต้องละเอียดซับซ้อนขึ้นมาก
อีกทางหนึ่งคือเช็กได้ว่าตัวเลือกหลายตัวมีความน่าจะเป็นใกล้กันมากหรือไม่ แต่ก็ต้องดูด้วยว่าตัวเลือกสองอันดับแรกเป็นคำพ้องกันโดยพฤตินัยอย่าง “Genève” กับ “Geneva” ซึ่งเป็นสัญญาณที่ดีว่าโมเดลรู้คำตอบ หรือเป็น “ใช่” กับ “ไม่ใช่” กันแน่
ภายใต้สถาปัตยกรรมปัจจุบัน มีโอกาสสูงที่อาการหลอนจะคงอยู่ตลอดไปในงานแบบโดเมนเปิด
งานนั้นเรียบง่าย ผมสร้างชุดฝึกจากชุดข้อมูล MS-MARCO[0] ที่มีคำถาม ผลการค้นหา และคำตอบ โดยมี 1) คำถามที่แนบผลอ้างอิงจริงปนกับผลที่ไม่เกี่ยวข้องบางส่วนและใส่คำตอบที่ถูกต้องไว้ 2) คำถามที่แนบเฉพาะผลที่ไม่เกี่ยวข้องและตั้งคำตอบเป็น “No answer present”
ชุดข้อมูลมีขนาดเกือบ 1 ล้านตัวอย่าง และผมฝึกด้วยหลายเทคนิค ตั้งแต่วิธีให้ลอกตามชุดข้อมูลแบบ SFT ไปจนถึง DPO ที่เปรียบเทียบคำตอบที่ดีกับคำตอบที่แย่สำหรับคำถามผู้ใช้เดียวกัน และ GRPO ที่ตรวจสอบ annotation เรื่องการมีอยู่ของคำตอบ
ผลคืออาการหลอนไม่ได้ลดลง กลับแย่ลงอย่างมาก ตอนนี้โมเดลเริ่มอ้างว่า “No answer present” แม้จริง ๆ จะมีคำตอบอยู่ หรือแม้แต่กับคำถามง่าย ๆ ที่ไม่ต้องใช้ผลการค้นหาตั้งแต่แรก เช่นโจทย์ X+Y
แน่นอน อาจบอกได้ว่างานฝึกของผมยังพื้นฐานเมื่อเทียบกับสิ่งที่แล็บแนวหน้าทำได้ แต่ถึงอย่างนั้นผมคิดว่ามันชี้ไปที่ข้อจำกัดที่ลึกกว่านั้น LLM เป็นสิ่งที่จุกจิกมาก และมันไม่ได้เข้าใจอย่างสะอาดจากหลักการพื้นฐานว่า “ดูรายการผลการค้นหา ตรวจความเกี่ยวข้องกับคำถามผู้ใช้ และถ้าความเกี่ยวข้องต่อคำตอบต่ำกว่าเกณฑ์หนึ่งก็ไม่ใช้ในคำตอบ”
สรุปคือมันไม่ง่ายอย่างที่คิด และอาจเป็นไปไม่ได้ด้วยซ้ำ
0: https://huggingface.co/datasets/microsoft/ms_marco
คุณปรับให้โมเดลพูดว่า “ไม่รู้” บ่อยขึ้นได้ แต่ต้องแลกด้วยต้นทุนด้านประสิทธิภาพ มันจะปฏิเสธคำถามบางส่วนที่จริง ๆ ตอบได้อย่างมีความหมายด้วย และในกรณีเสื่อมสภาพ โมเดลอาจยุบตัวจนทำนายประโยคนี้ตลอดเวลาหรือแทบตลอดเวลาก็ได้
คะแนนอัตราหลอนตีความค่อนข้างยากอยู่บ้าง เพราะเป็นค่าที่วัดภายใต้เงื่อนไขว่าตัวโมเดลไม่รู้คำตอบ ดังนั้นจึงไม่ได้วัดโดยตรงถึงความน่าจะเป็นที่จะเจออาการหลอนในการใช้งานทั่วไป ความน่าจะเป็นนั้นยังขึ้นอยู่กับโอกาสที่โมเดลจะไม่รู้คำตอบ และการกระจายงานของผู้ใช้สอดคล้องกับการกระจายของชุดประเมินมากแค่ไหนด้วย
และก็ควรระวังที่จะโยนความต่างของอัตราหลอนนี้ให้เป็นผลจาก ขนาดโมเดล เพียงอย่างเดียว GLM-5.2 หลอนน้อยกว่า DeepSeek-V4 Pro ที่มีพารามิเตอร์มากกว่าสองเท่าอย่างชัดเจน แต่ DeepSeek-V4 Flash กลับมีขนาดไม่ถึงครึ่งของ GLM-5.2 และได้อันดับ 1 ในดัชนีอาการหลอน AA-Omniscience
Opus 4.8 มีแนวโน้มว่าจะใหญ่กว่า DeepSeek-V4 Pro และมีอัตราหลอนในดัชนีอยู่ที่ 36% สูงกว่า 28% ของ GLM-5.2 แต่ก็ยังต่ำกว่าค่าของ DeepSeek มาก อีกทั้งความแม่นยำของ Opus อยู่ที่ 47% ขณะที่ GLM-5.2 อยู่ที่ 25% หากคำนวณจากตัวเลขนี้เป็นอัตราหลอนแบบสัมบูรณ์ คือจำนวนคำตอบหลอนหารด้วยจำนวนคำตอบทั้งหมด จะได้ว่า Opus อยู่ที่ 19% และ GLM-5.2 อยู่ที่ 21%
ดังนั้นหากปัจจัยอื่นเท่ากัน โมเดลขนาดใหญ่อาจเปราะบางต่ออาการหลอนมากกว่าเมื่ออยู่ในสถานการณ์ที่ไม่รู้คำตอบ แต่ก็ยังมีปัจจัยอื่นอีกมากที่ส่งผลต่ออัตราหลอน และก็ยังไม่ชัดเจนเต็มที่ด้วยว่าตัวชี้วัดนี้คือสิ่งสำคัญที่สุดที่ควรติดตามหรือไม่
ถ้าข้อเท็จจริงหนึ่งปรากฏในข้อมูลฝึกเพียงครั้งเดียว ไม่เคยปรากฏเลย สิบครั้ง หรือหนึ่งพันครั้ง นั่นเปลี่ยนสิ่งที่โมเดลรู้หรือไม่? ข้อเท็จจริงไม่ได้ถูกเก็บไว้ตรง ๆ แต่ถูกแยกเป็นองค์ประกอบและบีบอัดลงในค่าน้ำหนัก
ข้อเท็จจริงที่ “คล้ายกัน” แต่ไม่ได้ปรากฏบ่อยอย่างท่วมท้นจะถูกจับรวมกันและสุดท้ายก็สับสนปนกัน แต่คำว่า “คล้ายกัน” หมายถึงอะไร? ข้อเท็จจริงบางอย่างถูกลบหายไปทั้งหมด ขณะที่บางอย่างถูกมัดรวมกับอย่างอื่น ทำให้พูลปนเปื้อน แต่ในเวลาเดียวกันก็ให้ความสามารถด้านการอนุมานด้วย โมเดลไม่ได้รู้อะไรเลย และไม่มีทางรู้ได้ด้วยว่าตัวเองรู้อะไรหรือไม่รู้อะไร
ถ้า Opus ตอบถูกทุกข้อยกเว้นคำถามที่ยากที่สุด คำถามที่มันตอบผิดก็จะเป็นคำถามที่ตรวจสอบหรือจับอาการหลอนได้ยากที่สุด จึงอาจทำให้อัตราหลอนสูงขึ้น
ในโครงสร้างต้นทุนของโมเดลแนวหน้าของสหรัฐ มีบางอย่างเหมือนเอาปืนช็อตไฟฟ้าจี้ทุกครั้งที่โมเดลยังไม่แน่ใจแล้วลังเลว่าจะค้นหาดีไหม ปฏิกิริยาหลีกเลี่ยงการค้นหา แทบจะครอบคลุมอาการหลอนเกือบทั้งหมด
ฉันไม่แม้แต่จะรอให้ถึงตาโมเดลเลยด้วยซ้ำ ถ้ามี man page หรือผลลัพธ์จาก Hoogle ก็จะยัดเข้าไปตรงจุดตัด prefix cache สุดท้ายทันที แบบนั้นคุ้มกว่า
ถ้าทุกกรณีใช้งานมีความเสี่ยงเท่า ๆ กันที่จะอยู่นอกขอบเขตรองรับ ตรรกะก่อนหน้าก็อาจถูกต้อง แต่ในหลายกรณีมีการรับประกันได้เลยว่าบาง data point อยู่นอกขอบเขตรองรับ ดังนั้นความสามารถโดยตรงในการรับรู้เรื่องนั้นจึงสำคัญ
การที่ GPT-5.5 และ DeepSeek V4 Pro ใหญ่มหาศาลแต่กลับเป็นผู้นำด้านอาการหลอนอย่างเด่นชัด ฟังดูเหมือนจะหมายความว่า ยิ่งโมเดลใหญ่ยิ่งมีโอกาสหลอน ซึ่งไม่ตรงกับประสบการณ์ของฉัน
ส่วนที่ว่า “เมื่อโมเดลถูกฝึกด้วยข้อมูลจำนวนมากที่มีความเป็นข้อเท็จจริงสูงและไม่เป็นเชิงทฤษฎี มันจะเรียนรู้ที่จะตอบเสมอ” บวกกับตัวเลขอัตราหลอน AA-Omniscience ของ DeepSeek V4 Pro ที่ 94%, GLM-5.2 ที่ 28%, Opus 4.8 ที่ 36%, Fable 5 ที่ 48%, GPT-5.5 ที่ 86% นั้นน่าตกใจมาก
ก่อนหน้านี้ก็รู้อยู่แล้วจากงานวิจัยก่อนหน้าว่าอาการหลอนเป็นปัญหารากฐานของ LLM และอาจแก้ยากพอ ๆ กับ prompt injection แต่ไม่คิดว่าอัตราหลอนจะแย่ขนาดนี้
ทุกคนทำเหมือนว่าโมเดลที่ดีที่สุดจะหลอนเฉพาะใน edge case เท่านั้น แต่จากตรงนี้ แม้แต่ GLM-5.2 ที่ทำผลงานดีที่สุดก็ยังมีอัตราหลอน 28% เมื่อมัน “ไม่รู้” บางอย่าง
แต่ก็คิดว่าชื่อบล็อก “Bigger models are not the way” เหมาะสมกว่า และแตะประเด็นที่ควรเป็นข่าวใหญ่กว่า ถ้าโมเดลใหญ่ขึ้นกับชุดฝึกใหญ่ขึ้นไม่ให้ผลตอบแทนตามสัดส่วนอีกแล้ว เราก็อาจเข้าใกล้ ส่วนบนของ S-curve แล้ว เมื่อคิดว่ามูลค่าบริษัทอย่าง OpenAI หรือ xAI พึ่งพาความคิดไร้สาระเรื่องการขยายโมเดลเหล่านี้แบบไม่สิ้นสุดอย่างมาก นี่จึงเป็นข่าวใหญ่มาก
โทเค็นของคำถามเป็นตัวกำหนดโทเค็นของคำตอบเท่านั้น แก่นสำคัญคือการจัดกลุ่มค่าน้ำหนักที่เกี่ยวข้องเข้าด้วยกัน
ถ้ามุ่งแค่การทำคะแนน benchmark ให้สูงสุด ขนาดที่ใหญ่กว่าก็อาจไม่ได้ดีกว่าเสมอไป แต่ในแง่ สติปัญญาทั่วไป และความรู้สึกเฉพาะตัวของโมเดลใหญ่ เรื่องนั้นไม่จริงเลย
โมเดลโอเพนซอร์สน่าประทับใจ แต่เมื่อเทียบกับ Opus หรือ 5.5 ก็เห็นได้ค่อนข้างชัดว่าทันทีที่ออกนอกชุดปัญหาแคบ ๆ ที่ตอบ benchmark ได้ดี มันพังเร็วแค่ไหน
มองว่าอัตราการหลอนขึ้นอยู่กับ วิธีการฝึก ไม่ใช่เรื่องของขนาดโมเดล โมเดลถูกฝึกด้วยคลังข้อความขนาดมหาศาลที่มีคำถามที่จัดวางมาอย่างดี และคำตอบที่ถูกต้องซึ่งถูกจัดระเบียบไว้อย่างดีในสัดส่วนท่วมท้น โดยเฉพาะหนังสือ ซึ่งเป็นข้อมูลที่ผู้เชี่ยวชาญในสาขานั้นคัดสรรมาอย่างเข้มงวด
ในหนังสือแทบไม่เห็นการตั้งคำถามที่ไม่มีคำตอบ แล้วให้เหตุผลและอธิบายว่าทำไมและอย่างไรจึงไม่มีคำตอบสำหรับคำถามนั้น อีกทั้งก็แทบไม่มีหนังสือที่ตั้งคำถามดี ๆ แล้วอธิบายอย่างตรงไปตรงมาว่าไม่รู้คำตอบ เพราะในกระบวนการคัดสรร ผู้เขียนมักตัดคำถามที่ตัวเองไม่มีคำตอบออกจากการอภิปราย
นอกจากนี้ยังมองว่าในช่วง RLHF ห้องแล็บต่าง ๆ มีอคติไปทางคำถามที่มีคำตอบและให้คำตอบที่น่าสนใจ ขณะที่คำถาม “แย่ ๆ” ที่ไม่มีคำตอบดี ๆ กลับมีตัวแทนน้อยเกินไป จึงมีความเป็นไปได้สูงว่าความพยายามด้าน RLHF ที่ทำให้โมเดลยอมรับว่าไม่รู้นั้นมีน้อยกว่า
มนุษย์เรียนรู้มาตลอดชีวิตจากการเผชิญกับคำถามในโลกจริงที่ยังตอบไม่ได้ในทันที และได้เรียนรู้วิธีประเมินอย่างรวดเร็วมากว่าเราไม่รู้คำตอบหรือยังไม่แน่ใจ
อีกทั้งมนุษย์ยังมี ความกลัว ซึ่ง LLM ไม่มี ในสมองมนุษย์มีอะมิกดะลาที่แยกจากส่วนคิดเชิงตรรกะ ทำหน้าที่ส่งสัญญาณความกลัว และทำให้เราระมัดระวังกับสิ่งที่พูดมากขึ้นมาก ตรงกันข้าม LLM ไม่มีอวัยวะแห่งความกลัวแบบอะมิกดะลา และเรียนรู้เพียงวิธีตอบตามแพตเทิร์นของคลังข้อความฝึกเท่านั้น มันไม่ได้ “กลัว” ว่าจะเสียหน้าหรือถูกไล่ออกเพราะตอบผิด จึงสามารถปล่อยคำตอบที่ผิดสนิทออกมาอย่างมั่นอกมั่นใจได้
เพราะฉะนั้นอัตราการหลอนสามารถปรับปรุงได้ด้วยการฝึก แต่ตอนนี้ห้องแล็บต่าง ๆ ยังไม่ได้ปรับให้เหมาะทางนั้น เพราะกำลังแข่งกันแบบความเสี่ยงสูงเพื่อสร้างโมเดลที่ฉลาดและมีความสามารถที่สุด
อีกทางเลือกหนึ่งคืออาจสร้างหน่วยงานแยกต่างหากที่คล้ายอะมิกดะลาให้กับ LLM โดยหน่วยงานนั้นสามารถส่งสัญญาณแบบอะซิงโครนัสจากพรอมป์ต์ของผู้ใช้และร่องรอยการคิดของ LLM เพื่อฉีดสัญญาณความกลัวเข้าไปในกระบวนการอนุมานของ LLM และหันเหให้ตอบได้ปลอดภัยยิ่งขึ้น
ดังนั้นจึงมองว่าการแข่งขันไปสู่ “ขนาดข้อมูลฝึกสูงสุด” ได้นำไปสู่ การ overfit โดยไม่ได้ตั้งใจ แม้จะไม่ถึงขั้นร้ายแรง แต่ก็เพียงพอจะกระตุ้นการรับรู้ภายในโมเดลที่ดูคล้ายความรอบรู้ทุกสิ่ง