GPT-5.5 มีอัตราหลอนมากกว่า GLM-5.2 ที่ใช้สัญญาอนุญาต MIT ถึง 3 เท่า

(arrowtsx.dev)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ท่ามกลางความกังขาที่เพิ่มขึ้นในหมู่ห้องวิจัย AI รายใหญ่ต่อ กลยุทธ์การขยายแบบไม่สิ้นสุด มีตัวอย่างที่ชี้ว่าขนาดโมเดลไม่ได้รับประกันความแม่นยำต่อความเป็นจริง
GLM-5.2 โมเดล open-weight ภายใต้สัญญาอนุญาต MIT มี 753B พารามิเตอร์ และพารามิเตอร์ที่ทำงานอยู่จริงราว 40B เข้าใกล้ GPT-5.5 เหลือเพียง 4 คะแนน
อัตราหลอนของ AA-Omniscience อยู่ที่ GLM-5.2 28%, GPT-5.5 86%, DeepSeek V4 Pro 94% ทำให้ช่องว่างด้าน การปรับเทียบความไม่แน่นอน มีความสำคัญพอๆ กับคะแนนประสิทธิภาพ
ในการทดสอบ Python นั้น DeepSeek V4 Pro ใช้เวลา 3 นาที 52 วินาทีและ 7.7k reasoning tokens แต่ยังตอบผิด ขณะที่ GLM-5.2 ใช้ 12 วินาทีและราว 800 tokens เพื่อชี้ว่าเป็น ความเป็นไปไม่ได้ทางเทคนิค
การเลือกโมเดลตัดสินจากจำนวนพารามิเตอร์หรือประสิทธิภาพตามทฤษฎีอย่างเดียวได้ยาก และต้องดูทั้งความสามารถดิบ อัตราหลอน และประสิทธิภาพการคำนวณร่วมกัน

ข้อสงสัยต่อกลยุทธ์การขยายโมเดล

ในหมู่ห้องวิจัย AI หลักๆ กำลังมีความกังขามากขึ้นต่อแนวทางที่พยายามยกระดับประสิทธิภาพต่อเนื่องด้วย การเพิ่มจำนวนพารามิเตอร์และขยายข้อมูลฝึก เพียงอย่างเดียว
Claude Fable 5 ถูกสหรัฐฯ จำกัดการใช้งานหลังเปิดตัว 3 วัน และถูกมองว่าเป็นกรณีแรกของการแบน AI ของสหรัฐฯ ที่มีที่มาจากความมั่นคงแห่งชาติ
- กรณีที่โมเดลขนาดระดับต้นๆ ของโลกถูกแบนเพราะความเสี่ยงจาก jailbreak เพียงแบบเดียว ถูกใช้เป็นตัวอย่างที่แสดงข้อจำกัดของกระบวนทัศน์การขยาย
โมเดลขนาดใหญ่ยังคงทำคะแนนสูงใน Artificial Analysis Intelligence Index แต่โมเดล open-weight ก็ลดช่องว่างลงได้มากเช่นกัน
- GLM-5.2 ของ Z.ai เป็น LLM แบบ open-weight ภายใต้สัญญาอนุญาต MIT ที่มี 753B พารามิเตอร์ และพารามิเตอร์ที่ทำงานอยู่จริงราว 40B
- GLM-5.2 เข้าใกล้ GPT-5.5 เหลือ 4 คะแนน และ Fable 5 เหลือ 9 คะแนนใน Artificial Analysis Intelligence Index
- ในสถานการณ์ที่คาดว่าโมเดลแบบปิดมีขนาดใหญ่กว่า GLM-5.2 ราว 1.5~2 เท่า การหดแคบลงของช่องว่างนี้สนับสนุนความเป็นไปได้ของ plateau ของสติปัญญาจริง

ปัญหาการปรับเทียบความไม่แน่นอนที่อัตราหลอนเปิดเผย

โมเดลที่ฝึกด้วยข้อมูลข้อเท็จจริงจำนวนมากและไม่เน้นเชิงทฤษฎี อาจถูกเสริมแรงให้ตอบแม้ในยามที่ไม่รู้
อัตราหลอนของ AA-Omniscience benchmark แตกต่างกันมากในแต่ละโมเดล
- เปรียบเทียบอัตราหลอน: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T พารามิเตอร์, พารามิเตอร์ที่ทำงานอยู่จริง 49B, AA Intelligence Index 44 คะแนน, อัตราหลอน 94%
- GLM-5.2: อัตราหลอน 28%
- Opus 4.8: อัตราหลอน 36%
- Fable 5: อัตราหลอน 48%
- GPT-5.5: อัตราหลอน 86%
อัตราหลอน 94% ของ DeepSeek V4 Pro หมายความว่าในคำถามที่มันหาคำตอบไม่ได้ สัดส่วนที่ตอบว่า “ไม่รู้” มีเพียงราว 6% ส่วนที่เหลือเป็นคำตอบผิดที่ให้มาอย่างมั่นใจ

ประสิทธิภาพการคำนวณที่แยกกันชัดในบททดสอบ Python

การทดสอบเปรียบเทียบดำเนินด้วยคำถาม Python ที่ค่อนข้างซับซ้อนและมีข้อบกพร่องเชิงสถาปัตยกรรมที่ชัดเจน
- ทั้งสองโมเดลถูกทดสอบบน OpenRouter ด้วย high reasoning effort และ temperature 1
- system prompt คือ “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 ให้บริการโดย Z.ai ด้วย FP8 precision และ DeepSeek V4 Pro ให้บริการโดย Baidu Qianfan ด้วย FP8 precision
DeepSeek V4 Pro ใช้เวลา 3 นาที 52 วินาที พร้อมใช้ 7.7k reasoning tokens แต่ยังสร้างคำตอบผิดอย่างมั่นใจ
GLM-5.2 ใช้เวลาเพียง 12 วินาทีและ reasoning tokens ราว 800 เพื่อสรุปว่าการที่ single-threaded task จะทำ multiplexed I/O โดยไม่มี yielding หรือ system polling นั้นเป็นไปไม่ได้ทางเทคนิค
หากเพิ่ม reasoning budget, ขนาดคอร์ปัส และจำนวนพารามิเตอร์แบบไม่ยั้ง อาจยิ่งสิ้นเปลืองการคำนวณและเพิ่มความเสี่ยงที่จะสร้างคำตอบผิดที่ดูน่าเชื่อถือ
แม้แต่โมเดลขนาดใหญ่มากก็อาจพูดว่า “ไม่รู้” ไม่ได้ หรือมองไม่เห็นข้อผิดพลาดด้านตรรกะและเทคนิคที่ซับซ้อน ดังนั้นต้องประเมินทั้ง raw capability, uncertainty calibration/hallucination rate, computational efficiency ร่วมกัน

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นบน Hacker News

การบอกว่าความฉลาดที่แท้จริงหยุดนิ่งไปมากแล้ว และหากฝึกโมเดลที่ใหญ่ขึ้นต่อไปในอนาคต ความฉลาดจะไม่เพียงหยุดนิ่งแต่ยังจะแย่ลงด้วยนั้นเป็นข้ออ้างที่ค่อนข้างแรงมาก
ไม่เข้าใจว่าทำไมถึงสรุปได้ว่าโมเดลที่ใหญ่ขึ้นและข้อมูลที่มากขึ้นจะนำไปสู่การหลอนมากขึ้น ทั้งที่ในช่วงหลายปีที่ผ่านมาแนวโน้มจริงกลับตรงกันข้าม และแม้บางโมเดลอาจยังหลอนมากกว่าเดิมได้ แต่โมเดลปัจจุบันก็หลอนน้อยกว่า ChatGPT 175B รุ่นแรกเริ่มที่เล็กกว่าและฝึกด้วยข้อมูลน้อยกว่ามากอย่างชัดเจน
ที่พูดถึงข้อมูลก็เพราะมีคำอ้างอิงว่าห้องแล็บ AI หลัก ๆ เริ่มตั้งข้อสงสัยกับการขยายจำนวนพารามิเตอร์และข้อมูลฝึกแบบไม่สิ้นสุด ดูเหมือนว่าสถานการณ์ตอนนี้คืออุตสาหกรรมเห็นแล้วว่ายังมีอะไรให้รีดออกจากโมเดลที่เล็กกว่า 1Tได้อีกมาก เพียงแต่ถ้าจะปลดล็อกความสามารถที่ต้องการ ก็น่าจะต้องใช้ข้อมูลที่มากขึ้นและมีคุณภาพสูงขึ้นภายใน distribution นั้น
- ถ้าจะทำให้โมเดลฉลาดกว่าตอนนี้ ก็ต้องมีกรณีศึกษาและตัวอย่างให้มันเรียนรู้ แต่ยิ่งเข้าใกล้เปอร์เซ็นไทล์บนสุดของการให้เหตุผลแบบมนุษย์ วัสดุแบบนั้นก็ยิ่งมีอยู่น้อยมาก
  เราอาจสร้างโจทย์ตรรกะแบบฝืน ๆ ได้ แต่ภาษาอังกฤษไม่ใช่ตรรกะเชิงรูปนัย จึงมักกลายเป็นเกมภาษา ปัญหาแนว “Monty Hall” ก็ใกล้เคียงกับเกมภาษาที่น่าสนใจเฉพาะสำหรับมนุษย์ เพราะถ้านำเสนออีกแบบก็จะเห็นชัดขึ้นทันที
  สุดท้ายแล้วผู้ฝึกโมเดลกำลังต่อสู้กับความธรรมดาอย่างท่วมท้นของคลังข้อความฝึก หรือก็คือผลผลิตของมนุษย์ทั้งหมดที่ถูกบันทึกไว้ในประวัติศาสตร์ เมื่อโมเดลพัฒนาขึ้น ขั้นต่อไปก็น่าจะเป็นโมเดลที่ออกแบบร่วมกับมนุษย์เพื่อก้าวข้ามข้อจำกัดนี้ วิธีใช้ภาษา กระบวนการแก้ปัญหา และสิ่งที่ตอนนี้เรียกว่า “orchestration” ก็จะวิวัฒน์ไปพร้อมกัน
  หากมันจัดการบริบทขนาดมหาศาลได้และไม่ต้องมีข้อจำกัดแบบเดียวกัน อุปมาอุปไมยจากโลกจริงก็อาจใช้ไม่ค่อยได้ และยังทำให้เกิดคำถามอย่างเช่น อาการหลอนกับการอนุมานนอกช่วงต่างกันมากแค่ไหน
  ความสงสัยและความสับสนจำนวนมากเกี่ยวกับ LLM ไม่ต่างจากเวลาที่คนซึ่งมีสติปัญญาระดับกลางฟังคำอธิบายของคนที่ฉลาดมาก แล้วคิดว่าอีกฝ่ายพูดเพ้อเจ้อ ก่อนจะกล่าวหาว่าหยิ่งและไม่เป็นมิตร
  เหมือนที่หมาป่าถูกทำให้เชื่องจนกลายเป็นสุนัขให้มีลักษณะที่เหมาะกับการอยู่ใกล้มนุษย์ LLM ก็จะวิวัฒน์โดยมีข้อจำกัด ความหยิ่ง อคติด้านสุนทรียะ และอคติเดิม ๆ ของเราเป็นศูนย์กลาง สิ่งที่มนุษย์ส่วนใหญ่ต้องการจาก LLM โดยพื้นฐานแล้วไม่ใช่ความฉลาดและความมีเหตุผล
- ข้อความที่อ้างไม่ได้บอกว่า “โมเดลใหญ่ขึ้นและข้อมูลมากขึ้น = หลอนมากขึ้น” แต่บอกว่าโมเดลที่ใหญ่ขึ้นนั้นความฉลาดหยุดนิ่ง ไม่ได้พูดถึงข้อมูลที่มากขึ้นหรือการเพิ่มขึ้นของอาการหลอน
  คำอ้างที่เกี่ยวข้องคือส่วนที่บอกว่า “เมื่อโมเดลถูกฝึกด้วยข้อมูลจำนวนมากที่มีลักษณะเป็นข้อเท็จจริงมากและไม่เป็นเชิงทฤษฎี มันจะเรียนรู้ที่จะตอบให้ได้เสมอ”
  ดังนั้นจริง ๆ แล้วมีข้ออ้างแยกกันอยู่สองข้อคือ 1) โมเดลที่ใหญ่ขึ้นมีผลลัพธ์ที่เริ่มตัน 2) โมเดลที่ฝึกด้วยข้อมูลข้อเท็จจริงจำนวนมากมีอัตราการหลอนสูง
  ข้อ 1 ใกล้เคียงกับสิ่งที่รู้กันดีอยู่แล้ว จำได้ว่างานวิจัย scaling laws ของ OpenAI เมื่อหลายปีก่อนก็แสดงให้เห็นผลตอบแทนที่ลดลงของจำนวนพารามิเตอร์และปริมาณข้อมูลฝึก ส่วนข้อ 2 ไม่แน่ใจว่ามีหลักฐานอื่นนอกจากเนื้อหาในต้นฉบับหรือไม่
- อาการหลอนไม่ได้รับอิทธิพลอย่างมากจากปริมาณการคำนวณและความจุหน่วยความจำด้วยหรือ? บริษัทต่าง ๆ สามารถใช้เวลาในการตรวจสอบผลลัพธ์มากขึ้นในสถาปัตยกรรมแบบเอเจนต์ ใช้โทเคนสำหรับการคิดมากขึ้น และลดการทำ quantization ลง สิ่งเหล่านี้ล้วนพึ่งพาการคำนวณและหน่วยความจำอย่างมาก แต่ก็พิสูจน์แล้วว่าช่วยลดอาการหลอนได้
  บางที GPT-5.5 อาจถูกจำกัดอย่างหนักเพราะขาดทรัพยากรด้านการคำนวณ หน่วยความจำ หรือพลังงานก็ได้
  เห็นด้วยว่าการสรุปว่าโมเดลที่ใหญ่ขึ้นเริ่มตันแล้วดูเป็นการพูดเกินจริง
- ที่ห้องแล็บ AI หลัก ๆ เริ่มสงสัยกับการขยายจำนวนพารามิเตอร์และข้อมูลฝึกแบบไม่สิ้นสุดนั้น น่าจะเป็นเพราะคุณภาพของข้อมูลฝึกเป็นหลัก ไม่เข้าใจว่าทำไมประเด็นนี้ถึงไม่ค่อยถูกพูดถึงในการถกเถียงแบบนี้
  อย่างที่ชัดเจนมาตั้งแต่แรก scaling laws เพียงแค่ทำให้ความสามารถบางส่วนที่มีอยู่ในข้อมูลฐานเกิดขึ้นได้ และช่วยให้โครงข่ายประสาทเทียมแบบ artificial neural network ทำการนามธรรมสิ่งเหล่านั้นใน latent space เท่านั้น
- นั่นไม่ใช่การฟิตเกินข้อมูลหรือ? ข้อมูลมีมากขึ้นก็จริง แต่พอถามสิ่งที่ไม่มีอยู่ในข้อมูลนั้น ก็เลยเกิดอาการหลอน
สงสัยว่านี่คือหน้าตาของ “LLM ขั้นต่ำที่ใช้งานได้จริง” หรือเปล่า มักคิดอยู่บ่อย ๆ ว่า LLM ต้องใหญ่แค่ไหน ถึงจะถึงจุดที่จากนั้นเราสามารถใส่หน้าต่างบริบทที่ใหญ่ขึ้นและเนื้อหาความรู้แบบไดนามิกอย่างไฟล์ PDF หรือ Markdown เข้าไป เพื่อให้มันมีความรู้ที่อยู่นอกข้อมูลฝึกได้
ดูเหมือนว่า LLM ไม่ได้ต้องการข้อมูลเพิ่ม แต่ต้องการกระบวนการขัดเกลาให้ดีขึ้น
อาการหลอนดูเผิน ๆ เหมือนเป็นปัญหาที่จัดการได้ง่ายด้วย RLVR เพราะตอนนี้ก็สร้างร่องรอยการให้เหตุผลจำนวนมหาศาลที่ตรวจคำตอบได้อยู่แล้ว ดังนั้นก็แค่ใส่ “ไม่รู้” ให้เป็นคำตอบที่ใช้ได้ แล้วสำหรับโจทย์ที่ไม่มีร่องรอยการให้เหตุผลนับพันเส้นไหนไปถึงคำตอบที่ถูก ก็ยกระดับร่องรอยที่ไปถึง “ไม่รู้” ให้เป็นข้อมูลฝึกได้
โดยแก่นแล้วคือการสอนโมเดลว่า “ไม่รู้” เป็นคำตอบที่ถูกต้องได้
เหมือน Sam Altman เองก็เคยเขียนบล็อกเป็นนัยถึงแนวคิดนี้มาก่อน เลยคงเป็นไอเดียที่ชัดเจนสำหรับทุกคนอยู่แล้ว ถ้าอย่างนั้นก็น่าจะต้องมองว่าในทางปฏิบัติมันไม่ง่ายอย่างที่คิด
- เพราะแทบทุก benchmark วัด accuracy แบบตอบถูกได้ 1 คะแนน ที่เหลือได้ 0 คะแนน หากมีคำถาม 100 ข้อที่โมเดลมั่นใจเพียง 10% แล้วตอบ “ไม่รู้” ทั้งหมดจะได้ 0 คะแนน แต่ถ้าตอบอย่างมั่นใจทั้งหมด ค่าคาดหวังคือ 10 คะแนน นั่นจึงเป็นวิธีที่ AI ส่วนใหญ่ถูกฝึกมา
  เท่าที่ผมรู้ benchmark AI ที่ทำให้การเดาสุ่มมีคะแนนเฉลี่ยแย่กว่าการตอบ “ไม่รู้” ทุกข้อมีเพียง AA-Omniscience เท่านั้น
- ผมคิดว่าปัญหาอยู่ที่เอาต์พุตของ LLM และวิธีที่เครื่องมือใช้ตีความมัน เอาต์พุตคือ การกระจายความน่าจะเป็น ของโทเค็นถัดไปที่เป็นไปได้ทั้งหมด แม้ความน่าจะเป็นของทุกโทเค็นจะต่ำมาก ก็ยังถูกทำ normalization ให้ผลรวมของความน่าจะเป็นทั้งหมดเป็น 1 หลังจากขั้นนั้นแล้วก็แยกได้ยากว่าโมเดลชอบโทเค็นหนึ่งอย่างชัดเจนจริง ๆ หรือแค่กำลังเห็นสัญญาณรบกวนที่ถูกขยายขึ้นมา
  การฝึกโทเค็น “ไม่รู้” แยกต่างหากหมายความว่าต้องสร้างคูเมืองระหว่างมันกับโทเค็นอื่นทั้งหมด แทนที่จะมีบริเวณสัญญาณรบกวนพร่า ๆ ระหว่าง “ใช่” กับ “ไม่ใช่” ที่ทั้งคู่ยังมีความน่าจะเป็นค่อนข้างสูง ก็ต้องมียอดเขาลูกใหม่ที่ “ไม่รู้” สูงกว่าแทน แล้วก็จะเกิดบริเวณพร่าใหม่ระหว่าง “ใช่” กับ “ไม่รู้” และระหว่าง “ไม่รู้” กับ “ไม่ใช่” อีก ถ้าจะฝึกคำตอบอีกแบบหนึ่งในช่องว่างระหว่างนั้นก็ต้องละเอียดซับซ้อนขึ้นมาก
  อีกทางหนึ่งคือเช็กได้ว่าตัวเลือกหลายตัวมีความน่าจะเป็นใกล้กันมากหรือไม่ แต่ก็ต้องดูด้วยว่าตัวเลือกสองอันดับแรกเป็นคำพ้องกันโดยพฤตินัยอย่าง “Genève” กับ “Geneva” ซึ่งเป็นสัญญาณที่ดีว่าโมเดลรู้คำตอบ หรือเป็น “ใช่” กับ “ไม่ใช่” กันแน่
- ปัญหาหลักคือ การกดอาการหลอน ไม่สามารถทำให้ generalize ได้ คุณลงโทษคำตอบผิดในคำถามหลากหลายแบบได้ แต่สิ่งนั้นไม่ได้พาไปสู่การเกิดขึ้นของโลกทัศน์ที่สอดคล้องกันอย่างสม่ำเสมอ มีเพียงโลกทัศน์ที่สอดคล้องกันซึ่งผสานกับความสามารถด้านเหตุผลเท่านั้นที่เป็นคำตอบแท้จริงของอาการหลอน
  ภายใต้สถาปัตยกรรมปัจจุบัน มีโอกาสสูงที่อาการหลอนจะคงอยู่ตลอดไปในงานแบบโดเมนเปิด
- มันไม่ได้ง่ายขนาดนั้น ผมเคยสงสัยคำถามนี้เลยลอง ฝึก LLM เพื่อเป้าหมายนี้โดยตรงมาก่อน
  งานนั้นเรียบง่าย ผมสร้างชุดฝึกจากชุดข้อมูล MS-MARCO[0] ที่มีคำถาม ผลการค้นหา และคำตอบ โดยมี 1) คำถามที่แนบผลอ้างอิงจริงปนกับผลที่ไม่เกี่ยวข้องบางส่วนและใส่คำตอบที่ถูกต้องไว้ 2) คำถามที่แนบเฉพาะผลที่ไม่เกี่ยวข้องและตั้งคำตอบเป็น “No answer present”
  ชุดข้อมูลมีขนาดเกือบ 1 ล้านตัวอย่าง และผมฝึกด้วยหลายเทคนิค ตั้งแต่วิธีให้ลอกตามชุดข้อมูลแบบ SFT ไปจนถึง DPO ที่เปรียบเทียบคำตอบที่ดีกับคำตอบที่แย่สำหรับคำถามผู้ใช้เดียวกัน และ GRPO ที่ตรวจสอบ annotation เรื่องการมีอยู่ของคำตอบ
  ผลคืออาการหลอนไม่ได้ลดลง กลับแย่ลงอย่างมาก ตอนนี้โมเดลเริ่มอ้างว่า “No answer present” แม้จริง ๆ จะมีคำตอบอยู่ หรือแม้แต่กับคำถามง่าย ๆ ที่ไม่ต้องใช้ผลการค้นหาตั้งแต่แรก เช่นโจทย์ X+Y
  แน่นอน อาจบอกได้ว่างานฝึกของผมยังพื้นฐานเมื่อเทียบกับสิ่งที่แล็บแนวหน้าทำได้ แต่ถึงอย่างนั้นผมคิดว่ามันชี้ไปที่ข้อจำกัดที่ลึกกว่านั้น LLM เป็นสิ่งที่จุกจิกมาก และมันไม่ได้เข้าใจอย่างสะอาดจากหลักการพื้นฐานว่า “ดูรายการผลการค้นหา ตรวจความเกี่ยวข้องกับคำถามผู้ใช้ และถ้าความเกี่ยวข้องต่อคำตอบต่ำกว่าเกณฑ์หนึ่งก็ไม่ใช้ในคำตอบ”
  สรุปคือมันไม่ง่ายอย่างที่คิด และอาจเป็นไปไม่ได้ด้วยซ้ำ
  0: https://huggingface.co/datasets/microsoft/ms_marco
- ถ้าคุณใช้ reward function แบบนั้นได้ ก็ไม่จำเป็นต้องมี LLM เลย แค่ query reward function นั้นเพื่อตอบคำถามอะไรก็ได้ก็พอ คุณอาจสร้าง benchmark และตรวจอัตโนมัติได้ แต่ในกรณีทั่วไปแก้ไม่ได้ โมเดลอาจทำได้ดีบน benchmark แต่ยังตอบแบบมั่นใจเกินเหตุในพื้นที่ที่ benchmark ไม่ครอบคลุม
  คุณปรับให้โมเดลพูดว่า “ไม่รู้” บ่อยขึ้นได้ แต่ต้องแลกด้วยต้นทุนด้านประสิทธิภาพ มันจะปฏิเสธคำถามบางส่วนที่จริง ๆ ตอบได้อย่างมีความหมายด้วย และในกรณีเสื่อมสภาพ โมเดลอาจยุบตัวจนทำนายประโยคนี้ตลอดเวลาหรือแทบตลอดเวลาก็ได้
คะแนนอัตราหลอนตีความค่อนข้างยากอยู่บ้าง เพราะเป็นค่าที่วัดภายใต้เงื่อนไขว่าตัวโมเดลไม่รู้คำตอบ ดังนั้นจึงไม่ได้วัดโดยตรงถึงความน่าจะเป็นที่จะเจออาการหลอนในการใช้งานทั่วไป ความน่าจะเป็นนั้นยังขึ้นอยู่กับโอกาสที่โมเดลจะไม่รู้คำตอบ และการกระจายงานของผู้ใช้สอดคล้องกับการกระจายของชุดประเมินมากแค่ไหนด้วย
และก็ควรระวังที่จะโยนความต่างของอัตราหลอนนี้ให้เป็นผลจาก ขนาดโมเดล เพียงอย่างเดียว GLM-5.2 หลอนน้อยกว่า DeepSeek-V4 Pro ที่มีพารามิเตอร์มากกว่าสองเท่าอย่างชัดเจน แต่ DeepSeek-V4 Flash กลับมีขนาดไม่ถึงครึ่งของ GLM-5.2 และได้อันดับ 1 ในดัชนีอาการหลอน AA-Omniscience
Opus 4.8 มีแนวโน้มว่าจะใหญ่กว่า DeepSeek-V4 Pro และมีอัตราหลอนในดัชนีอยู่ที่ 36% สูงกว่า 28% ของ GLM-5.2 แต่ก็ยังต่ำกว่าค่าของ DeepSeek มาก อีกทั้งความแม่นยำของ Opus อยู่ที่ 47% ขณะที่ GLM-5.2 อยู่ที่ 25% หากคำนวณจากตัวเลขนี้เป็นอัตราหลอนแบบสัมบูรณ์ คือจำนวนคำตอบหลอนหารด้วยจำนวนคำตอบทั้งหมด จะได้ว่า Opus อยู่ที่ 19% และ GLM-5.2 อยู่ที่ 21%
ดังนั้นหากปัจจัยอื่นเท่ากัน โมเดลขนาดใหญ่อาจเปราะบางต่ออาการหลอนมากกว่าเมื่ออยู่ในสถานการณ์ที่ไม่รู้คำตอบ แต่ก็ยังมีปัจจัยอื่นอีกมากที่ส่งผลต่ออัตราหลอน และก็ยังไม่ชัดเจนเต็มที่ด้วยว่าตัวชี้วัดนี้คือสิ่งสำคัญที่สุดที่ควรติดตามหรือไม่
- ไม่ได้ถึงกับไม่เห็นด้วย แต่ในขณะเดียวกัน โมเดลก็ไม่ได้ “รู้” อะไรบางอย่างในความหมายแบบสองทางเลือกเช่นนั้น คำอธิบายนี้ดูเหมือนง่าย แต่จริง ๆ แล้วละเอียดอ่อนมาก
  ถ้าข้อเท็จจริงหนึ่งปรากฏในข้อมูลฝึกเพียงครั้งเดียว ไม่เคยปรากฏเลย สิบครั้ง หรือหนึ่งพันครั้ง นั่นเปลี่ยนสิ่งที่โมเดลรู้หรือไม่? ข้อเท็จจริงไม่ได้ถูกเก็บไว้ตรง ๆ แต่ถูกแยกเป็นองค์ประกอบและบีบอัดลงในค่าน้ำหนัก
  ข้อเท็จจริงที่ “คล้ายกัน” แต่ไม่ได้ปรากฏบ่อยอย่างท่วมท้นจะถูกจับรวมกันและสุดท้ายก็สับสนปนกัน แต่คำว่า “คล้ายกัน” หมายถึงอะไร? ข้อเท็จจริงบางอย่างถูกลบหายไปทั้งหมด ขณะที่บางอย่างถูกมัดรวมกับอย่างอื่น ทำให้พูลปนเปื้อน แต่ในเวลาเดียวกันก็ให้ความสามารถด้านการอนุมานด้วย โมเดลไม่ได้รู้อะไรเลย และไม่มีทางรู้ได้ด้วยว่าตัวเองรู้อะไรหรือไม่รู้อะไร
- อาจเป็นไปได้ว่ายิ่งคำถามง่าย โมเดลยิ่งตระหนักได้ง่ายว่าตัวเองไม่รู้คำตอบ
  ถ้า Opus ตอบถูกทุกข้อยกเว้นคำถามที่ยากที่สุด คำถามที่มันตอบผิดก็จะเป็นคำถามที่ตรวจสอบหรือจับอาการหลอนได้ยากที่สุด จึงอาจทำให้อัตราหลอนสูงขึ้น
- น่าจะทดสอบได้ด้วยคำถามสมมุติฐาน ถามถึงสิ่งที่ไม่ได้เกิดขึ้นหลัง knowledge cutoff date หรือถามสิ่งที่ในความเป็นจริงไม่มีทางแก้ได้
- อาการหลอนควรถูกเรียกว่า “ความล้มเหลวในการอ้างอิงหลักฐาน”
  ในโครงสร้างต้นทุนของโมเดลแนวหน้าของสหรัฐ มีบางอย่างเหมือนเอาปืนช็อตไฟฟ้าจี้ทุกครั้งที่โมเดลยังไม่แน่ใจแล้วลังเลว่าจะค้นหาดีไหม ปฏิกิริยาหลีกเลี่ยงการค้นหา แทบจะครอบคลุมอาการหลอนเกือบทั้งหมด
  ฉันไม่แม้แต่จะรอให้ถึงตาโมเดลเลยด้วยซ้ำ ถ้ามี man page หรือผลลัพธ์จาก Hoogle ก็จะยัดเข้าไปตรงจุดตัด prefix cache สุดท้ายทันที แบบนั้นคุ้มกว่า
- ตรงนี้ยังขาดโหมดล้มเหลวที่พบบ่อยอย่าง ข้อมูลหลัง knowledge cutoff date ถ้าต้องใช้ข้อมูลหลังจุดนั้น โมเดลก็จะล้มเหลวโดยไม่ขึ้นกับขนาดโมเดล ดังนั้นอัตราหลอนที่เป็นอิสระจากฐานความรู้อาจมีความสำคัญ
  ถ้าทุกกรณีใช้งานมีความเสี่ยงเท่า ๆ กันที่จะอยู่นอกขอบเขตรองรับ ตรรกะก่อนหน้าก็อาจถูกต้อง แต่ในหลายกรณีมีการรับประกันได้เลยว่าบาง data point อยู่นอกขอบเขตรองรับ ดังนั้นความสามารถโดยตรงในการรับรู้เรื่องนั้นจึงสำคัญ
การที่ GPT-5.5 และ DeepSeek V4 Pro ใหญ่มหาศาลแต่กลับเป็นผู้นำด้านอาการหลอนอย่างเด่นชัด ฟังดูเหมือนจะหมายความว่า ยิ่งโมเดลใหญ่ยิ่งมีโอกาสหลอน ซึ่งไม่ตรงกับประสบการณ์ของฉัน
- ดูเหมือนจะหมายถึงว่ามันมีแนวโน้มจะหลอนมากกว่าเมื่อไม่รู้คำตอบ โมเดลใหญ่คงให้คำตอบที่ถูกต้องได้บ่อยกว่าโมเดลเล็ก แต่เมื่อผิด มันมีแนวโน้มจะกุเรื่องมากกว่าจะพูดว่า “ไม่รู้”
ส่วนที่ว่า “เมื่อโมเดลถูกฝึกด้วยข้อมูลจำนวนมากที่มีความเป็นข้อเท็จจริงสูงและไม่เป็นเชิงทฤษฎี มันจะเรียนรู้ที่จะตอบเสมอ” บวกกับตัวเลขอัตราหลอน AA-Omniscience ของ DeepSeek V4 Pro ที่ 94%, GLM-5.2 ที่ 28%, Opus 4.8 ที่ 36%, Fable 5 ที่ 48%, GPT-5.5 ที่ 86% นั้นน่าตกใจมาก
ก่อนหน้านี้ก็รู้อยู่แล้วจากงานวิจัยก่อนหน้าว่าอาการหลอนเป็นปัญหารากฐานของ LLM และอาจแก้ยากพอ ๆ กับ prompt injection แต่ไม่คิดว่าอัตราหลอนจะแย่ขนาดนี้
ทุกคนทำเหมือนว่าโมเดลที่ดีที่สุดจะหลอนเฉพาะใน edge case เท่านั้น แต่จากตรงนี้ แม้แต่ GLM-5.2 ที่ทำผลงานดีที่สุดก็ยังมีอัตราหลอน 28% เมื่อมัน “ไม่รู้” บางอย่าง
แต่ก็คิดว่าชื่อบล็อก “Bigger models are not the way” เหมาะสมกว่า และแตะประเด็นที่ควรเป็นข่าวใหญ่กว่า ถ้าโมเดลใหญ่ขึ้นกับชุดฝึกใหญ่ขึ้นไม่ให้ผลตอบแทนตามสัดส่วนอีกแล้ว เราก็อาจเข้าใกล้ ส่วนบนของ S-curve แล้ว เมื่อคิดว่ามูลค่าบริษัทอย่าง OpenAI หรือ xAI พึ่งพาความคิดไร้สาระเรื่องการขยายโมเดลเหล่านี้แบบไม่สิ้นสุดอย่างมาก นี่จึงเป็นข่าวใหญ่มาก
- LLM ไม่มีแนวคิดเรื่อง ความรู้ แบบที่ Wikipedia มี
  โทเค็นของคำถามเป็นตัวกำหนดโทเค็นของคำตอบเท่านั้น แก่นสำคัญคือการจัดกลุ่มค่าน้ำหนักที่เกี่ยวข้องเข้าด้วยกัน
- เห็นด้วยกับชื่อเรื่อง และเป็นความผิดของฉันเอง โดยเฉพาะเวลาใช้โมเดล “แนวหน้า” แบบนี้กับ coding agent ฉันเจอเรื่องเลวร้ายมาก เพราะมันมักจะ แต่งข้อเท็จจริงขึ้นมา เกี่ยวกับโค้ดเบส
ถ้ามุ่งแค่การทำคะแนน benchmark ให้สูงสุด ขนาดที่ใหญ่กว่าก็อาจไม่ได้ดีกว่าเสมอไป แต่ในแง่ สติปัญญาทั่วไป และความรู้สึกเฉพาะตัวของโมเดลใหญ่ เรื่องนั้นไม่จริงเลย
โมเดลโอเพนซอร์สน่าประทับใจ แต่เมื่อเทียบกับ Opus หรือ 5.5 ก็เห็นได้ค่อนข้างชัดว่าทันทีที่ออกนอกชุดปัญหาแคบ ๆ ที่ตอบ benchmark ได้ดี มันพังเร็วแค่ไหน
มองว่าอัตราการหลอนขึ้นอยู่กับ วิธีการฝึก ไม่ใช่เรื่องของขนาดโมเดล โมเดลถูกฝึกด้วยคลังข้อความขนาดมหาศาลที่มีคำถามที่จัดวางมาอย่างดี และคำตอบที่ถูกต้องซึ่งถูกจัดระเบียบไว้อย่างดีในสัดส่วนท่วมท้น โดยเฉพาะหนังสือ ซึ่งเป็นข้อมูลที่ผู้เชี่ยวชาญในสาขานั้นคัดสรรมาอย่างเข้มงวด
ในหนังสือแทบไม่เห็นการตั้งคำถามที่ไม่มีคำตอบ แล้วให้เหตุผลและอธิบายว่าทำไมและอย่างไรจึงไม่มีคำตอบสำหรับคำถามนั้น อีกทั้งก็แทบไม่มีหนังสือที่ตั้งคำถามดี ๆ แล้วอธิบายอย่างตรงไปตรงมาว่าไม่รู้คำตอบ เพราะในกระบวนการคัดสรร ผู้เขียนมักตัดคำถามที่ตัวเองไม่มีคำตอบออกจากการอภิปราย
นอกจากนี้ยังมองว่าในช่วง RLHF ห้องแล็บต่าง ๆ มีอคติไปทางคำถามที่มีคำตอบและให้คำตอบที่น่าสนใจ ขณะที่คำถาม “แย่ ๆ” ที่ไม่มีคำตอบดี ๆ กลับมีตัวแทนน้อยเกินไป จึงมีความเป็นไปได้สูงว่าความพยายามด้าน RLHF ที่ทำให้โมเดลยอมรับว่าไม่รู้นั้นมีน้อยกว่า
มนุษย์เรียนรู้มาตลอดชีวิตจากการเผชิญกับคำถามในโลกจริงที่ยังตอบไม่ได้ในทันที และได้เรียนรู้วิธีประเมินอย่างรวดเร็วมากว่าเราไม่รู้คำตอบหรือยังไม่แน่ใจ
อีกทั้งมนุษย์ยังมี ความกลัว ซึ่ง LLM ไม่มี ในสมองมนุษย์มีอะมิกดะลาที่แยกจากส่วนคิดเชิงตรรกะ ทำหน้าที่ส่งสัญญาณความกลัว และทำให้เราระมัดระวังกับสิ่งที่พูดมากขึ้นมาก ตรงกันข้าม LLM ไม่มีอวัยวะแห่งความกลัวแบบอะมิกดะลา และเรียนรู้เพียงวิธีตอบตามแพตเทิร์นของคลังข้อความฝึกเท่านั้น มันไม่ได้ “กลัว” ว่าจะเสียหน้าหรือถูกไล่ออกเพราะตอบผิด จึงสามารถปล่อยคำตอบที่ผิดสนิทออกมาอย่างมั่นอกมั่นใจได้
เพราะฉะนั้นอัตราการหลอนสามารถปรับปรุงได้ด้วยการฝึก แต่ตอนนี้ห้องแล็บต่าง ๆ ยังไม่ได้ปรับให้เหมาะทางนั้น เพราะกำลังแข่งกันแบบความเสี่ยงสูงเพื่อสร้างโมเดลที่ฉลาดและมีความสามารถที่สุด
อีกทางเลือกหนึ่งคืออาจสร้างหน่วยงานแยกต่างหากที่คล้ายอะมิกดะลาให้กับ LLM โดยหน่วยงานนั้นสามารถส่งสัญญาณแบบอะซิงโครนัสจากพรอมป์ต์ของผู้ใช้และร่องรอยการคิดของ LLM เพื่อฉีดสัญญาณความกลัวเข้าไปในกระบวนการอนุมานของ LLM และหันเหให้ตอบได้ปลอดภัยยิ่งขึ้น
- เห็นด้วยอย่างชัดเจนว่าขนาดโมเดลไม่ใช่สาเหตุโดยตรง เพียงแต่ก็มีข้อเท็จจริงว่าโมเดลที่มีจำนวนพารามิเตอร์มากกว่าจะต้องใช้ข้อมูลฝึกจำนวนมากเพื่อหลีกเลี่ยงการ overfit หรือ underfit
  ดังนั้นจึงมองว่าการแข่งขันไปสู่ “ขนาดข้อมูลฝึกสูงสุด” ได้นำไปสู่ การ overfit โดยไม่ได้ตั้งใจ แม้จะไม่ถึงขั้นร้ายแรง แต่ก็เพียงพอจะกระตุ้นการรับรู้ภายในโมเดลที่ดูคล้ายความรอบรู้ทุกสิ่ง
- ถ้าเป็น Skinner ก็คงจะบอกว่านี่ไม่ใช่เรื่องของอารมณ์อย่างความกลัวหรือความโลภ แต่เป็นเรื่องของ ผลลัพธ์

GPT-5.5 มีอัตราหลอนมากกว่า GLM-5.2 ที่ใช้สัญญาอนุญาต MIT ถึง 3 เท่า

ข้อสงสัยต่อกลยุทธ์การขยายโมเดล

ปัญหาการปรับเทียบความไม่แน่นอนที่อัตราหลอนเปิดเผย

ประสิทธิภาพการคำนวณที่แยกกันชัดในบททดสอบ Python

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News