- VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่ทดลองว่าการบีบอัดความสามารถด้านการให้เหตุผลที่ตรวจสอบได้จะไปได้ไกลแค่ไหนด้วยพารามิเตอร์เพียง 3B
- ไปป์ไลน์การฝึกผสาน post-training แบบ Spectrum-to-Signal เข้ากับ curriculum-guided supervised fine-tuning, reinforcement learning แบบหลายโดเมน และ offline self-distillation
- ทำคะแนน AIME26 ได้ 94.3 และเมื่อใช้ CLR ได้ 97.1 พร้อมรายงานผล LiveCodeBench v6 Pass@1 ที่ 80.2 และอัตราการยอมรับ 96.1% ในการแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย
- แม้จะมีขนาดเล็กกว่ามาก แต่ยังอยู่ในระดับสมรรถนะที่ใกล้เคียงหรือสูงกว่าโมเดล flagship ขนาดใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro พร้อมคง ความสามารถในการควบคุมตามคำสั่งอย่างเข้มงวด ด้วยคะแนน IFEval 93.4
- Parametric Compression-Coverage Hypothesis มองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงใน reasoning core ขนาดเล็กได้ แต่ความรู้แบบเปิดและความสามารถทั่วไปยังต้องอาศัยการครอบคลุมของพารามิเตอร์ที่กว้างกว่า
การทดลองผลักขีดความสามารถการให้เหตุผลที่ตรวจสอบได้ด้วยโมเดล 3B
- VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่มีพารามิเตอร์ระดับ 3B
- เป้าหมายคือทดสอบว่าในกรอบของ โมเดลขนาดเล็กอย่างเคร่งครัด จะดันสมรรถนะการให้เหตุผลที่ตรวจสอบได้ขึ้นไปได้มากเพียงใด
- post-training ถูกออกแบบบนพาราไดม์ Spectrum-to-Signal
- supervised fine-tuning แบบอิงลำดับหลักสูตร
- reinforcement learning แบบหลายโดเมน
- offline self-distillation
- ผลลัพธ์ครั้งนี้เป็นส่วนต่อเนื่องจากงานก่อนหน้าระดับ 1.5B
ช่วงสมรรถนะที่แสดงออกในการประเมิน
- แสดงสมรรถนะระดับ frontier ในการประเมินด้านคณิตศาสตร์ การเขียนโค้ด และการทำตามคำสั่ง
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- การแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย: อัตราการยอมรับ 96.1%
- IFEval: 93.4
- CLR ย่อมาจาก Claim-Level Reliability Assessment และเป็นกลยุทธ์ test-time scaling ระดับ claim
- คู่เทียบใน Figure 1 ได้แก่ Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 และ Claude Opus 4.5
- จากผลที่รายงาน VibeThinker-3B สามารถอยู่ในระดับสมรรถนะเดียวกันหรือสูงกว่ากับโมเดล flagship ที่ใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro
- ในการเปรียบเทียบขนาดพารามิเตอร์ VibeThinker-3B ถูกระบุไว้ที่ 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesis มองโมเดล compact ไม่ใช่แค่ทางแทนเพื่อประสิทธิภาพในการนำไปใช้งาน แต่เป็นอีกเส้นทางเสริมในการไปให้ถึงสมรรถนะระดับ frontier ภายในขอบเขตความสามารถที่หนาแน่นต่อพารามิเตอร์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สงสัยว่านี่คือ โมเดลขนาดเล็กที่ถูกฝึกมาให้เก่งด้านการให้เหตุผล เท่านั้นหรือเปล่า
เหมือนคนฉลาดที่ไม่รู้ทุกเรื่อง แต่ถ้ามีเครื่องมือให้ก็จะขยันค้นคว้าอย่างจริงจัง
ถ้าแทนที่จะบังคับให้โมเดลเรียนรู้ความรู้ทั้งหมด เราฝึกแค่วิธีการเรียนรู้ แล้วปล่อยให้มันจัดการเองได้ด้วยอุปกรณ์เล็กอย่าง Pi Zero กับการเชื่อมต่ออินเทอร์เน็ต ก็ดูน่าสนใจมาก
แทนที่จะเข้ารหัส ความรู้ทั้งหมด ไว้ในพารามิเตอร์ อยากรู้ว่าจะเป็นอย่างไรถ้าสร้างโมเดลที่แม้ขนาดเท่ากัน แต่ใช้ทรัพยากรส่วนใหญ่ไปกับการให้เหตุผล
แค่ให้ความสามารถในการท่องอินเทอร์เน็ต แล้วให้มันไปค้น language specs, docs และ best practices เองก็พอ
ไม่เข้าใจว่าทำไม coding agent ของฉันต้องรู้จำนวนประชากรของ New York, สูตรชีสเค้ก หรืออายุขัยของนกกระจอกเทศด้วย
ให้แค่ความรู้ขั้นต่ำที่จำเป็นต่อการคิดและให้เหตุผล แล้วที่เหลือให้มันไปหาเองก็น่าจะพอ
แต่ก็น่าเสียดายที่ large language model ตอนนี้สุดท้ายแล้วก็ยังเป็นแค่ การทำนายโทเค็น เลยไม่ได้ทำงานแบบนั้น
การให้เหตุผลเป็น ผลพลอยได้ที่เกิดจากการฝึกด้วยความรู้ทั้งหมด และแม้ในรูปแบบนี้ โมเดลก็ไม่ได้ “รู้” อะไรจริง ๆ มันแค่สร้างโทเค็นออกมาเท่านั้น
ถ้าไม่ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่มีคำจำนวนมากและความเชื่อมโยงที่ดูสมเหตุสมผลระหว่างคำเหล่านั้น มันก็จะสร้างความเชื่อมโยงที่เหมาะสมระหว่างคำกับประโยคไม่ได้ และจึงให้เหตุผลไม่ได้ด้วย
ถ้าลองฝึกโมเดลเล็กด้วยชุดข้อมูลเล็กมาก ๆ ก็จะเห็นผลลัพธ์ที่พูดจาวกวนไม่เป็นเรื่อง
การปรับชุดข้อมูลให้เหมาะเพื่อรีดการสร้างผลลัพธ์ให้ได้มากที่สุดจากข้อมูลขั้นต่ำก็น่าสนุกดี แต่ถ้าบริษัทจะทำโมเดลระดับล้ำสมัย ทางเศรษฐศาสตร์มันคุ้มกว่ามากที่จะเพิ่ม GPU อีกไม่กี่ตัว แทนที่จะทุ่มแรงไปกับเรื่องนั้น
ตัวอย่างเช่น คำถามพื้นฐานมาก ๆ อย่างเอาลูกบอลใส่ถ้วย คว่ำถ้วยไว้บนโต๊ะ แล้วยกถ้วยไปใส่กล่อง จำเป็นต้องใช้ความรู้ที่ไม่ได้ระบุไว้ในโจทย์ โดยเฉพาะความรู้เรื่องแรงโน้มถ่วง
ถ้าพยายามนิยามทุกคำอย่างเคร่งครัด ก็จะจมลงไปในบ่อแห่งความซับซ้อนอย่างรวดเร็ว
การจะเข้าใจคำสั่งได้ ต้องมีความรู้พื้นฐานเกี่ยวกับสิ่งต่าง ๆ และถ้ารู้แค่วิธีให้เหตุผล ก็อาจไม่รู้ด้วยซ้ำว่าควรบรรลุอะไร
มีรอยแยกที่ค่อนข้างชัดระหว่างคลังข้อความมหาศาลที่โมเดลถูกฝึกด้วย กับความสามารถในการพิจารณาหัวข้อใดหัวข้อหนึ่งอย่างมั่นคง
เลยสงสัยเหมือนกันว่าลำดับการฝึกจะช่วยชี้นำเส้นทางได้ไหม
เช่น ถ้าเริ่มจาก TinyStories เพื่อให้มีความรู้พื้นฐานด้านการอ่านเขียน จากนั้นค่อยตามด้วยข้อความด้านคณิตศาสตร์และปรัชญา ต่อด้วยจิตวิทยาและสังคมวิทยา แล้วสุดท้ายค่อยใส่ข้อมูลมหาศาลที่รวมบทสนทนา โพสต์แสดงความโกรธ โค้ด และนิยายเข้าไปด้วย มันจะต่างมากไหมจากโมเดลที่ฝึกจากการแสดง การเขียนเชิงสร้างสรรค์ และนิยายแฟนตาซีก่อน แล้วค่อยใส่ชุดข้อมูลมหาศาลปลายทางชุดเดียวกัน
สงสัยเหมือนกันว่าความสามารถปัจจุบันมีผลมากแค่ไหนต่อการทำความเข้าใจข้อมูลฝึกใหม่ในบริบท
มันถูกฝึกให้แก้ปัญหาโดยสร้าง กระบวนการคิดแบบยาว (CoT) และทำแบบนั้นได้ดี แต่แทบไม่มีความสามารถในการเรียกใช้เครื่องมือ และแทบจัดการการสนทนาที่เกิน 1-2 ข้อความไม่ได้เลย
ดูคำเตือนด้านบนสุดของ https://huggingface.co/WeiboAI/VibeThinker-3B ได้
คิดว่าสมรภูมิถัดไปคือการปรับโมเดลให้เก่งขึ้นบนฮาร์ดแวร์ที่น้อยลง
โดยเฉพาะถ้าไปถึงขั้น การเรียนรู้แบบเรียลไทม์ ได้ด้วยจะยิ่งน่าสนใจมาก
เมื่อมีโมเดลเล็กแต่ทรงพลังทะลุขึ้นมา มันดูเหมือนกำลังแซง พลังทุนล้วน ๆ ของผู้ให้บริการโมเดลรุ่นล่าสุด
อยากเชียร์ฝั่งเล็ก แต่ก็รู้สึกว่ายังเร็วไปที่จะสรุป
หรืออีกมุมหนึ่งก็คือ benchmark ปัจจุบันอาจยังไม่มีประสิทธิภาพพอที่จะจับความสำเร็จใน workflow การทำงานจริงของนักพัฒนาได้
แต่ถ้าให้โมเดลนี้คุยโต้ตอบ มันมีโอกาสพังและเสียความสม่ำเสมอสูง
อย่างไรก็ตาม ความสามารถในการให้เหตุผลเพื่อแก้โจทย์คณิตศาสตร์นั้นดีมากจริง ๆ
มันทำงานได้ดี และทำให้นึกถึง Claude รุ่นแรกที่เคยใช้
นี่เป็น local model ตัวแรกสำหรับ coding agent ที่ผมลองแล้วรู้สึกว่าใช้งานจริงได้ จึงตื่นเต้นมาก
หากโมเดลใดจะมีประโยชน์ได้ แม้ในงานที่แคบ ก็ยังต้องมี ระดับสติปัญญาพื้นฐาน อยู่บ้าง
เราจะสอนเด็ก 5 ขวบให้ขับรถได้ไหม? แล้ว 10 ขวบล่ะ? 12 ขวบล่ะ?
การขับรถต้องอ่านออก, ประเมินสภาพน้ำแข็งเกาะถนนหรือฝนตกได้, และคาดการณ์ได้ว่าอาจมีเด็กวิ่งตามลูกบอลออกมา
มนุษย์มักจะมีความรู้พื้นฐานแบบนี้ราวช่วงวัยรุ่นตอนต้นถึงกลาง
แม้แต่โมเดลขนาดเล็ก หากจะทำงานเฉพาะทางที่ดูแคบให้ดีพอ ก็ยังต้องมีความรู้พื้นฐานอยู่ระดับหนึ่ง
อาจไม่จำเป็นต้องมีความรู้หายากทุกอย่างแบบโมเดลแนวหน้า แต่มีโอกาสสูงว่าเส้นฐานที่ต้องมีก็สูงกว่าที่คิดไว้ตอนแรก
ถ้าจะสอบใบขับขี่ให้ผ่านอาจต้องอ่านออก แต่ทั่วโลกก็มีคนจำนวนมากที่แม้ไม่รู้หนังสือก็ยังขับรถเก่ง
ที่ทำป้ายจราจรทั่วไปให้จำได้จากรูปร่างและสีก็มีเหตุผลของมัน
ตัวการขับรถเองพึ่งพาความจำของกล้ามเนื้อในการควบคุมรถเป็นหลัก จึงทำให้คนที่ขับบ่อยสามารถขับทางไกลแบบเหมือนออโต้ไพลอตไปพร้อมกับคิดเรื่องอื่นอยู่ก็ได้
นี่ก็เป็นความรู้รูปแบบหนึ่ง แต่ได้มาจากการทำซ้ำเท่านั้น
แน่นอนว่าการขับรถท่ามกลางการจราจรต้องอาศัยอย่างอื่นอีกมาก เช่น ความเข้าใจกฎจราจรพื้นฐาน แต่ส่วนใหญ่ของการขับคือความจำของกล้ามเนื้อ ความเข้าใจตัวรถ และการคาดการณ์สิ่งที่จะเกิดขึ้นข้างหน้า
ที่วานรเก่งเรื่องแบบนี้ก็เพราะวิวัฒนาการมาหลายล้านปีด้วยการใช้ร่างกายและเห็นผลลัพธ์
เคยมี GIF ที่อุรังอุตังขับรถกอล์ฟอยู่เหมือนกัน แต่ก็ไม่แน่ใจว่าเป็นของจริงแค่ไหน
อาจจะมีประโยชน์กว่าถ้ามองโมเดลเป็นเครื่องมือที่มีความสามารถเฉพาะด้านในบางโดเมน แทนที่จะมองเป็นมนุษย์จำลองแห่งอนาคต
เหมือนกับที่การขอให้ Opus 4.8 ขับรถให้เป็นเรื่องไม่สมเหตุสมผล การคาดหวังให้โมเดลภาพขนาดเล็กสำหรับอุปกรณ์ edge ไปเขียนนิยายก็ไม่สมเหตุสมผลเช่นกัน
ควรมองมันเป็นเครื่องมือที่สร้างมาเพื่อการใช้งานเฉพาะ
ผมคิดว่าอุปสรรคจริงคือ a) วิจารณญาณ และ b) ระดับรีเฟล็กซ์ทางกายกับแรง
ตอนเด็กผมก็รู้จักน้ำแข็ง หิมะ และฝนอยู่แล้ว
ผมปั่นจักรยานตลอดทั้งสี่ฤดู และรู้สึกมั่นใจน้อยในการควบคุมจักรยานบนหิมะหรือพื้นเปียก โดยเฉพาะช่วงเปลี่ยนฤดู
ประสบการณ์นั้นต่อยอดไปสู่การเรียนขับรถในฤดูหนาวของแคนาดาตอนเหนือ และผมนำบทเรียนเดียวกันมาใช้กับการขับรถ
ในสภาพแวดล้อมที่ไม่มีผลลัพธ์ตามมา ผมเห็นเด็ก ๆ ควบคุมซิมูเลเตอร์จริงหรือเกมจำลองการขับรถได้แม่นยำอย่างน่าทึ่ง
เด็กอายุ 9–11 ขวบบางคนก็เล่นซิมูเลชันและเกมได้มั่นใจกว่าคนขับรถผู้ใหญ่มาก
เด็ก ๆ รู้ว่าซิมูเลชันไม่มีผลตามมาจริง และถ้าไม่มีแรงจูงใจแยกต่างหาก พวกเขาก็จะประพฤติตัวตามนั้น
ตรงกันข้าม ผู้ใหญ่ที่ขับรถเป็นประจำ ต่อให้เล่นเกม การตัดสินใจก็ยังถูกครอบงำด้วยความจำของกล้ามเนื้อและอคติเดิม
ผมสงสัยว่าต้องใช้การฝึกและการเปิดรับมากแค่ไหน เด็กจึงจะก้าวข้ามภาวะที่ยังไม่รับรู้ข้อจำกัดและผลลัพธ์จริงของการขับรถกับความผิดพลาดในการขับได้ หรือในทางกลับกัน คนขับที่ชำนาญแต่เป็นมือใหม่ในเกม ต้องใช้มากแค่ไหนจึงจะเลิกนำประสบการณ์จริงไปใช้กับซิมูเลชันที่ไม่มีผลลัพธ์ตามมา
การขับรถไม่จำเป็นต้องอ่านออก
แต่การ ขับบนถนนร่วมกับคนอื่น เป็นอีกเรื่องหนึ่งโดยสิ้นเชิง
เด็กสามขวบมีแนวโน้มจะอยากสำรวจมากเกินไปในสถานการณ์ที่ความผิดพลาดเป็นอันตราย
เรื่องนี้ไม่ได้ต้องการแค่ความรู้ แต่ยังต้องมีระบบควบคุมที่พัฒนาไปพร้อมกับสมองส่วนหน้า
ตอนนี้โมเดลภาษาขนาดใหญ่ยังควบคุมแบบนั้นได้ไม่มากนัก
ต้องสังเกตว่าผลลัพธ์นี้เป็นแบบ เฉพาะ Python
ในภาษาอื่นน่าจะทำได้ไม่ดีเท่านี้
น่ายินดีที่ได้เห็นโมเดลภาษาขนาดเล็กเฉพาะโดเมนมากขึ้น
ถ้าเป็นโมเดล Mixture of Experts (MoE) ที่เชี่ยวชาญด้านการเขียนโปรแกรม ก็อาจทำงานได้ดีข้ามหลายภาษา
โมเดลนี้คือผู้เชี่ยวชาญราคาถูกสำหรับ งานให้เหตุผลแบบตรวจสอบได้ในโลกปิด เช่น คณิตศาสตร์ หรือโจทย์เขียนโค้ดแบบจบในตัวเอง
“โลกปิด” หมายถึงข้อมูลที่ต้องใช้มีอยู่ในบริบทแล้ว
มันไม่ใช่เอเจนต์ใช้เครื่องมือที่คอยค้นหาบริบทที่ขาดหายไป
“ตรวจสอบได้” หมายถึงเป็นปัญหาที่สร้างคำตอบยาก แต่ตรวจคำตอบง่าย
ดังนั้นจึงไม่เหมาะกับงานวิจัยปลายเปิด งานเอเจนต์ที่ต้องจัดการทั้งรีโพซิทอรี งานถามตอบข้อเท็จจริง หรือการสร้าง SVG
มันใกล้เคียงกับโมดูลให้เหตุผลขนาดเล็กสำหรับปัญหาที่มีขอบเขตชัดเจนมากกว่า
สิ่งที่น่าสนใจของโมเดลเล็กขนาดนี้คือ ดูเหมือนว่าจะใส่ลงบน ชิป Taalas เพียงตัวเดียว ได้
HC1 เองก็รันโมเดล Llama 3.1 8B ได้อยู่แล้ว
เรามาถึงจุดที่สามารถรันการให้เหตุผลที่ดีพอใช้บน ASIC ได้แล้ว แถมยังเร็วมากอีกด้วย
ผมลองใช้โมเดลนี้แทน GPT-5 nano ในงานรีวิวความปลอดภัยซอร์สโค้ดอยู่บ้าง และก็ค่อนข้างได้ผล
ตอนนี้รันด้วย vLLM บน RTX 3090 24GB VRAM
เอาต์พุตแบบมีโครงสร้างไม่ค่อยดีอย่างที่ระบุไว้ในการ์ดโมเดล แต่ผมเลี่ยงข้อจำกัดนั้นใน test harness ของตัวเองอยู่
ลองสร้าง pelican SVG แบบคลาสสิกดูแล้ว แต่แสดงออกมาเป็นแค่สี่เหลี่ยมกับวงกลมสีดำ เละเทะและล้มเหลวอย่างสิ้นเชิง
ประเด็นสำคัญดูจะเป็นว่าได้ลดทอนความรู้ประเภท “นกกระทุงมีปีก” ลง แต่ยังคง ความสามารถด้านการให้เหตุผลหลัก เอาไว้
“การค้นพบนี้สนับสนุนสมมติฐาน parameter compression-coverage ซึ่งมองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงเป็น reasoning core ขนาดเล็กได้ แต่ความรู้แบบ open-domain และความสามารถอเนกประสงค์ต้องอาศัย parameter coverage ที่กว้าง ครอบคลุมข้อเท็จจริง แนวคิด และสถานการณ์ long-tail โดยรวม”
จากนั้นก็ให้แท็ก SVG และเอกสารอ้างอิงที่อยากให้ใช้
ผลลัพธ์ที่ฉันได้อยู่ที่นี่: https://9ol.es/tmp/pelican.png
พรอมป์ต์คือ https://9ol.es/tmp/prompt_pelican.txt
โมเดลที่ใช้คือ prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
ตอนนี้ยังเชื่อถือการประเมินและเบนช์มาร์กไม่ได้
จะพิสูจน์ได้อย่างไรว่าชุดข้อมูลทดสอบเป็น ตัวอย่างที่ไม่เคยเปิดเผย จริง?
ผมมองว่าวิธีเดียวที่จะพิสูจน์ได้ว่าโมเดลเหล่านี้ดีอย่างที่อ้าง คือรอดูว่าจะมีการนำไปใช้งานจริงหรือไม่
ถ้าต้องทำอะไรอย่าง reasoning engine ขึ้นมา ก็ต้องออกแบบและสร้างสถาปัตยกรรมที่ดีที่สุดสำหรับมัน แล้วจึงทดสอบ
สนุกมากที่ได้เห็น small language model ที่มีความสามารถแบบนี้ออกมา
แต่ใน Hugging Face เขียนไว้แบบนี้:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
เพราะงั้นจึงเอาไปเสียบใช้ตรงๆ กับ coding harness อย่าง pi.dev ไม่ได้
ให้เหตุผลได้ดีกว่า Opus 4.5 งั้นเหรอ?
พรอมป์ต์: “ถ้า A ไปหา B แล้ว B ไปหา C ต่อจากนั้น A จะส่งอะไรบางอย่างไปให้ C ได้หรือไม่?”
คำตอบออกมาแบบนี้:
“ควรตีความให้เหมาะสมที่สุด ประโยคนี้อาจเกี่ยวกับแนวคิดของการส่งบางสิ่ง เช่น การส่งลูกบอล และอาจเป็นปริศนาเกี่ยวกับความสัมพันธ์
สถานการณ์: A ให้บางสิ่งกับ B แล้ว B ส่งต่อสิ่งนั้นให้ C
คำถาม: A สามารถให้สิ่งเดียวกันนั้นกับ C ได้ด้วยหรือไม่?
คำตอบ: ทำได้ก็ต่อเมื่อ A สามารถหาสำเนาชิ้นที่สองมาได้ เช่น ถ้าวัตถุนั้นถูกทำสำเนาไว้ มิฉะนั้นหลังจากส่งให้ B แล้ว A ก็ไม่ได้ครอบครองมันอีกต่อไป จึงไม่สามารถ ‘ส่ง’ ให้ได้หากไม่มีสำเนา”
นอกจากนี้ยังมีคำอธิบายและ “สถานการณ์” ที่ไม่จำเป็นและฟังไม่ค่อยสมเหตุสมผลอีกยาว
ถึงอย่างนั้นก็ยังตอบถูก
อีกอย่าง ถ้าเทียบปริมาณการคำนวณ floating-point ที่ใช้เพื่อไปถึงคำตอบกับ Opus ผมว่ายังถือว่าคุ้มอยู่
สัญชาตญาณของผมคือ โมเดลขนาดระดับ Opus มีทางลัดสำหรับจัดการกรณีกำกวมแบบนี้ถูกเข้ารหัสอยู่ในตัวโมเดลแล้ว ส่วนโมเดลนี้เหมือนเรียนรู้โปรแกรมที่ใช้ให้เหตุผลกับกรณีขอบเขตเฉพาะหน้า
มันใกล้เคียงกับความต่างระหว่าง crystallized intelligence กับ fluid intelligence
โมเดลแนวหน้าดูเหมือน “จำ” ความน่าจะเป็นไว้ ส่วน VibeThinker ให้ความรู้สึกเหมือน “คำนวณ” มันสดๆ ตรงนั้น
“การควบคุมคุณภาพหลายขั้นตอน”
“การกรองคุณภาพของคำถามด้วย large language model เราใช้ large language model ประสิทธิภาพสูงเพื่อประเมินคุณภาพของคำถาม และคัดกรองตัวอย่างที่คำอธิบายไม่สมบูรณ์ เงื่อนไขไม่สมเหตุสมผล ตรรกะผิดพลาด หรือไม่สามารถประเมินจุดความรู้เป้าหมายได้อย่างมีประสิทธิภาพ”