VibeThinker-3B: โมเดล 3B ที่แซงสมรรถนะการให้เหตุผลของ Opus 4.5 ด้วย SFT+GRPO

(arxiv.org)

2 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่ทดลองว่าการบีบอัดความสามารถด้านการให้เหตุผลที่ตรวจสอบได้จะไปได้ไกลแค่ไหนด้วยพารามิเตอร์เพียง 3B
ไปป์ไลน์การฝึกผสาน post-training แบบ Spectrum-to-Signal เข้ากับ curriculum-guided supervised fine-tuning, reinforcement learning แบบหลายโดเมน และ offline self-distillation
ทำคะแนน AIME26 ได้ 94.3 และเมื่อใช้ CLR ได้ 97.1 พร้อมรายงานผล LiveCodeBench v6 Pass@1 ที่ 80.2 และอัตราการยอมรับ 96.1% ในการแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย
แม้จะมีขนาดเล็กกว่ามาก แต่ยังอยู่ในระดับสมรรถนะที่ใกล้เคียงหรือสูงกว่าโมเดล flagship ขนาดใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro พร้อมคง ความสามารถในการควบคุมตามคำสั่งอย่างเข้มงวด ด้วยคะแนน IFEval 93.4
Parametric Compression-Coverage Hypothesis มองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงใน reasoning core ขนาดเล็กได้ แต่ความรู้แบบเปิดและความสามารถทั่วไปยังต้องอาศัยการครอบคลุมของพารามิเตอร์ที่กว้างกว่า

การทดลองผลักขีดความสามารถการให้เหตุผลที่ตรวจสอบได้ด้วยโมเดล 3B

VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่มีพารามิเตอร์ระดับ 3B
เป้าหมายคือทดสอบว่าในกรอบของ โมเดลขนาดเล็กอย่างเคร่งครัด จะดันสมรรถนะการให้เหตุผลที่ตรวจสอบได้ขึ้นไปได้มากเพียงใด
post-training ถูกออกแบบบนพาราไดม์ Spectrum-to-Signal
- supervised fine-tuning แบบอิงลำดับหลักสูตร
- reinforcement learning แบบหลายโดเมน
- offline self-distillation
ผลลัพธ์ครั้งนี้เป็นส่วนต่อเนื่องจากงานก่อนหน้าระดับ 1.5B

ช่วงสมรรถนะที่แสดงออกในการประเมิน

แสดงสมรรถนะระดับ frontier ในการประเมินด้านคณิตศาสตร์ การเขียนโค้ด และการทำตามคำสั่ง
- AIME26: 94.3
- AIME26 + CLR: 97.1
- LiveCodeBench v6: Pass@1 80.2
- การแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย: อัตราการยอมรับ 96.1%
- IFEval: 93.4
CLR ย่อมาจาก Claim-Level Reliability Assessment และเป็นกลยุทธ์ test-time scaling ระดับ claim
คู่เทียบใน Figure 1 ได้แก่ Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 และ Claude Opus 4.5
จากผลที่รายงาน VibeThinker-3B สามารถอยู่ในระดับสมรรถนะเดียวกันหรือสูงกว่ากับโมเดล flagship ที่ใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro
ในการเปรียบเทียบขนาดพารามิเตอร์ VibeThinker-3B ถูกระบุไว้ที่ 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis มองโมเดล compact ไม่ใช่แค่ทางแทนเพื่อประสิทธิภาพในการนำไปใช้งาน แต่เป็นอีกเส้นทางเสริมในการไปให้ถึงสมรรถนะระดับ frontier ภายในขอบเขตความสามารถที่หนาแน่นต่อพารามิเตอร์

1 ความคิดเห็น

GN⁺ 5 시간 전

ความคิดเห็นจาก Hacker News

สงสัยว่านี่คือ โมเดลขนาดเล็กที่ถูกฝึกมาให้เก่งด้านการให้เหตุผล เท่านั้นหรือเปล่า
เหมือนคนฉลาดที่ไม่รู้ทุกเรื่อง แต่ถ้ามีเครื่องมือให้ก็จะขยันค้นคว้าอย่างจริงจัง
ถ้าแทนที่จะบังคับให้โมเดลเรียนรู้ความรู้ทั้งหมด เราฝึกแค่วิธีการเรียนรู้ แล้วปล่อยให้มันจัดการเองได้ด้วยอุปกรณ์เล็กอย่าง Pi Zero กับการเชื่อมต่ออินเทอร์เน็ต ก็ดูน่าสนใจมาก
- ฝันถึงอะไรแบบนี้มานานแล้ว
  แทนที่จะเข้ารหัส ความรู้ทั้งหมด ไว้ในพารามิเตอร์ อยากรู้ว่าจะเป็นอย่างไรถ้าสร้างโมเดลที่แม้ขนาดเท่ากัน แต่ใช้ทรัพยากรส่วนใหญ่ไปกับการให้เหตุผล
  แค่ให้ความสามารถในการท่องอินเทอร์เน็ต แล้วให้มันไปค้น language specs, docs และ best practices เองก็พอ
  ไม่เข้าใจว่าทำไม coding agent ของฉันต้องรู้จำนวนประชากรของ New York, สูตรชีสเค้ก หรืออายุขัยของนกกระจอกเทศด้วย
  ให้แค่ความรู้ขั้นต่ำที่จำเป็นต่อการคิดและให้เหตุผล แล้วที่เหลือให้มันไปหาเองก็น่าจะพอ
  แต่ก็น่าเสียดายที่ large language model ตอนนี้สุดท้ายแล้วก็ยังเป็นแค่ การทำนายโทเค็น เลยไม่ได้ทำงานแบบนั้น
- ผมมองว่าเกือบจะตรงกันข้าม
  การให้เหตุผลเป็น ผลพลอยได้ที่เกิดจากการฝึกด้วยความรู้ทั้งหมด และแม้ในรูปแบบนี้ โมเดลก็ไม่ได้ “รู้” อะไรจริง ๆ มันแค่สร้างโทเค็นออกมาเท่านั้น
  ถ้าไม่ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่มีคำจำนวนมากและความเชื่อมโยงที่ดูสมเหตุสมผลระหว่างคำเหล่านั้น มันก็จะสร้างความเชื่อมโยงที่เหมาะสมระหว่างคำกับประโยคไม่ได้ และจึงให้เหตุผลไม่ได้ด้วย
  ถ้าลองฝึกโมเดลเล็กด้วยชุดข้อมูลเล็กมาก ๆ ก็จะเห็นผลลัพธ์ที่พูดจาวกวนไม่เป็นเรื่อง
  การปรับชุดข้อมูลให้เหมาะเพื่อรีดการสร้างผลลัพธ์ให้ได้มากที่สุดจากข้อมูลขั้นต่ำก็น่าสนุกดี แต่ถ้าบริษัทจะทำโมเดลระดับล้ำสมัย ทางเศรษฐศาสตร์มันคุ้มกว่ามากที่จะเพิ่ม GPU อีกไม่กี่ตัว แทนที่จะทุ่มแรงไปกับเรื่องนั้น
- แม้จะฝึกให้โมเดลจัดการกับ ตรรกะแบบบูลีน, modal logic และคณิตศาสตร์ได้ค่อนข้างดี แต่การจะข้ามจากตรงนั้นไปสู่การ “คิดเกี่ยวกับสิ่งของ” ยังมีช่องว่างใหญ่มาก
  ตัวอย่างเช่น คำถามพื้นฐานมาก ๆ อย่างเอาลูกบอลใส่ถ้วย คว่ำถ้วยไว้บนโต๊ะ แล้วยกถ้วยไปใส่กล่อง จำเป็นต้องใช้ความรู้ที่ไม่ได้ระบุไว้ในโจทย์ โดยเฉพาะความรู้เรื่องแรงโน้มถ่วง
  ถ้าพยายามนิยามทุกคำอย่างเคร่งครัด ก็จะจมลงไปในบ่อแห่งความซับซ้อนอย่างรวดเร็ว
  การจะเข้าใจคำสั่งได้ ต้องมีความรู้พื้นฐานเกี่ยวกับสิ่งต่าง ๆ และถ้ารู้แค่วิธีให้เหตุผล ก็อาจไม่รู้ด้วยซ้ำว่าควรบรรลุอะไร
  มีรอยแยกที่ค่อนข้างชัดระหว่างคลังข้อความมหาศาลที่โมเดลถูกฝึกด้วย กับความสามารถในการพิจารณาหัวข้อใดหัวข้อหนึ่งอย่างมั่นคง
  เลยสงสัยเหมือนกันว่าลำดับการฝึกจะช่วยชี้นำเส้นทางได้ไหม
  เช่น ถ้าเริ่มจาก TinyStories เพื่อให้มีความรู้พื้นฐานด้านการอ่านเขียน จากนั้นค่อยตามด้วยข้อความด้านคณิตศาสตร์และปรัชญา ต่อด้วยจิตวิทยาและสังคมวิทยา แล้วสุดท้ายค่อยใส่ข้อมูลมหาศาลที่รวมบทสนทนา โพสต์แสดงความโกรธ โค้ด และนิยายเข้าไปด้วย มันจะต่างมากไหมจากโมเดลที่ฝึกจากการแสดง การเขียนเชิงสร้างสรรค์ และนิยายแฟนตาซีก่อน แล้วค่อยใส่ชุดข้อมูลมหาศาลปลายทางชุดเดียวกัน
  สงสัยเหมือนกันว่าความสามารถปัจจุบันมีผลมากแค่ไหนต่อการทำความเข้าใจข้อมูลฝึกใหม่ในบริบท
- ในความเป็นจริงกลับตรงกันข้าม
  มันถูกฝึกให้แก้ปัญหาโดยสร้าง กระบวนการคิดแบบยาว (CoT) และทำแบบนั้นได้ดี แต่แทบไม่มีความสามารถในการเรียกใช้เครื่องมือ และแทบจัดการการสนทนาที่เกิน 1-2 ข้อความไม่ได้เลย
  ดูคำเตือนด้านบนสุดของ https://huggingface.co/WeiboAI/VibeThinker-3B ได้
- ช่วงหนึ่งผมหมกมุ่นกับไอเดียนี้มาก และตระกูล Qwen ที่กลั่นจากการให้เหตุผลของ Opus ก็ทำงานได้ดีพอสมควร
  คิดว่าสมรภูมิถัดไปคือการปรับโมเดลให้เก่งขึ้นบนฮาร์ดแวร์ที่น้อยลง
  โดยเฉพาะถ้าไปถึงขั้น การเรียนรู้แบบเรียลไทม์ ได้ด้วยจะยิ่งน่าสนใจมาก
เมื่อมีโมเดลเล็กแต่ทรงพลังทะลุขึ้นมา มันดูเหมือนกำลังแซง พลังทุนล้วน ๆ ของผู้ให้บริการโมเดลรุ่นล่าสุด
อยากเชียร์ฝั่งเล็ก แต่ก็รู้สึกว่ายังเร็วไปที่จะสรุป
หรืออีกมุมหนึ่งก็คือ benchmark ปัจจุบันอาจยังไม่มีประสิทธิภาพพอที่จะจับความสำเร็จใน workflow การทำงานจริงของนักพัฒนาได้
- คิดว่าผู้คนคงจะยังประหลาดใจกับ ความสามารถของโมเดลเล็ก ต่อไปอีก
  แต่ถ้าให้โมเดลนี้คุยโต้ตอบ มันมีโอกาสพังและเสียความสม่ำเสมอสูง
  อย่างไรก็ตาม ความสามารถในการให้เหตุผลเพื่อแก้โจทย์คณิตศาสตร์นั้นดีมากจริง ๆ
- สองสามวันที่ผ่านมาเพิ่งเริ่มรัน qwen3.6:35b บน Framework desktop แล้วใช้งานอยู่ รู้สึกประทับใจมาก
  มันทำงานได้ดี และทำให้นึกถึง Claude รุ่นแรกที่เคยใช้
  นี่เป็น local model ตัวแรกสำหรับ coding agent ที่ผมลองแล้วรู้สึกว่าใช้งานจริงได้ จึงตื่นเต้นมาก
- บางทีก็รู้สึกว่าการปรับแต่งเพิ่งจะเริ่มต้นเท่านั้น
หากโมเดลใดจะมีประโยชน์ได้ แม้ในงานที่แคบ ก็ยังต้องมี ระดับสติปัญญาพื้นฐาน อยู่บ้าง
เราจะสอนเด็ก 5 ขวบให้ขับรถได้ไหม? แล้ว 10 ขวบล่ะ? 12 ขวบล่ะ?
การขับรถต้องอ่านออก, ประเมินสภาพน้ำแข็งเกาะถนนหรือฝนตกได้, และคาดการณ์ได้ว่าอาจมีเด็กวิ่งตามลูกบอลออกมา
มนุษย์มักจะมีความรู้พื้นฐานแบบนี้ราวช่วงวัยรุ่นตอนต้นถึงกลาง
แม้แต่โมเดลขนาดเล็ก หากจะทำงานเฉพาะทางที่ดูแคบให้ดีพอ ก็ยังต้องมีความรู้พื้นฐานอยู่ระดับหนึ่ง
อาจไม่จำเป็นต้องมีความรู้หายากทุกอย่างแบบโมเดลแนวหน้า แต่มีโอกาสสูงว่าเส้นฐานที่ต้องมีก็สูงกว่าที่คิดไว้ตอนแรก
- การบอกว่า “จะขับรถต้องอ่านออก” ไม่จริงเลย
  ถ้าจะสอบใบขับขี่ให้ผ่านอาจต้องอ่านออก แต่ทั่วโลกก็มีคนจำนวนมากที่แม้ไม่รู้หนังสือก็ยังขับรถเก่ง
  ที่ทำป้ายจราจรทั่วไปให้จำได้จากรูปร่างและสีก็มีเหตุผลของมัน
- การลดทอนพฤติกรรมพื้นฐานของมนุษย์แบบนี้ให้เหลือเหมือน เกมคอมพิวเตอร์แบบข้อความล้วน ดูแปลกพอสมควร
  ตัวการขับรถเองพึ่งพาความจำของกล้ามเนื้อในการควบคุมรถเป็นหลัก จึงทำให้คนที่ขับบ่อยสามารถขับทางไกลแบบเหมือนออโต้ไพลอตไปพร้อมกับคิดเรื่องอื่นอยู่ก็ได้
  นี่ก็เป็นความรู้รูปแบบหนึ่ง แต่ได้มาจากการทำซ้ำเท่านั้น
  แน่นอนว่าการขับรถท่ามกลางการจราจรต้องอาศัยอย่างอื่นอีกมาก เช่น ความเข้าใจกฎจราจรพื้นฐาน แต่ส่วนใหญ่ของการขับคือความจำของกล้ามเนื้อ ความเข้าใจตัวรถ และการคาดการณ์สิ่งที่จะเกิดขึ้นข้างหน้า
  ที่วานรเก่งเรื่องแบบนี้ก็เพราะวิวัฒนาการมาหลายล้านปีด้วยการใช้ร่างกายและเห็นผลลัพธ์
  เคยมี GIF ที่อุรังอุตังขับรถกอล์ฟอยู่เหมือนกัน แต่ก็ไม่แน่ใจว่าเป็นของจริงแค่ไหน
  อาจจะมีประโยชน์กว่าถ้ามองโมเดลเป็นเครื่องมือที่มีความสามารถเฉพาะด้านในบางโดเมน แทนที่จะมองเป็นมนุษย์จำลองแห่งอนาคต
  เหมือนกับที่การขอให้ Opus 4.8 ขับรถให้เป็นเรื่องไม่สมเหตุสมผล การคาดหวังให้โมเดลภาพขนาดเล็กสำหรับอุปกรณ์ edge ไปเขียนนิยายก็ไม่สมเหตุสมผลเช่นกัน
  ควรมองมันเป็นเครื่องมือที่สร้างมาเพื่อการใช้งานเฉพาะ
- ถ้ามองเป็นงานวิจัยอย่างเป็นทางการ หัวข้อนี้ก็น่าสนใจมาก
  ผมคิดว่าอุปสรรคจริงคือ a) วิจารณญาณ และ b) ระดับรีเฟล็กซ์ทางกายกับแรง
  ตอนเด็กผมก็รู้จักน้ำแข็ง หิมะ และฝนอยู่แล้ว
  ผมปั่นจักรยานตลอดทั้งสี่ฤดู และรู้สึกมั่นใจน้อยในการควบคุมจักรยานบนหิมะหรือพื้นเปียก โดยเฉพาะช่วงเปลี่ยนฤดู
  ประสบการณ์นั้นต่อยอดไปสู่การเรียนขับรถในฤดูหนาวของแคนาดาตอนเหนือ และผมนำบทเรียนเดียวกันมาใช้กับการขับรถ
  ในสภาพแวดล้อมที่ไม่มีผลลัพธ์ตามมา ผมเห็นเด็ก ๆ ควบคุมซิมูเลเตอร์จริงหรือเกมจำลองการขับรถได้แม่นยำอย่างน่าทึ่ง
  เด็กอายุ 9–11 ขวบบางคนก็เล่นซิมูเลชันและเกมได้มั่นใจกว่าคนขับรถผู้ใหญ่มาก
  เด็ก ๆ รู้ว่าซิมูเลชันไม่มีผลตามมาจริง และถ้าไม่มีแรงจูงใจแยกต่างหาก พวกเขาก็จะประพฤติตัวตามนั้น
  ตรงกันข้าม ผู้ใหญ่ที่ขับรถเป็นประจำ ต่อให้เล่นเกม การตัดสินใจก็ยังถูกครอบงำด้วยความจำของกล้ามเนื้อและอคติเดิม
  ผมสงสัยว่าต้องใช้การฝึกและการเปิดรับมากแค่ไหน เด็กจึงจะก้าวข้ามภาวะที่ยังไม่รับรู้ข้อจำกัดและผลลัพธ์จริงของการขับรถกับความผิดพลาดในการขับได้ หรือในทางกลับกัน คนขับที่ชำนาญแต่เป็นมือใหม่ในเกม ต้องใช้มากแค่ไหนจึงจะเลิกนำประสบการณ์จริงไปใช้กับซิมูเลชันที่ไม่มีผลลัพธ์ตามมา
- อายุ 10 ขวบนี่ได้แน่นอน และ 5 ขวบก็เฉียด ๆ แต่ไม่ถึงกับไม่สมจริง
  การขับรถไม่จำเป็นต้องอ่านออก
  แต่การ ขับบนถนนร่วมกับคนอื่น เป็นอีกเรื่องหนึ่งโดยสิ้นเชิง
- ถ้าจะขับให้ดีจริง ยังต้องมี สมดุลระหว่างการสำรวจกับการใช้ประโยชน์ ด้วย
  เด็กสามขวบมีแนวโน้มจะอยากสำรวจมากเกินไปในสถานการณ์ที่ความผิดพลาดเป็นอันตราย
  เรื่องนี้ไม่ได้ต้องการแค่ความรู้ แต่ยังต้องมีระบบควบคุมที่พัฒนาไปพร้อมกับสมองส่วนหน้า
  ตอนนี้โมเดลภาษาขนาดใหญ่ยังควบคุมแบบนั้นได้ไม่มากนัก
ต้องสังเกตว่าผลลัพธ์นี้เป็นแบบ เฉพาะ Python
ในภาษาอื่นน่าจะทำได้ไม่ดีเท่านี้
น่ายินดีที่ได้เห็นโมเดลภาษาขนาดเล็กเฉพาะโดเมนมากขึ้น
ถ้าเป็นโมเดล Mixture of Experts (MoE) ที่เชี่ยวชาญด้านการเขียนโปรแกรม ก็อาจทำงานได้ดีข้ามหลายภาษา
- แค่เขียน Python ที่ใช้งานได้จริง โดยไม่ทำตัวเป็นโปรแกรมเมอร์ Java แล้วอัดโค้ดด้วยคลาสกับ accessor ให้เต็มไปหมด ก็ถือว่าดีกว่า Opus แล้ว
- มีความสับสนมากว่าแท้จริงแล้วโมเดลนี้โฟกัสอะไร
  โมเดลนี้คือผู้เชี่ยวชาญราคาถูกสำหรับ งานให้เหตุผลแบบตรวจสอบได้ในโลกปิด เช่น คณิตศาสตร์ หรือโจทย์เขียนโค้ดแบบจบในตัวเอง
  “โลกปิด” หมายถึงข้อมูลที่ต้องใช้มีอยู่ในบริบทแล้ว
  มันไม่ใช่เอเจนต์ใช้เครื่องมือที่คอยค้นหาบริบทที่ขาดหายไป
  “ตรวจสอบได้” หมายถึงเป็นปัญหาที่สร้างคำตอบยาก แต่ตรวจคำตอบง่าย
  ดังนั้นจึงไม่เหมาะกับงานวิจัยปลายเปิด งานเอเจนต์ที่ต้องจัดการทั้งรีโพซิทอรี งานถามตอบข้อเท็จจริง หรือการสร้าง SVG
  มันใกล้เคียงกับโมดูลให้เหตุผลขนาดเล็กสำหรับปัญหาที่มีขอบเขตชัดเจนมากกว่า
สิ่งที่น่าสนใจของโมเดลเล็กขนาดนี้คือ ดูเหมือนว่าจะใส่ลงบน ชิป Taalas เพียงตัวเดียว ได้
HC1 เองก็รันโมเดล Llama 3.1 8B ได้อยู่แล้ว
เรามาถึงจุดที่สามารถรันการให้เหตุผลที่ดีพอใช้บน ASIC ได้แล้ว แถมยังเร็วมากอีกด้วย
- ถ้ารันโมเดล 8B ที่เก่งมากในการปรับปรุงผลลัพธ์ผ่านการคิดบน Taalas ได้ที่ 16K โทเคนต่อวินาที ก็คงสุดยอดมาก
ผมลองใช้โมเดลนี้แทน GPT-5 nano ในงานรีวิวความปลอดภัยซอร์สโค้ดอยู่บ้าง และก็ค่อนข้างได้ผล
ตอนนี้รันด้วย vLLM บน RTX 3090 24GB VRAM
เอาต์พุตแบบมีโครงสร้างไม่ค่อยดีอย่างที่ระบุไว้ในการ์ดโมเดล แต่ผมเลี่ยงข้อจำกัดนั้นใน test harness ของตัวเองอยู่
- ใช้ constrained generation บังคับเอาต์พุตแบบมีโครงสร้างไม่ได้หรือ?
- อยากรู้ว่าคุณเลี่ยงยังไง
ลองสร้าง pelican SVG แบบคลาสสิกดูแล้ว แต่แสดงออกมาเป็นแค่สี่เหลี่ยมกับวงกลมสีดำ เละเทะและล้มเหลวอย่างสิ้นเชิง
- นี่ดูเป็นผลลัพธ์ที่คาดเดาได้
  ประเด็นสำคัญดูจะเป็นว่าได้ลดทอนความรู้ประเภท “นกกระทุงมีปีก” ลง แต่ยังคง ความสามารถด้านการให้เหตุผลหลัก เอาไว้
  “การค้นพบนี้สนับสนุนสมมติฐาน parameter compression-coverage ซึ่งมองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงเป็น reasoning core ขนาดเล็กได้ แต่ความรู้แบบ open-domain และความสามารถอเนกประสงค์ต้องอาศัย parameter coverage ที่กว้าง ครอบคลุมข้อเท็จจริง แนวคิด และสถานการณ์ long-tail โดยรวม”
- ลองใหม่อีกครั้ง โดยอธิบายอย่างระมัดระวังว่าจักรยานกับนกกระทุงคืออะไร และนกกระทุงนั่งอยู่บนจักรยานอย่างไร
  จากนั้นก็ให้แท็ก SVG และเอกสารอ้างอิงที่อยากให้ใช้
  ผลลัพธ์ที่ฉันได้อยู่ที่นี่: https://9ol.es/tmp/pelican.png
  พรอมป์ต์คือ https://9ol.es/tmp/prompt_pelican.txt
  โมเดลที่ใช้คือ prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- นี่ไม่ใช่โมเดลสำหรับการให้เหตุผล ไม่ใช่สำหรับการสร้างงานศิลปะหรอกหรือ?
ตอนนี้ยังเชื่อถือการประเมินและเบนช์มาร์กไม่ได้
จะพิสูจน์ได้อย่างไรว่าชุดข้อมูลทดสอบเป็น ตัวอย่างที่ไม่เคยเปิดเผย จริง?
ผมมองว่าวิธีเดียวที่จะพิสูจน์ได้ว่าโมเดลเหล่านี้ดีอย่างที่อ้าง คือรอดูว่าจะมีการนำไปใช้งานจริงหรือไม่
- ถ้าจะพิสูจน์เรื่องนั้น สุดท้ายก็ต้องเข้าใกล้การแก้ ปัญหากล่องดำ หรือก็คือเป้าหมายด้านความโปร่งใส
  ถ้าต้องทำอะไรอย่าง reasoning engine ขึ้นมา ก็ต้องออกแบบและสร้างสถาปัตยกรรมที่ดีที่สุดสำหรับมัน แล้วจึงทดสอบ
สนุกมากที่ได้เห็น small language model ที่มีความสามารถแบบนี้ออกมา
แต่ใน Hugging Face เขียนไว้แบบนี้:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
เพราะงั้นจึงเอาไปเสียบใช้ตรงๆ กับ coding harness อย่าง pi.dev ไม่ได้
ให้เหตุผลได้ดีกว่า Opus 4.5 งั้นเหรอ?
พรอมป์ต์: “ถ้า A ไปหา B แล้ว B ไปหา C ต่อจากนั้น A จะส่งอะไรบางอย่างไปให้ C ได้หรือไม่?”
คำตอบออกมาแบบนี้:
“ควรตีความให้เหมาะสมที่สุด ประโยคนี้อาจเกี่ยวกับแนวคิดของการส่งบางสิ่ง เช่น การส่งลูกบอล และอาจเป็นปริศนาเกี่ยวกับความสัมพันธ์
สถานการณ์: A ให้บางสิ่งกับ B แล้ว B ส่งต่อสิ่งนั้นให้ C
คำถาม: A สามารถให้สิ่งเดียวกันนั้นกับ C ได้ด้วยหรือไม่?
คำตอบ: ทำได้ก็ต่อเมื่อ A สามารถหาสำเนาชิ้นที่สองมาได้ เช่น ถ้าวัตถุนั้นถูกทำสำเนาไว้ มิฉะนั้นหลังจากส่งให้ B แล้ว A ก็ไม่ได้ครอบครองมันอีกต่อไป จึงไม่สามารถ ‘ส่ง’ ให้ได้หากไม่มีสำเนา”
นอกจากนี้ยังมีคำอธิบายและ “สถานการณ์” ที่ไม่จำเป็นและฟังไม่ค่อยสมเหตุสมผลอีกยาว
- ผมลองรันคำถามเดียวกันดูแล้ว เอาต์พุตยาวมาก แต่ดูเหมือนมันกำลังคลี่คลาย ความกำกวม ของประโยคด้วยการให้เหตุผล
  ถึงอย่างนั้นก็ยังตอบถูก
  อีกอย่าง ถ้าเทียบปริมาณการคำนวณ floating-point ที่ใช้เพื่อไปถึงคำตอบกับ Opus ผมว่ายังถือว่าคุ้มอยู่
  สัญชาตญาณของผมคือ โมเดลขนาดระดับ Opus มีทางลัดสำหรับจัดการกรณีกำกวมแบบนี้ถูกเข้ารหัสอยู่ในตัวโมเดลแล้ว ส่วนโมเดลนี้เหมือนเรียนรู้โปรแกรมที่ใช้ให้เหตุผลกับกรณีขอบเขตเฉพาะหน้า
  มันใกล้เคียงกับความต่างระหว่าง crystallized intelligence กับ fluid intelligence
  โมเดลแนวหน้าดูเหมือน “จำ” ความน่าจะเป็นไว้ ส่วน VibeThinker ให้ความรู้สึกเหมือน “คำนวณ” มันสดๆ ตรงนั้น
- ในคำอธิบายการควบคุมคุณภาพมีข้อความแบบนี้:
  “การควบคุมคุณภาพหลายขั้นตอน”
  “การกรองคุณภาพของคำถามด้วย large language model เราใช้ large language model ประสิทธิภาพสูงเพื่อประเมินคุณภาพของคำถาม และคัดกรองตัวอย่างที่คำอธิบายไม่สมบูรณ์ เงื่อนไขไม่สมเหตุสมผล ตรรกะผิดพลาด หรือไม่สามารถประเมินจุดความรู้เป้าหมายได้อย่างมีประสิทธิภาพ”
- แม้แต่ผมที่เป็นมนุษย์ก็ยังไม่รู้ว่าควรตีความพรอมป์ต์นี้อย่างไร
- ถ้า A ไปหา B แล้ว B ไปหา C ต่อ C จะรู้จัก A ไหม?

VibeThinker-3B: โมเดล 3B ที่แซงสมรรถนะการให้เหตุผลของ Opus 4.5 ด้วย SFT+GRPO

การทดลองผลักขีดความสามารถการให้เหตุผลที่ตรวจสอบได้ด้วยโมเดล 3B

ช่วงสมรรถนะที่แสดงออกในการประเมิน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News