2 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่ทดลองว่าการบีบอัดความสามารถด้านการให้เหตุผลที่ตรวจสอบได้จะไปได้ไกลแค่ไหนด้วยพารามิเตอร์เพียง 3B
  • ไปป์ไลน์การฝึกผสาน post-training แบบ Spectrum-to-Signal เข้ากับ curriculum-guided supervised fine-tuning, reinforcement learning แบบหลายโดเมน และ offline self-distillation
  • ทำคะแนน AIME26 ได้ 94.3 และเมื่อใช้ CLR ได้ 97.1 พร้อมรายงานผล LiveCodeBench v6 Pass@1 ที่ 80.2 และอัตราการยอมรับ 96.1% ในการแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย
  • แม้จะมีขนาดเล็กกว่ามาก แต่ยังอยู่ในระดับสมรรถนะที่ใกล้เคียงหรือสูงกว่าโมเดล flagship ขนาดใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro พร้อมคง ความสามารถในการควบคุมตามคำสั่งอย่างเข้มงวด ด้วยคะแนน IFEval 93.4
  • Parametric Compression-Coverage Hypothesis มองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงใน reasoning core ขนาดเล็กได้ แต่ความรู้แบบเปิดและความสามารถทั่วไปยังต้องอาศัยการครอบคลุมของพารามิเตอร์ที่กว้างกว่า

การทดลองผลักขีดความสามารถการให้เหตุผลที่ตรวจสอบได้ด้วยโมเดล 3B

  • VibeThinker-3B เป็นโมเดล dense ขนาดเล็กที่มีพารามิเตอร์ระดับ 3B
  • เป้าหมายคือทดสอบว่าในกรอบของ โมเดลขนาดเล็กอย่างเคร่งครัด จะดันสมรรถนะการให้เหตุผลที่ตรวจสอบได้ขึ้นไปได้มากเพียงใด
  • post-training ถูกออกแบบบนพาราไดม์ Spectrum-to-Signal
    • supervised fine-tuning แบบอิงลำดับหลักสูตร
    • reinforcement learning แบบหลายโดเมน
    • offline self-distillation
  • ผลลัพธ์ครั้งนี้เป็นส่วนต่อเนื่องจากงานก่อนหน้าระดับ 1.5B

ช่วงสมรรถนะที่แสดงออกในการประเมิน

  • แสดงสมรรถนะระดับ frontier ในการประเมินด้านคณิตศาสตร์ การเขียนโค้ด และการทำตามคำสั่ง
    • AIME26: 94.3
    • AIME26 + CLR: 97.1
    • LiveCodeBench v6: Pass@1 80.2
    • การแข่งขัน LeetCode ล่าสุดที่ยังไม่เปิดเผย: อัตราการยอมรับ 96.1%
    • IFEval: 93.4
  • CLR ย่อมาจาก Claim-Level Reliability Assessment และเป็นกลยุทธ์ test-time scaling ระดับ claim
  • คู่เทียบใน Figure 1 ได้แก่ Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 และ Claude Opus 4.5
  • จากผลที่รายงาน VibeThinker-3B สามารถอยู่ในระดับสมรรถนะเดียวกันหรือสูงกว่ากับโมเดล flagship ที่ใหญ่กว่ามากอย่าง DeepSeek V3.2, GLM-5 และ Gemini 3 Pro
  • ในการเปรียบเทียบขนาดพารามิเตอร์ VibeThinker-3B ถูกระบุไว้ที่ 3B
    • Qwen3.5-4B: 4B
    • GPT-OSS-20B: 20B
    • MiniMax M2.7: 229B
    • DeepSeek V3.2: 671B
    • GLM-5: 744B
    • Kimi K2.5: 1T
  • Parametric Compression-Coverage Hypothesis มองโมเดล compact ไม่ใช่แค่ทางแทนเพื่อประสิทธิภาพในการนำไปใช้งาน แต่เป็นอีกเส้นทางเสริมในการไปให้ถึงสมรรถนะระดับ frontier ภายในขอบเขตความสามารถที่หนาแน่นต่อพารามิเตอร์

1 ความคิดเห็น

 
GN⁺ 5 시간 전
ความคิดเห็นจาก Hacker News
  • สงสัยว่านี่คือ โมเดลขนาดเล็กที่ถูกฝึกมาให้เก่งด้านการให้เหตุผล เท่านั้นหรือเปล่า
    เหมือนคนฉลาดที่ไม่รู้ทุกเรื่อง แต่ถ้ามีเครื่องมือให้ก็จะขยันค้นคว้าอย่างจริงจัง
    ถ้าแทนที่จะบังคับให้โมเดลเรียนรู้ความรู้ทั้งหมด เราฝึกแค่วิธีการเรียนรู้ แล้วปล่อยให้มันจัดการเองได้ด้วยอุปกรณ์เล็กอย่าง Pi Zero กับการเชื่อมต่ออินเทอร์เน็ต ก็ดูน่าสนใจมาก

    • ฝันถึงอะไรแบบนี้มานานแล้ว
      แทนที่จะเข้ารหัส ความรู้ทั้งหมด ไว้ในพารามิเตอร์ อยากรู้ว่าจะเป็นอย่างไรถ้าสร้างโมเดลที่แม้ขนาดเท่ากัน แต่ใช้ทรัพยากรส่วนใหญ่ไปกับการให้เหตุผล
      แค่ให้ความสามารถในการท่องอินเทอร์เน็ต แล้วให้มันไปค้น language specs, docs และ best practices เองก็พอ
      ไม่เข้าใจว่าทำไม coding agent ของฉันต้องรู้จำนวนประชากรของ New York, สูตรชีสเค้ก หรืออายุขัยของนกกระจอกเทศด้วย
      ให้แค่ความรู้ขั้นต่ำที่จำเป็นต่อการคิดและให้เหตุผล แล้วที่เหลือให้มันไปหาเองก็น่าจะพอ
      แต่ก็น่าเสียดายที่ large language model ตอนนี้สุดท้ายแล้วก็ยังเป็นแค่ การทำนายโทเค็น เลยไม่ได้ทำงานแบบนั้น
    • ผมมองว่าเกือบจะตรงกันข้าม
      การให้เหตุผลเป็น ผลพลอยได้ที่เกิดจากการฝึกด้วยความรู้ทั้งหมด และแม้ในรูปแบบนี้ โมเดลก็ไม่ได้ “รู้” อะไรจริง ๆ มันแค่สร้างโทเค็นออกมาเท่านั้น
      ถ้าไม่ฝึกด้วยชุดข้อมูลขนาดใหญ่ที่มีคำจำนวนมากและความเชื่อมโยงที่ดูสมเหตุสมผลระหว่างคำเหล่านั้น มันก็จะสร้างความเชื่อมโยงที่เหมาะสมระหว่างคำกับประโยคไม่ได้ และจึงให้เหตุผลไม่ได้ด้วย
      ถ้าลองฝึกโมเดลเล็กด้วยชุดข้อมูลเล็กมาก ๆ ก็จะเห็นผลลัพธ์ที่พูดจาวกวนไม่เป็นเรื่อง
      การปรับชุดข้อมูลให้เหมาะเพื่อรีดการสร้างผลลัพธ์ให้ได้มากที่สุดจากข้อมูลขั้นต่ำก็น่าสนุกดี แต่ถ้าบริษัทจะทำโมเดลระดับล้ำสมัย ทางเศรษฐศาสตร์มันคุ้มกว่ามากที่จะเพิ่ม GPU อีกไม่กี่ตัว แทนที่จะทุ่มแรงไปกับเรื่องนั้น
    • แม้จะฝึกให้โมเดลจัดการกับ ตรรกะแบบบูลีน, modal logic และคณิตศาสตร์ได้ค่อนข้างดี แต่การจะข้ามจากตรงนั้นไปสู่การ “คิดเกี่ยวกับสิ่งของ” ยังมีช่องว่างใหญ่มาก
      ตัวอย่างเช่น คำถามพื้นฐานมาก ๆ อย่างเอาลูกบอลใส่ถ้วย คว่ำถ้วยไว้บนโต๊ะ แล้วยกถ้วยไปใส่กล่อง จำเป็นต้องใช้ความรู้ที่ไม่ได้ระบุไว้ในโจทย์ โดยเฉพาะความรู้เรื่องแรงโน้มถ่วง
      ถ้าพยายามนิยามทุกคำอย่างเคร่งครัด ก็จะจมลงไปในบ่อแห่งความซับซ้อนอย่างรวดเร็ว
      การจะเข้าใจคำสั่งได้ ต้องมีความรู้พื้นฐานเกี่ยวกับสิ่งต่าง ๆ และถ้ารู้แค่วิธีให้เหตุผล ก็อาจไม่รู้ด้วยซ้ำว่าควรบรรลุอะไร
      มีรอยแยกที่ค่อนข้างชัดระหว่างคลังข้อความมหาศาลที่โมเดลถูกฝึกด้วย กับความสามารถในการพิจารณาหัวข้อใดหัวข้อหนึ่งอย่างมั่นคง
      เลยสงสัยเหมือนกันว่าลำดับการฝึกจะช่วยชี้นำเส้นทางได้ไหม
      เช่น ถ้าเริ่มจาก TinyStories เพื่อให้มีความรู้พื้นฐานด้านการอ่านเขียน จากนั้นค่อยตามด้วยข้อความด้านคณิตศาสตร์และปรัชญา ต่อด้วยจิตวิทยาและสังคมวิทยา แล้วสุดท้ายค่อยใส่ข้อมูลมหาศาลที่รวมบทสนทนา โพสต์แสดงความโกรธ โค้ด และนิยายเข้าไปด้วย มันจะต่างมากไหมจากโมเดลที่ฝึกจากการแสดง การเขียนเชิงสร้างสรรค์ และนิยายแฟนตาซีก่อน แล้วค่อยใส่ชุดข้อมูลมหาศาลปลายทางชุดเดียวกัน
      สงสัยเหมือนกันว่าความสามารถปัจจุบันมีผลมากแค่ไหนต่อการทำความเข้าใจข้อมูลฝึกใหม่ในบริบท
    • ในความเป็นจริงกลับตรงกันข้าม
      มันถูกฝึกให้แก้ปัญหาโดยสร้าง กระบวนการคิดแบบยาว (CoT) และทำแบบนั้นได้ดี แต่แทบไม่มีความสามารถในการเรียกใช้เครื่องมือ และแทบจัดการการสนทนาที่เกิน 1-2 ข้อความไม่ได้เลย
      ดูคำเตือนด้านบนสุดของ https://huggingface.co/WeiboAI/VibeThinker-3B ได้
    • ช่วงหนึ่งผมหมกมุ่นกับไอเดียนี้มาก และตระกูล Qwen ที่กลั่นจากการให้เหตุผลของ Opus ก็ทำงานได้ดีพอสมควร
      คิดว่าสมรภูมิถัดไปคือการปรับโมเดลให้เก่งขึ้นบนฮาร์ดแวร์ที่น้อยลง
      โดยเฉพาะถ้าไปถึงขั้น การเรียนรู้แบบเรียลไทม์ ได้ด้วยจะยิ่งน่าสนใจมาก
  • เมื่อมีโมเดลเล็กแต่ทรงพลังทะลุขึ้นมา มันดูเหมือนกำลังแซง พลังทุนล้วน ๆ ของผู้ให้บริการโมเดลรุ่นล่าสุด
    อยากเชียร์ฝั่งเล็ก แต่ก็รู้สึกว่ายังเร็วไปที่จะสรุป
    หรืออีกมุมหนึ่งก็คือ benchmark ปัจจุบันอาจยังไม่มีประสิทธิภาพพอที่จะจับความสำเร็จใน workflow การทำงานจริงของนักพัฒนาได้

    • คิดว่าผู้คนคงจะยังประหลาดใจกับ ความสามารถของโมเดลเล็ก ต่อไปอีก
      แต่ถ้าให้โมเดลนี้คุยโต้ตอบ มันมีโอกาสพังและเสียความสม่ำเสมอสูง
      อย่างไรก็ตาม ความสามารถในการให้เหตุผลเพื่อแก้โจทย์คณิตศาสตร์นั้นดีมากจริง ๆ
    • สองสามวันที่ผ่านมาเพิ่งเริ่มรัน qwen3.6:35b บน Framework desktop แล้วใช้งานอยู่ รู้สึกประทับใจมาก
      มันทำงานได้ดี และทำให้นึกถึง Claude รุ่นแรกที่เคยใช้
      นี่เป็น local model ตัวแรกสำหรับ coding agent ที่ผมลองแล้วรู้สึกว่าใช้งานจริงได้ จึงตื่นเต้นมาก
    • บางทีก็รู้สึกว่าการปรับแต่งเพิ่งจะเริ่มต้นเท่านั้น
  • หากโมเดลใดจะมีประโยชน์ได้ แม้ในงานที่แคบ ก็ยังต้องมี ระดับสติปัญญาพื้นฐาน อยู่บ้าง
    เราจะสอนเด็ก 5 ขวบให้ขับรถได้ไหม? แล้ว 10 ขวบล่ะ? 12 ขวบล่ะ?
    การขับรถต้องอ่านออก, ประเมินสภาพน้ำแข็งเกาะถนนหรือฝนตกได้, และคาดการณ์ได้ว่าอาจมีเด็กวิ่งตามลูกบอลออกมา
    มนุษย์มักจะมีความรู้พื้นฐานแบบนี้ราวช่วงวัยรุ่นตอนต้นถึงกลาง
    แม้แต่โมเดลขนาดเล็ก หากจะทำงานเฉพาะทางที่ดูแคบให้ดีพอ ก็ยังต้องมีความรู้พื้นฐานอยู่ระดับหนึ่ง
    อาจไม่จำเป็นต้องมีความรู้หายากทุกอย่างแบบโมเดลแนวหน้า แต่มีโอกาสสูงว่าเส้นฐานที่ต้องมีก็สูงกว่าที่คิดไว้ตอนแรก

    • การบอกว่า “จะขับรถต้องอ่านออก” ไม่จริงเลย
      ถ้าจะสอบใบขับขี่ให้ผ่านอาจต้องอ่านออก แต่ทั่วโลกก็มีคนจำนวนมากที่แม้ไม่รู้หนังสือก็ยังขับรถเก่ง
      ที่ทำป้ายจราจรทั่วไปให้จำได้จากรูปร่างและสีก็มีเหตุผลของมัน
    • การลดทอนพฤติกรรมพื้นฐานของมนุษย์แบบนี้ให้เหลือเหมือน เกมคอมพิวเตอร์แบบข้อความล้วน ดูแปลกพอสมควร
      ตัวการขับรถเองพึ่งพาความจำของกล้ามเนื้อในการควบคุมรถเป็นหลัก จึงทำให้คนที่ขับบ่อยสามารถขับทางไกลแบบเหมือนออโต้ไพลอตไปพร้อมกับคิดเรื่องอื่นอยู่ก็ได้
      นี่ก็เป็นความรู้รูปแบบหนึ่ง แต่ได้มาจากการทำซ้ำเท่านั้น
      แน่นอนว่าการขับรถท่ามกลางการจราจรต้องอาศัยอย่างอื่นอีกมาก เช่น ความเข้าใจกฎจราจรพื้นฐาน แต่ส่วนใหญ่ของการขับคือความจำของกล้ามเนื้อ ความเข้าใจตัวรถ และการคาดการณ์สิ่งที่จะเกิดขึ้นข้างหน้า
      ที่วานรเก่งเรื่องแบบนี้ก็เพราะวิวัฒนาการมาหลายล้านปีด้วยการใช้ร่างกายและเห็นผลลัพธ์
      เคยมี GIF ที่อุรังอุตังขับรถกอล์ฟอยู่เหมือนกัน แต่ก็ไม่แน่ใจว่าเป็นของจริงแค่ไหน
      อาจจะมีประโยชน์กว่าถ้ามองโมเดลเป็นเครื่องมือที่มีความสามารถเฉพาะด้านในบางโดเมน แทนที่จะมองเป็นมนุษย์จำลองแห่งอนาคต
      เหมือนกับที่การขอให้ Opus 4.8 ขับรถให้เป็นเรื่องไม่สมเหตุสมผล การคาดหวังให้โมเดลภาพขนาดเล็กสำหรับอุปกรณ์ edge ไปเขียนนิยายก็ไม่สมเหตุสมผลเช่นกัน
      ควรมองมันเป็นเครื่องมือที่สร้างมาเพื่อการใช้งานเฉพาะ
    • ถ้ามองเป็นงานวิจัยอย่างเป็นทางการ หัวข้อนี้ก็น่าสนใจมาก
      ผมคิดว่าอุปสรรคจริงคือ a) วิจารณญาณ และ b) ระดับรีเฟล็กซ์ทางกายกับแรง
      ตอนเด็กผมก็รู้จักน้ำแข็ง หิมะ และฝนอยู่แล้ว
      ผมปั่นจักรยานตลอดทั้งสี่ฤดู และรู้สึกมั่นใจน้อยในการควบคุมจักรยานบนหิมะหรือพื้นเปียก โดยเฉพาะช่วงเปลี่ยนฤดู
      ประสบการณ์นั้นต่อยอดไปสู่การเรียนขับรถในฤดูหนาวของแคนาดาตอนเหนือ และผมนำบทเรียนเดียวกันมาใช้กับการขับรถ
      ในสภาพแวดล้อมที่ไม่มีผลลัพธ์ตามมา ผมเห็นเด็ก ๆ ควบคุมซิมูเลเตอร์จริงหรือเกมจำลองการขับรถได้แม่นยำอย่างน่าทึ่ง
      เด็กอายุ 9–11 ขวบบางคนก็เล่นซิมูเลชันและเกมได้มั่นใจกว่าคนขับรถผู้ใหญ่มาก
      เด็ก ๆ รู้ว่าซิมูเลชันไม่มีผลตามมาจริง และถ้าไม่มีแรงจูงใจแยกต่างหาก พวกเขาก็จะประพฤติตัวตามนั้น
      ตรงกันข้าม ผู้ใหญ่ที่ขับรถเป็นประจำ ต่อให้เล่นเกม การตัดสินใจก็ยังถูกครอบงำด้วยความจำของกล้ามเนื้อและอคติเดิม
      ผมสงสัยว่าต้องใช้การฝึกและการเปิดรับมากแค่ไหน เด็กจึงจะก้าวข้ามภาวะที่ยังไม่รับรู้ข้อจำกัดและผลลัพธ์จริงของการขับรถกับความผิดพลาดในการขับได้ หรือในทางกลับกัน คนขับที่ชำนาญแต่เป็นมือใหม่ในเกม ต้องใช้มากแค่ไหนจึงจะเลิกนำประสบการณ์จริงไปใช้กับซิมูเลชันที่ไม่มีผลลัพธ์ตามมา
    • อายุ 10 ขวบนี่ได้แน่นอน และ 5 ขวบก็เฉียด ๆ แต่ไม่ถึงกับไม่สมจริง
      การขับรถไม่จำเป็นต้องอ่านออก
      แต่การ ขับบนถนนร่วมกับคนอื่น เป็นอีกเรื่องหนึ่งโดยสิ้นเชิง
    • ถ้าจะขับให้ดีจริง ยังต้องมี สมดุลระหว่างการสำรวจกับการใช้ประโยชน์ ด้วย
      เด็กสามขวบมีแนวโน้มจะอยากสำรวจมากเกินไปในสถานการณ์ที่ความผิดพลาดเป็นอันตราย
      เรื่องนี้ไม่ได้ต้องการแค่ความรู้ แต่ยังต้องมีระบบควบคุมที่พัฒนาไปพร้อมกับสมองส่วนหน้า
      ตอนนี้โมเดลภาษาขนาดใหญ่ยังควบคุมแบบนั้นได้ไม่มากนัก
  • ต้องสังเกตว่าผลลัพธ์นี้เป็นแบบ เฉพาะ Python
    ในภาษาอื่นน่าจะทำได้ไม่ดีเท่านี้
    น่ายินดีที่ได้เห็นโมเดลภาษาขนาดเล็กเฉพาะโดเมนมากขึ้น
    ถ้าเป็นโมเดล Mixture of Experts (MoE) ที่เชี่ยวชาญด้านการเขียนโปรแกรม ก็อาจทำงานได้ดีข้ามหลายภาษา

    • แค่เขียน Python ที่ใช้งานได้จริง โดยไม่ทำตัวเป็นโปรแกรมเมอร์ Java แล้วอัดโค้ดด้วยคลาสกับ accessor ให้เต็มไปหมด ก็ถือว่าดีกว่า Opus แล้ว
    • มีความสับสนมากว่าแท้จริงแล้วโมเดลนี้โฟกัสอะไร
      โมเดลนี้คือผู้เชี่ยวชาญราคาถูกสำหรับ งานให้เหตุผลแบบตรวจสอบได้ในโลกปิด เช่น คณิตศาสตร์ หรือโจทย์เขียนโค้ดแบบจบในตัวเอง
      “โลกปิด” หมายถึงข้อมูลที่ต้องใช้มีอยู่ในบริบทแล้ว
      มันไม่ใช่เอเจนต์ใช้เครื่องมือที่คอยค้นหาบริบทที่ขาดหายไป
      “ตรวจสอบได้” หมายถึงเป็นปัญหาที่สร้างคำตอบยาก แต่ตรวจคำตอบง่าย
      ดังนั้นจึงไม่เหมาะกับงานวิจัยปลายเปิด งานเอเจนต์ที่ต้องจัดการทั้งรีโพซิทอรี งานถามตอบข้อเท็จจริง หรือการสร้าง SVG
      มันใกล้เคียงกับโมดูลให้เหตุผลขนาดเล็กสำหรับปัญหาที่มีขอบเขตชัดเจนมากกว่า
  • สิ่งที่น่าสนใจของโมเดลเล็กขนาดนี้คือ ดูเหมือนว่าจะใส่ลงบน ชิป Taalas เพียงตัวเดียว ได้
    HC1 เองก็รันโมเดล Llama 3.1 8B ได้อยู่แล้ว
    เรามาถึงจุดที่สามารถรันการให้เหตุผลที่ดีพอใช้บน ASIC ได้แล้ว แถมยังเร็วมากอีกด้วย

    • ถ้ารันโมเดล 8B ที่เก่งมากในการปรับปรุงผลลัพธ์ผ่านการคิดบน Taalas ได้ที่ 16K โทเคนต่อวินาที ก็คงสุดยอดมาก
  • ผมลองใช้โมเดลนี้แทน GPT-5 nano ในงานรีวิวความปลอดภัยซอร์สโค้ดอยู่บ้าง และก็ค่อนข้างได้ผล
    ตอนนี้รันด้วย vLLM บน RTX 3090 24GB VRAM
    เอาต์พุตแบบมีโครงสร้างไม่ค่อยดีอย่างที่ระบุไว้ในการ์ดโมเดล แต่ผมเลี่ยงข้อจำกัดนั้นใน test harness ของตัวเองอยู่

    • ใช้ constrained generation บังคับเอาต์พุตแบบมีโครงสร้างไม่ได้หรือ?
    • อยากรู้ว่าคุณเลี่ยงยังไง
  • ลองสร้าง pelican SVG แบบคลาสสิกดูแล้ว แต่แสดงออกมาเป็นแค่สี่เหลี่ยมกับวงกลมสีดำ เละเทะและล้มเหลวอย่างสิ้นเชิง

    • นี่ดูเป็นผลลัพธ์ที่คาดเดาได้
      ประเด็นสำคัญดูจะเป็นว่าได้ลดทอนความรู้ประเภท “นกกระทุงมีปีก” ลง แต่ยังคง ความสามารถด้านการให้เหตุผลหลัก เอาไว้
      “การค้นพบนี้สนับสนุนสมมติฐาน parameter compression-coverage ซึ่งมองว่าการให้เหตุผลที่ตรวจสอบได้สามารถบีบอัดลงเป็น reasoning core ขนาดเล็กได้ แต่ความรู้แบบ open-domain และความสามารถอเนกประสงค์ต้องอาศัย parameter coverage ที่กว้าง ครอบคลุมข้อเท็จจริง แนวคิด และสถานการณ์ long-tail โดยรวม”
    • ลองใหม่อีกครั้ง โดยอธิบายอย่างระมัดระวังว่าจักรยานกับนกกระทุงคืออะไร และนกกระทุงนั่งอยู่บนจักรยานอย่างไร
      จากนั้นก็ให้แท็ก SVG และเอกสารอ้างอิงที่อยากให้ใช้
      ผลลัพธ์ที่ฉันได้อยู่ที่นี่: https://9ol.es/tmp/pelican.png
      พรอมป์ต์คือ https://9ol.es/tmp/prompt_pelican.txt
      โมเดลที่ใช้คือ prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
    • นี่ไม่ใช่โมเดลสำหรับการให้เหตุผล ไม่ใช่สำหรับการสร้างงานศิลปะหรอกหรือ?
  • ตอนนี้ยังเชื่อถือการประเมินและเบนช์มาร์กไม่ได้
    จะพิสูจน์ได้อย่างไรว่าชุดข้อมูลทดสอบเป็น ตัวอย่างที่ไม่เคยเปิดเผย จริง?
    ผมมองว่าวิธีเดียวที่จะพิสูจน์ได้ว่าโมเดลเหล่านี้ดีอย่างที่อ้าง คือรอดูว่าจะมีการนำไปใช้งานจริงหรือไม่

    • ถ้าจะพิสูจน์เรื่องนั้น สุดท้ายก็ต้องเข้าใกล้การแก้ ปัญหากล่องดำ หรือก็คือเป้าหมายด้านความโปร่งใส
      ถ้าต้องทำอะไรอย่าง reasoning engine ขึ้นมา ก็ต้องออกแบบและสร้างสถาปัตยกรรมที่ดีที่สุดสำหรับมัน แล้วจึงทดสอบ
  • สนุกมากที่ได้เห็น small language model ที่มีความสามารถแบบนี้ออกมา
    แต่ใน Hugging Face เขียนไว้แบบนี้:
    “This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
    เพราะงั้นจึงเอาไปเสียบใช้ตรงๆ กับ coding harness อย่าง pi.dev ไม่ได้

  • ให้เหตุผลได้ดีกว่า Opus 4.5 งั้นเหรอ?
    พรอมป์ต์: “ถ้า A ไปหา B แล้ว B ไปหา C ต่อจากนั้น A จะส่งอะไรบางอย่างไปให้ C ได้หรือไม่?”
    คำตอบออกมาแบบนี้:
    “ควรตีความให้เหมาะสมที่สุด ประโยคนี้อาจเกี่ยวกับแนวคิดของการส่งบางสิ่ง เช่น การส่งลูกบอล และอาจเป็นปริศนาเกี่ยวกับความสัมพันธ์
    สถานการณ์: A ให้บางสิ่งกับ B แล้ว B ส่งต่อสิ่งนั้นให้ C
    คำถาม: A สามารถให้สิ่งเดียวกันนั้นกับ C ได้ด้วยหรือไม่?
    คำตอบ: ทำได้ก็ต่อเมื่อ A สามารถหาสำเนาชิ้นที่สองมาได้ เช่น ถ้าวัตถุนั้นถูกทำสำเนาไว้ มิฉะนั้นหลังจากส่งให้ B แล้ว A ก็ไม่ได้ครอบครองมันอีกต่อไป จึงไม่สามารถ ‘ส่ง’ ให้ได้หากไม่มีสำเนา”
    นอกจากนี้ยังมีคำอธิบายและ “สถานการณ์” ที่ไม่จำเป็นและฟังไม่ค่อยสมเหตุสมผลอีกยาว

    • ผมลองรันคำถามเดียวกันดูแล้ว เอาต์พุตยาวมาก แต่ดูเหมือนมันกำลังคลี่คลาย ความกำกวม ของประโยคด้วยการให้เหตุผล
      ถึงอย่างนั้นก็ยังตอบถูก
      อีกอย่าง ถ้าเทียบปริมาณการคำนวณ floating-point ที่ใช้เพื่อไปถึงคำตอบกับ Opus ผมว่ายังถือว่าคุ้มอยู่
      สัญชาตญาณของผมคือ โมเดลขนาดระดับ Opus มีทางลัดสำหรับจัดการกรณีกำกวมแบบนี้ถูกเข้ารหัสอยู่ในตัวโมเดลแล้ว ส่วนโมเดลนี้เหมือนเรียนรู้โปรแกรมที่ใช้ให้เหตุผลกับกรณีขอบเขตเฉพาะหน้า
      มันใกล้เคียงกับความต่างระหว่าง crystallized intelligence กับ fluid intelligence
      โมเดลแนวหน้าดูเหมือน “จำ” ความน่าจะเป็นไว้ ส่วน VibeThinker ให้ความรู้สึกเหมือน “คำนวณ” มันสดๆ ตรงนั้น
    • ในคำอธิบายการควบคุมคุณภาพมีข้อความแบบนี้:
      “การควบคุมคุณภาพหลายขั้นตอน”
      “การกรองคุณภาพของคำถามด้วย large language model เราใช้ large language model ประสิทธิภาพสูงเพื่อประเมินคุณภาพของคำถาม และคัดกรองตัวอย่างที่คำอธิบายไม่สมบูรณ์ เงื่อนไขไม่สมเหตุสมผล ตรรกะผิดพลาด หรือไม่สามารถประเมินจุดความรู้เป้าหมายได้อย่างมีประสิทธิภาพ”
    • แม้แต่ผมที่เป็นมนุษย์ก็ยังไม่รู้ว่าควรตีความพรอมป์ต์นี้อย่างไร
    • ถ้า A ไปหา B แล้ว B ไปหา C ต่อ C จะรู้จัก A ไหม?