Muse Spark: โมเดลการให้เหตุผลแบบมัลติโหมดของ Meta ที่ขยายไปสู่ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล
(ai.meta.com)- Muse Spark ที่พัฒนาโดย Meta Superintelligence Labs คือ โมเดลการให้เหตุผลแบบมัลติโหมด ที่รองรับการใช้เครื่องมือ, visual chain of thought และการทำงานร่วมกันของหลายเอเจนต์
- ในฐานะก้าวแรกสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล (personal superintelligence) ขณะนี้เปิดให้ใช้งานในรูปแบบ พรีวิว API แบบส่วนตัว สำหรับผู้ใช้บางรายบน meta.ai และแอป Meta AI
- โมเดลนี้ขยายขีดความสามารถตามสามแกนคือ pretraining, reinforcement learning และ test-time reasoning และทำประสิทธิภาพการฝึกได้ มากกว่า 10 เท่าเมื่อเทียบกับ Llama 4
- ผ่าน โหมด Contemplating โมเดลสามารถทำการให้เหตุผลระดับยากด้วยเอเจนต์แบบขนาน และมอบ ความสามารถการคิดขั้นสูง ในระดับเดียวกับ Gemini Deep Think และ GPT Pro
- Meta ตั้งเป้าพัฒนา Muse Spark ไปสู่ โมเดลซูเปอร์อินเทลลิเจนซ์ส่วนบุคคลที่มีทั้งความปลอดภัยและประสิทธิภาพ
ภาพรวมของ Muse Spark
- Muse Spark คือ โมเดลการให้เหตุผลแบบมัลติโหมด ที่พัฒนาโดย Meta Superintelligence Labs รองรับการใช้เครื่องมือ, visual chain of thought และความสามารถในการ orchestration ของหลายเอเจนต์
- เป็นผลลัพธ์แรกจากการยกเครื่องงานวิจัย AI ของ Meta โดยถูกนำเสนอว่าเป็นก้าวแรกสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล (personal superintelligence)
- Meta กำลังลงทุนขยายขนาดทั้งด้านงานวิจัย, การฝึกโมเดล และโครงสร้างพื้นฐาน เช่น ศูนย์ข้อมูล Hyperion
- ขณะนี้ใช้งานได้บน meta.ai และแอป Meta AI พร้อมเปิด พรีวิว API แบบส่วนตัว ให้ผู้ใช้บางราย
ความสามารถสำหรับซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล
- Muse Spark มีประสิทธิภาพแข่งขันได้ในด้าน การรับรู้แบบมัลติโหมด, การให้เหตุผล, สุขภาพ และงานแบบเอเจนต์
- Meta ยังคงลงทุนต่อเนื่องเพื่อปิดช่องว่างด้านประสิทธิภาพในบางด้าน เช่น ระบบเอเจนต์ระยะยาวและเวิร์กโฟลว์การเขียนโค้ด
- โหมด Contemplating ทำงานโดยให้หลายเอเจนต์ประมวลผลแบบขนานเพื่อแก้ปัญหาที่ซับซ้อน และเป็นคำตอบต่อ โหมดการให้เหตุผลระดับยากของโมเดลแนวหน้าระดับ frontier เช่น Gemini Deep Think และ GPT Pro
- ทำคะแนนได้ 58% บน Humanity’s Last Exam และ 38% บน FrontierScience Research
- โหมด Contemplating จะทยอยเปิดใช้งานบน meta.ai
การใช้งานหลัก
- Muse Spark วางรากฐานสำหรับการพัฒนาไปสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล ที่เข้าใจและโต้ตอบกับโลกของผู้ใช้
- ผ่าน การบูรณาการมัลติโหมด โมเดลสามารถผสานข้อมูลภาพและเครื่องมือเข้าด้วยกัน ทำผลงานได้ดีในโจทย์ภาพสาย STEM, การรู้จำเอนทิตี และการระบุตำแหน่ง
- ตัวอย่าง: การสร้างมินิเกม และการให้คำอธิบายประกอบแบบไดนามิกเพื่อช่วยแก้ปัญหาเครื่องใช้ไฟฟ้า
- ใน ด้านสุขภาพ Meta ร่วมมือกับแพทย์มากกว่า 1,000 คนเพื่อสร้างข้อมูลฝึก ทำให้สามารถให้เหตุผลด้านสุขภาพได้อย่าง ตรงข้อเท็จจริงและครอบคลุม
- สามารถสร้าง การแสดงผลแบบอินเทอร์แอ็กทีฟ เพื่ออธิบายข้อมูลสุขภาพด้วยภาพ เช่น คุณค่าทางโภชนาการของอาหาร หรือกล้ามเนื้อที่ถูกใช้งานระหว่างการออกกำลังกาย
- ในพรอมป์ต์ตัวอย่างมีการสาธิตความสามารถด้าน ปฏิสัมพันธ์เชิงภาพแบบเฉพาะบุคคล เช่น การประเมินท่าโยคะ, การแสดงภาพคำแนะนำด้านอาหาร และบทสอนการใช้เครื่องชงกาแฟ
แกนการขยายขนาด
- การขยายขีดความสามารถของ Muse Spark ดำเนินไปโดยยึดสามแกนหลักคือ pretraining, reinforcement learning และ test-time reasoning
-
Pretraining
- เป็นขั้นตอนวางรากฐานของ ความเข้าใจแบบมัลติโหมด, การให้เหตุผล และความสามารถด้านการเขียนโค้ด ของโมเดล
- ในช่วง 9 เดือนที่ผ่านมา Meta ปรับปรุงสถาปัตยกรรมโมเดล, การเพิ่มประสิทธิภาพ และการคัดสรรข้อมูล จน เพิ่มประสิทธิภาพการคำนวณอย่างมาก
- จำนวน FLOPs สำหรับการฝึกที่ต้องใช้เพื่อให้ได้ประสิทธิภาพเท่ากัน ลดลงมากกว่า 10 เท่าเมื่อเทียบกับ Llama 4 Maverick และมีประสิทธิภาพเหนือกว่าโมเดลคู่แข่งหลัก
-
Reinforcement learning
- เป็นขั้นตอนสำหรับ ขยายความสามารถของโมเดล หลัง pretraining โดยแก้ปัญหาความไม่เสถียรของ RL ขนาดใหญ่ ทำให้ได้ การเพิ่มขึ้นของประสิทธิภาพที่คาดการณ์ได้
- เมื่อเพิ่มปริมาณการคำนวณของ RL (จำนวนสเต็ป) ตัวชี้วัด pass@1 และ pass@16 เติบโตแบบ log-linear พร้อม ปรับปรุงทั้งความน่าเชื่อถือและความหลากหลายของโมเดล
- ความแม่นยำเพิ่มขึ้นแม้ในชุดประเมินที่ไม่ได้รวมอยู่ในการฝึก แสดงถึง ความสามารถในการทั่วไป
-
Test-time reasoning
- โมเดลถูกฝึกให้มีกระบวนการ “คิด” ก่อนตอบ
- เพื่อให้ใช้โทเค็นได้อย่างมีประสิทธิภาพ มีการใช้ thinking time penalty และ การทำงานร่วมกันของหลายเอเจนต์
- การฝึกด้วย RL ลงโทษเวลาคิดแต่ยังคงเพิ่มความแม่นยำสูงสุด ส่งผลให้เกิดปรากฏการณ์ “thought compression”
- หลังแก้ปัญหาได้ด้วยโทเค็นน้อยลง ก็ขยายกระบวนการคิดอีกครั้งเพื่อเสริมประสิทธิภาพ
- การให้เหตุผลแบบขนานด้วยหลายเอเจนต์ช่วยให้ เพิ่มประสิทธิภาพโดยไม่เพิ่ม latency
การประเมินความปลอดภัย
- เนื่องจาก Muse Spark มีความสามารถในการให้เหตุผลอย่างกว้างขวาง รวมถึงใน สาขาวิทยาศาสตร์การใช้งานสองทาง จึงมีการทำ การประเมินความปลอดภัยอย่างครอบคลุม ก่อนการเผยแพร่
- Meta กำหนด threat model, โปรโตคอลการประเมิน และเกณฑ์การเผยแพร่บนพื้นฐานของ Advanced AI Scaling Framework v2
- ในด้านความเสี่ยงสูง เช่น อาวุธชีวภาพและเคมี โมเดลแสดง พฤติกรรมการปฏิเสธ (refusal) ที่เข้มแข็ง และเสริมความปลอดภัยด้วยการกรองข้อมูล, การฝึกหลังเรียนรู้ที่เน้นความปลอดภัย และกลไกระดับระบบ
- ในด้านไซเบอร์ซีเคียวริตี้และการสูญเสียการควบคุม (Loss of Control) โมเดล ไม่มีความสามารถเชิงอัตโนมัติที่จะทำให้สถานการณ์เสี่ยงเกิดขึ้นจริง
- จากผลการประเมินโดยรวม Muse Spark ยังอยู่ภายในเกณฑ์ความปลอดภัยในทุกหมวดความเสี่ยงระดับ frontier ที่มีการวัด
- ในการประเมินภายนอกโดย Apollo Research พบว่า Muse Spark เป็น โมเดลที่มีระดับการรับรู้ว่ากำลังถูกประเมิน (evaluation awareness) สูงที่สุด
- ในบางสถานการณ์ โมเดลรับรู้ว่าตนเองกำลังถูกประเมิน และ ให้เหตุผลว่าควรปฏิบัติอย่างซื่อสัตย์
- อย่างไรก็ตาม อิทธิพลของการรับรู้นี้ต่อพฤติกรรมจริงมีจำกัด และพบผลเพียงเล็กน้อยเฉพาะในการประเมิน alignment บางประเภทที่ไม่เกี่ยวกับความสามารถด้านความเสี่ยง
- Meta ไม่ถือว่านี่เป็นปัจจัยที่ขัดขวางการเปิดตัว แต่เห็นว่าควรมีการวิจัยเพิ่มเติม
บทสรุป
- Muse Spark อยู่บนเส้นทางการขยายขนาดที่ คาดการณ์ได้และมีประสิทธิภาพ และมีแผนพัฒนาไปสู่ โมเดลซูเปอร์อินเทลลิเจนซ์ส่วนบุคคลที่ทรงพลังยิ่งขึ้น
- Meta จะทยอยเปิดตัวโมเดลที่ได้รับการปรับปรุงอย่างต่อเนื่อง โดยมุ่งสู่ยุคของ ซูเปอร์อินเทลลิเจนซ์แบบเฉพาะบุคคล
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ไม่เข้าใจว่าทำไมคนถึงพากันดูแคลนสิ่งนี้ ถ้าโมเดลนี้อยู่ระดับใกล้เคียงหรือดีกว่า Opus 4.6 เล็กน้อย ก็หมายความว่า Meta สร้างโมเดลที่แข่งกับบริษัท AI ชั้นนำได้แล้ว
แน่นอนว่าคงใช้เงินไปมาก แต่จากจุดนี้การต่อยอดมันไปเป็น coding agent ก็ดูไม่ใช่เรื่องไกลตัวแล้ว อีกอย่างในมุมของ Meta เองก็สามารถนำโมเดล SATA ไปใช้ตรง ๆ กับผลิตภัณฑ์ของตัวเองอย่าง IG, WhatsApp, VR และอื่น ๆ ได้ จึงน่าจะช่วยด้านการเงินในระยะยาวด้วย
ผมไปอ่าน บทความของ Simon Willison แล้วลองดูตัวอย่าง Pelicans มา และก็ได้ลองเล่นบน meta.ai เองด้วย รู้สึกว่าค่อนข้างดีทีเดียว โดยเฉพาะ Python Code Interpreter container กับเครื่องมือวิเคราะห์ภาพชื่อ container.visual_grounding ที่สนุกมาก
ปรากฏการณ์ครั้งนี้ทำให้นึกถึง ยุคบูมรถไฟ ในศตวรรษที่ 19 ถ้าหลายบริษัทสร้าง AI ที่เก่งใกล้เคียงกันได้ คูเมืองทางการแข่งขัน (moat) ก็จะหายไป และสุดท้ายราคาจะถูกลง อาจคืนทุนจากเงินลงทุนไม่ได้ด้วยซ้ำ
ผมลองรัน benchmark ภายในแล้วและรู้สึกว่า ไม่น่าประทับใจเลย ยังเทียบกับ OpenAI, Anthropic, Gemini ไม่ได้ และมีข้อผิดพลาดเชิงวิเคราะห์ในคำถามเทคนิคเยอะมาก
ผมลองกดช่อง “Ask Meta AI…” แล้วก็เจอกระบวนการบังคับล็อกอินและ เชื่อมกับ Facebook/Instagram ต่อเนื่องกันไป ให้ความรู้สึกเป็น dark pattern แบบคลาสสิก OpenAI จัดการเรื่องนี้ได้ดีกว่ามาก
ถ้า Meta กลับมามี frontier model ได้อีกครั้งจริง ตอนนี้ก็ชวนให้สงสัยว่าพวกเขาจะเดิน เชิงกลยุทธ์ ไปทางไหน หรือว่าได้ละทิ้ง ปรัชญาแบบระบบนิเวศเปิด ไปแล้ว
แม้ llama4 จะไปได้ไม่สวย แต่ถ้ายังยึดกลยุทธ์นั้นไว้ก็น่าจะไปได้ไกลกว่านี้มาก บริษัทอื่นสร้าง ecosystem กันไปแล้ว แต่ Meta ยังไม่มี
ถ้าอยากกลับมาเป็นศูนย์กลางของบทสนทนาอีกครั้ง ก็ควรทุ่มสัก 1 พันล้านดอลลาร์ให้โปรเจกต์อย่าง OpenCode เพื่อฟื้นระบบนิเวศแบบเปิด ไม่อย่างนั้นก็จะเหลือเป็นแค่ โมเดลปิดใช้ภายใน เท่านั้น
ผมเพิ่งลอง การทดสอบการให้เหตุผลเชิงภาพจากแบบแปลน เป็นครั้งแรก ในบรรดา ChatGPT, Claude, Gemini, Grok มีแค่ Gemini ที่ทำสำเร็จ แต่ Muse Spark กลับทำได้สมบูรณ์แบบ มันดึงหน้าที่เกี่ยวข้องจาก PDF มาแสดง inline และตอบได้อย่างถูกต้อง
อาจเป็นเพราะโชคดีในครั้งนี้ก็ได้ แต่ความประทับใจแรกดีมากจนตั้งใจจะลองต่อ อย่างไรก็ตาม นโยบายการใช้ข้อมูล ของ Meta ค่อนข้างรุกล้ำ จึงไม่เหมาะกับเอกสารอ่อนไหว
ถ้ามีแพ็กเกจเสียเงินที่ให้ ตัวเลือกไม่ให้นำข้อมูลไปฝึกโมเดล ได้ก็คงดี โครงสร้างที่ใช้ข้อมูลแทนค่าบริการของฟรีทำให้น่ากังวล
โมเดลนี้เข้าใกล้ GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 แล้ว ด้านโค้ด OpenAI นำ ด้านการให้เหตุผลด้วยข้อความ Google นำ และด้าน Humanity’s Last Exam Anthropic นำ ถึงอย่างนั้นก็ถือได้ว่า Meta กลับมาเป็น ห้องแล็บ frontier อีกครั้งแล้ว
ตอนนี้กลายเป็นการแข่งขันแบบ ม้า 3.5 ตัว และทำให้ยิ่งอยากเห็นโมเดลถัดไป การแข่งขันที่มากขึ้นเป็นเรื่องดี ดูเหมือน Grok 4.2 คงต้องถูกถอดออกจากตารางแล้ว
คำว่า “Personal” ท้ายที่สุดก็หมายถึง Meta จะ ใช้ข้อมูลส่วนบุคคลกับโฆษณา นั่นเอง
คำว่า “visual chain of thought” น่าสนใจดี ทำให้สับสนว่าหมายถึงผู้ใช้ มองเห็นกระบวนการให้เหตุผลในเชิงภาพ ได้ หรือหมายถึงตัวโมเดล คิดบนฐานของภาพ กันแน่ ถ้าเป็นอย่างหลังคงถือว่าปฏิวัติจริง ๆ