Muse Spark: โมเดลการให้เหตุผลแบบมัลติโหมดของ Meta ที่ขยายไปสู่ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล

(ai.meta.com)

1 คะแนน โดย GN⁺ 19 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Muse Spark ที่พัฒนาโดย Meta Superintelligence Labs คือ โมเดลการให้เหตุผลแบบมัลติโหมด ที่รองรับการใช้เครื่องมือ, visual chain of thought และการทำงานร่วมกันของหลายเอเจนต์
ในฐานะก้าวแรกสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล (personal superintelligence) ขณะนี้เปิดให้ใช้งานในรูปแบบ พรีวิว API แบบส่วนตัว สำหรับผู้ใช้บางรายบน meta.ai และแอป Meta AI
โมเดลนี้ขยายขีดความสามารถตามสามแกนคือ pretraining, reinforcement learning และ test-time reasoning และทำประสิทธิภาพการฝึกได้ มากกว่า 10 เท่าเมื่อเทียบกับ Llama 4
ผ่าน โหมด Contemplating โมเดลสามารถทำการให้เหตุผลระดับยากด้วยเอเจนต์แบบขนาน และมอบ ความสามารถการคิดขั้นสูง ในระดับเดียวกับ Gemini Deep Think และ GPT Pro
Meta ตั้งเป้าพัฒนา Muse Spark ไปสู่ โมเดลซูเปอร์อินเทลลิเจนซ์ส่วนบุคคลที่มีทั้งความปลอดภัยและประสิทธิภาพ

ภาพรวมของ Muse Spark

Muse Spark คือ โมเดลการให้เหตุผลแบบมัลติโหมด ที่พัฒนาโดย Meta Superintelligence Labs รองรับการใช้เครื่องมือ, visual chain of thought และความสามารถในการ orchestration ของหลายเอเจนต์
เป็นผลลัพธ์แรกจากการยกเครื่องงานวิจัย AI ของ Meta โดยถูกนำเสนอว่าเป็นก้าวแรกสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล (personal superintelligence)
Meta กำลังลงทุนขยายขนาดทั้งด้านงานวิจัย, การฝึกโมเดล และโครงสร้างพื้นฐาน เช่น ศูนย์ข้อมูล Hyperion
ขณะนี้ใช้งานได้บน meta.ai และแอป Meta AI พร้อมเปิด พรีวิว API แบบส่วนตัว ให้ผู้ใช้บางราย

ความสามารถสำหรับซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล

Muse Spark มีประสิทธิภาพแข่งขันได้ในด้าน การรับรู้แบบมัลติโหมด, การให้เหตุผล, สุขภาพ และงานแบบเอเจนต์
Meta ยังคงลงทุนต่อเนื่องเพื่อปิดช่องว่างด้านประสิทธิภาพในบางด้าน เช่น ระบบเอเจนต์ระยะยาวและเวิร์กโฟลว์การเขียนโค้ด
โหมด Contemplating ทำงานโดยให้หลายเอเจนต์ประมวลผลแบบขนานเพื่อแก้ปัญหาที่ซับซ้อน และเป็นคำตอบต่อ โหมดการให้เหตุผลระดับยากของโมเดลแนวหน้าระดับ frontier เช่น Gemini Deep Think และ GPT Pro
- ทำคะแนนได้ 58% บน Humanity’s Last Exam และ 38% บน FrontierScience Research
โหมด Contemplating จะทยอยเปิดใช้งานบน meta.ai

การใช้งานหลัก

Muse Spark วางรากฐานสำหรับการพัฒนาไปสู่ ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล ที่เข้าใจและโต้ตอบกับโลกของผู้ใช้
ผ่าน การบูรณาการมัลติโหมด โมเดลสามารถผสานข้อมูลภาพและเครื่องมือเข้าด้วยกัน ทำผลงานได้ดีในโจทย์ภาพสาย STEM, การรู้จำเอนทิตี และการระบุตำแหน่ง
- ตัวอย่าง: การสร้างมินิเกม และการให้คำอธิบายประกอบแบบไดนามิกเพื่อช่วยแก้ปัญหาเครื่องใช้ไฟฟ้า
ใน ด้านสุขภาพ Meta ร่วมมือกับแพทย์มากกว่า 1,000 คนเพื่อสร้างข้อมูลฝึก ทำให้สามารถให้เหตุผลด้านสุขภาพได้อย่าง ตรงข้อเท็จจริงและครอบคลุม
- สามารถสร้าง การแสดงผลแบบอินเทอร์แอ็กทีฟ เพื่ออธิบายข้อมูลสุขภาพด้วยภาพ เช่น คุณค่าทางโภชนาการของอาหาร หรือกล้ามเนื้อที่ถูกใช้งานระหว่างการออกกำลังกาย
ในพรอมป์ต์ตัวอย่างมีการสาธิตความสามารถด้าน ปฏิสัมพันธ์เชิงภาพแบบเฉพาะบุคคล เช่น การประเมินท่าโยคะ, การแสดงภาพคำแนะนำด้านอาหาร และบทสอนการใช้เครื่องชงกาแฟ

แกนการขยายขนาด

การขยายขีดความสามารถของ Muse Spark ดำเนินไปโดยยึดสามแกนหลักคือ pretraining, reinforcement learning และ test-time reasoning
Pretraining
- เป็นขั้นตอนวางรากฐานของ ความเข้าใจแบบมัลติโหมด, การให้เหตุผล และความสามารถด้านการเขียนโค้ด ของโมเดล
- ในช่วง 9 เดือนที่ผ่านมา Meta ปรับปรุงสถาปัตยกรรมโมเดล, การเพิ่มประสิทธิภาพ และการคัดสรรข้อมูล จน เพิ่มประสิทธิภาพการคำนวณอย่างมาก
- จำนวน FLOPs สำหรับการฝึกที่ต้องใช้เพื่อให้ได้ประสิทธิภาพเท่ากัน ลดลงมากกว่า 10 เท่าเมื่อเทียบกับ Llama 4 Maverick และมีประสิทธิภาพเหนือกว่าโมเดลคู่แข่งหลัก
Reinforcement learning
- เป็นขั้นตอนสำหรับ ขยายความสามารถของโมเดล หลัง pretraining โดยแก้ปัญหาความไม่เสถียรของ RL ขนาดใหญ่ ทำให้ได้ การเพิ่มขึ้นของประสิทธิภาพที่คาดการณ์ได้
- เมื่อเพิ่มปริมาณการคำนวณของ RL (จำนวนสเต็ป) ตัวชี้วัด pass@1 และ pass@16 เติบโตแบบ log-linear พร้อม ปรับปรุงทั้งความน่าเชื่อถือและความหลากหลายของโมเดล
- ความแม่นยำเพิ่มขึ้นแม้ในชุดประเมินที่ไม่ได้รวมอยู่ในการฝึก แสดงถึง ความสามารถในการทั่วไป
Test-time reasoning
- โมเดลถูกฝึกให้มีกระบวนการ “คิด” ก่อนตอบ
- เพื่อให้ใช้โทเค็นได้อย่างมีประสิทธิภาพ มีการใช้ thinking time penalty และ การทำงานร่วมกันของหลายเอเจนต์
- การฝึกด้วย RL ลงโทษเวลาคิดแต่ยังคงเพิ่มความแม่นยำสูงสุด ส่งผลให้เกิดปรากฏการณ์ “thought compression”
  - หลังแก้ปัญหาได้ด้วยโทเค็นน้อยลง ก็ขยายกระบวนการคิดอีกครั้งเพื่อเสริมประสิทธิภาพ
- การให้เหตุผลแบบขนานด้วยหลายเอเจนต์ช่วยให้ เพิ่มประสิทธิภาพโดยไม่เพิ่ม latency

การประเมินความปลอดภัย

เนื่องจาก Muse Spark มีความสามารถในการให้เหตุผลอย่างกว้างขวาง รวมถึงใน สาขาวิทยาศาสตร์การใช้งานสองทาง จึงมีการทำ การประเมินความปลอดภัยอย่างครอบคลุม ก่อนการเผยแพร่
Meta กำหนด threat model, โปรโตคอลการประเมิน และเกณฑ์การเผยแพร่บนพื้นฐานของ Advanced AI Scaling Framework v2
ในด้านความเสี่ยงสูง เช่น อาวุธชีวภาพและเคมี โมเดลแสดง พฤติกรรมการปฏิเสธ (refusal) ที่เข้มแข็ง และเสริมความปลอดภัยด้วยการกรองข้อมูล, การฝึกหลังเรียนรู้ที่เน้นความปลอดภัย และกลไกระดับระบบ
ในด้านไซเบอร์ซีเคียวริตี้และการสูญเสียการควบคุม (Loss of Control) โมเดล ไม่มีความสามารถเชิงอัตโนมัติที่จะทำให้สถานการณ์เสี่ยงเกิดขึ้นจริง
จากผลการประเมินโดยรวม Muse Spark ยังอยู่ภายในเกณฑ์ความปลอดภัยในทุกหมวดความเสี่ยงระดับ frontier ที่มีการวัด
ในการประเมินภายนอกโดย Apollo Research พบว่า Muse Spark เป็น โมเดลที่มีระดับการรับรู้ว่ากำลังถูกประเมิน (evaluation awareness) สูงที่สุด
- ในบางสถานการณ์ โมเดลรับรู้ว่าตนเองกำลังถูกประเมิน และ ให้เหตุผลว่าควรปฏิบัติอย่างซื่อสัตย์
- อย่างไรก็ตาม อิทธิพลของการรับรู้นี้ต่อพฤติกรรมจริงมีจำกัด และพบผลเพียงเล็กน้อยเฉพาะในการประเมิน alignment บางประเภทที่ไม่เกี่ยวกับความสามารถด้านความเสี่ยง
- Meta ไม่ถือว่านี่เป็นปัจจัยที่ขัดขวางการเปิดตัว แต่เห็นว่าควรมีการวิจัยเพิ่มเติม

บทสรุป

Muse Spark อยู่บนเส้นทางการขยายขนาดที่ คาดการณ์ได้และมีประสิทธิภาพ และมีแผนพัฒนาไปสู่ โมเดลซูเปอร์อินเทลลิเจนซ์ส่วนบุคคลที่ทรงพลังยิ่งขึ้น
Meta จะทยอยเปิดตัวโมเดลที่ได้รับการปรับปรุงอย่างต่อเนื่อง โดยมุ่งสู่ยุคของ ซูเปอร์อินเทลลิเจนซ์แบบเฉพาะบุคคล

1 ความคิดเห็น

GN⁺ 19 일 전

ความคิดเห็นจาก Hacker News

ไม่เข้าใจว่าทำไมคนถึงพากันดูแคลนสิ่งนี้ ถ้าโมเดลนี้อยู่ระดับใกล้เคียงหรือดีกว่า Opus 4.6 เล็กน้อย ก็หมายความว่า Meta สร้างโมเดลที่แข่งกับบริษัท AI ชั้นนำได้แล้ว
แน่นอนว่าคงใช้เงินไปมาก แต่จากจุดนี้การต่อยอดมันไปเป็น coding agent ก็ดูไม่ใช่เรื่องไกลตัวแล้ว อีกอย่างในมุมของ Meta เองก็สามารถนำโมเดล SATA ไปใช้ตรง ๆ กับผลิตภัณฑ์ของตัวเองอย่าง IG, WhatsApp, VR และอื่น ๆ ได้ จึงน่าจะช่วยด้านการเงินในระยะยาวด้วย
- ก็เข้าใจได้ว่าทำไมถึงมีเสียงกังขา เพราะก่อนหน้านี้เคยมีกรณี โอ้อวด benchmark ของ llama 4 มาก่อน โมเดลนี้เองก็มีอยู่แล้วตั้งแต่หลายเดือนก่อน แต่ตอนนั้นดูเหมือนจะอยู่แค่ระดับ Gemini 2.5 Pro เลยยังไม่ปล่อยออกมา
- ตลาด coding agent ตอนนี้ Anthropic กับ OpenAI จับจองความสนใจไปแล้ว โอกาสที่ Meta ควรเล็งจริง ๆ กลับเป็นฝั่ง AI สำหรับผู้บริโภค มากกว่า OpenAI เองก็กำลังจะถึงจุดที่ต้องตัดสินใจว่าจะเอาทรัพยากรไปลงกับผู้ใช้ฟรีหรือฝั่งองค์กร
- ถ้าดูแค่ benchmark ก็เป็นโมเดลที่ใช้ได้ แต่ในแง่ ประโยชน์ใช้สอยจริงด้านการเขียนโปรแกรม ยังสู้ Opus ไม่ได้ ความมีประโยชน์ในงานเขียนโค้ดประจำวันวัดจาก benchmark ได้ไม่หมดอยู่แล้ว ถึงอย่างนั้นการแข่งขันที่มากขึ้นก็เป็นเรื่องดี
- คำพูดที่ว่า “เหนือกว่า Opus 4.6” ไม่เป็นความจริง
- คนจำนวนมากก็มี อคติพื้นฐาน ต่อ Meta อยู่แล้ว ไม่ว่าจะสมเหตุสมผลหรือไม่ หลายคนก็แค่ไม่ชอบเพราะเป็น Meta
ผมไปอ่าน บทความของ Simon Willison แล้วลองดูตัวอย่าง Pelicans มา และก็ได้ลองเล่นบน meta.ai เองด้วย รู้สึกว่าค่อนข้างดีทีเดียว โดยเฉพาะ Python Code Interpreter container กับเครื่องมือวิเคราะห์ภาพชื่อ container.visual_grounding ที่สนุกมาก
- Alexandr Wang พูดเป็นนัยว่าสิ่งนี้อาจถูกปล่อยเป็น โอเพนซอร์ส ในภายหลัง เลยค่อนข้างคาดหวัง
- ดูเหมือนว่าเครื่องมือที่เปิดให้ใช้จะแตกต่างกันไปตามภูมิภาค ของผมไม่มีฟีเจอร์ visual_grounding และเข้าถึงได้แค่ฟีเจอร์ใน ลิงก์นี้
- อยากถาม Simon ว่า — จากโมเดลทั้งหมดที่เคยเห็นมา โมเดลไหนสร้าง ‘นกกระทุงขี่จักรยาน’ ได้ดีที่สุด
- น่าเสียดายที่บน meta.ai ต้องล็อกอินก่อนถึงจะใช้ได้ หวังว่า Openrouter จะรองรับในเร็ว ๆ นี้ แต่ก็ยังน่าลองมากจนอยากใช้ทันที
ปรากฏการณ์ครั้งนี้ทำให้นึกถึง ยุคบูมรถไฟ ในศตวรรษที่ 19 ถ้าหลายบริษัทสร้าง AI ที่เก่งใกล้เคียงกันได้ คูเมืองทางการแข่งขัน (moat) ก็จะหายไป และสุดท้ายราคาจะถูกลง อาจคืนทุนจากเงินลงทุนไม่ได้ด้วยซ้ำ
- เพราะแบบนี้ผมเลยคิดว่า Anthropic ถึงพยายามรักษาราคา API ให้อยู่ในระดับสูง และจำกัดการสมัครใช้ผลิตภัณฑ์ของตัวเอง เป็นกลยุทธ์ที่มุ่งจับ ผู้ใช้ที่ไม่ใช่สายเทคนิค ซึ่งมีแนวโน้มจะอยู่นานกว่า
- ยังไงก็ตาม บริษัทพวกนี้ทั้งหมด เชื่อมโยงใกล้ชิดกับรัฐบาล อยู่แล้ว จึงน่าจะได้รับการสนับสนุนมากกว่าแค่กลไกตลาด ต่อให้ล้มเหลวก็อาจมี โมเดล open-weight หลุดออกมาได้ เพียงแต่โมเดลเหล่านั้นก็น่าจะล้าสมัยภายในไม่กี่เดือน
- ในอีกมุมหนึ่ง ตอนนี้ AI ก็ แพร่หลายระดับสมาร์ตโฟน และ พลิกโลกพอ ๆ กับเครื่องจักรไอน้ำ บริษัท AI กำลังเติบโตเป็นบริษัทซอฟต์แวร์ที่ใหญ่ที่สุดในโลก และในตลาดนี้มี โอกาสมูลค่าหลายล้านล้านดอลลาร์
- คูเมืองที่แท้จริงอยู่ที่พลังประมวลผลและการเข้าถึงพลังงาน นั่นแหละ ถึงได้เห็น Elon Musk ลงมือสร้างโรงงานชิปเอง ต่อให้มีโมเดลเต็ม HuggingFace ก็แทบไม่มีใครรันของจริงได้
ผมลองรัน benchmark ภายในแล้วและรู้สึกว่า ไม่น่าประทับใจเลย ยังเทียบกับ OpenAI, Anthropic, Gemini ไม่ได้ และมีข้อผิดพลาดเชิงวิเคราะห์ในคำถามเทคนิคเยอะมาก
- พอลองเพิ่มก็พบว่า ผิดคณิตศาสตร์พื้นฐาน เยอะเกินไป เอาไป cross-check กับ Gemini แล้วพบข้อผิดพลาดแทบทุกโจทย์ง่าย ๆ
- ถึงอย่างนั้นในด้าน multimodal ก็ถือว่าค่อนข้างดี อยู่ในระดับที่คน 3 พันล้านคนใช้งานได้ แต่ใน งานวิทยาศาสตร์ ยังตามหลังอยู่
- เอาจริง ๆ ผมคิดว่าแม้แต่ Gemini เอง ก็ยังไม่ถึงระดับที่จะเข้ามาอยู่ในวงสนทนานั้นได้
ผมลองกดช่อง “Ask Meta AI…” แล้วก็เจอกระบวนการบังคับล็อกอินและ เชื่อมกับ Facebook/Instagram ต่อเนื่องกันไป ให้ความรู้สึกเป็น dark pattern แบบคลาสสิก OpenAI จัดการเรื่องนี้ได้ดีกว่ามาก
ถ้า Meta กลับมามี frontier model ได้อีกครั้งจริง ตอนนี้ก็ชวนให้สงสัยว่าพวกเขาจะเดิน เชิงกลยุทธ์ ไปทางไหน หรือว่าได้ละทิ้ง ปรัชญาแบบระบบนิเวศเปิด ไปแล้ว
แม้ llama4 จะไปได้ไม่สวย แต่ถ้ายังยึดกลยุทธ์นั้นไว้ก็น่าจะไปได้ไกลกว่านี้มาก บริษัทอื่นสร้าง ecosystem กันไปแล้ว แต่ Meta ยังไม่มี
ถ้าอยากกลับมาเป็นศูนย์กลางของบทสนทนาอีกครั้ง ก็ควรทุ่มสัก 1 พันล้านดอลลาร์ให้โปรเจกต์อย่าง OpenCode เพื่อฟื้นระบบนิเวศแบบเปิด ไม่อย่างนั้นก็จะเหลือเป็นแค่ โมเดลปิดใช้ภายใน เท่านั้น
- อันที่จริงอาจไม่จำเป็นต้องมี open harness ใหม่ก็ได้ เพราะ Anthropic ได้ แจกของนั้นให้ชุมชนฟรี ไปแล้ว
ผมเพิ่งลอง การทดสอบการให้เหตุผลเชิงภาพจากแบบแปลน เป็นครั้งแรก ในบรรดา ChatGPT, Claude, Gemini, Grok มีแค่ Gemini ที่ทำสำเร็จ แต่ Muse Spark กลับทำได้สมบูรณ์แบบ มันดึงหน้าที่เกี่ยวข้องจาก PDF มาแสดง inline และตอบได้อย่างถูกต้อง
อาจเป็นเพราะโชคดีในครั้งนี้ก็ได้ แต่ความประทับใจแรกดีมากจนตั้งใจจะลองต่อ อย่างไรก็ตาม นโยบายการใช้ข้อมูล ของ Meta ค่อนข้างรุกล้ำ จึงไม่เหมาะกับเอกสารอ่อนไหว
ถ้ามีแพ็กเกจเสียเงินที่ให้ ตัวเลือกไม่ให้นำข้อมูลไปฝึกโมเดล ได้ก็คงดี โครงสร้างที่ใช้ข้อมูลแทนค่าบริการของฟรีทำให้น่ากังวล
โมเดลนี้เข้าใกล้ GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 แล้ว ด้านโค้ด OpenAI นำ ด้านการให้เหตุผลด้วยข้อความ Google นำ และด้าน Humanity’s Last Exam Anthropic นำ ถึงอย่างนั้นก็ถือได้ว่า Meta กลับมาเป็น ห้องแล็บ frontier อีกครั้งแล้ว
ตอนนี้กลายเป็นการแข่งขันแบบ ม้า 3.5 ตัว และทำให้ยิ่งอยากเห็นโมเดลถัดไป การแข่งขันที่มากขึ้นเป็นเรื่องดี ดูเหมือน Grok 4.2 คงต้องถูกถอดออกจากตารางแล้ว
- ผมใช้ Grok Code เป็นตัวหลักอยู่พักหนึ่งและมันก็ดีมาก LLM สุดท้ายแล้วขึ้นอยู่กับ บริบทการใช้งานและโดเมน จริง ๆ โดยเฉพาะคำถามสุขภาพที่โมเดลอื่นมักเลี่ยงตอบ ผมเลยยังใช้ Grok ต่อ
- แต่แนวทางของ Meta ครั้งนี้ดูเหมือนจะยังขาด ความสามารถด้านการให้เหตุผลและการแก้ปัญหาระยะยาว คะแนน HLE ก็ต่ำกว่า Mythos ของ Anthropic ถึงอย่างนั้นโดยรวมก็ถือเป็นพัฒนาการเชิงบวก
คำว่า “Personal” ท้ายที่สุดก็หมายถึง Meta จะ ใช้ข้อมูลส่วนบุคคลกับโฆษณา นั่นเอง
- และระหว่างทำแบบนั้นก็ดูเหมือนจะดูดเอา แก่นแท้ทางจิตใจ ของผู้ใช้เข้าไปในโมเดลด้วย
- สำหรับผม ถ้าสุดท้ายก็เป็นแค่ เป้าหมายโฆษณา จะส่งโฆษณามาเท่าไรก็ไม่ได้สนใจอะไร
คำว่า “visual chain of thought” น่าสนใจดี ทำให้สับสนว่าหมายถึงผู้ใช้ มองเห็นกระบวนการให้เหตุผลในเชิงภาพ ได้ หรือหมายถึงตัวโมเดล คิดบนฐานของภาพ กันแน่ ถ้าเป็นอย่างหลังคงถือว่าปฏิวัติจริง ๆ
- แต่ chain of thought ส่วนใหญ่เท่าที่ผมเห็นมาจนถึงตอนนี้ดูเป็น การให้เหตุผลปลอม ที่จัดฉากให้ดูน่าเชื่อถือมากกว่า ความจริงข้างในอาจประมวลผลด้วยวิธีอื่น
- ที่จริงขั้นตอนกลางเชิงภาพแบบนี้มีให้เห็นใน Gemini อยู่แล้ว ระหว่างทำงานภาพมันอาจสร้าง ไดอะแกรมขั้นกลาง ขึ้นมา และในงานวิจัยปี 2024 ก็เคยมีการเสนอแนวทางแบบ turtle diagram ไว้ด้วย

Muse Spark: โมเดลการให้เหตุผลแบบมัลติโหมดของ Meta ที่ขยายไปสู่ซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล

ภาพรวมของ Muse Spark

ความสามารถสำหรับซูเปอร์อินเทลลิเจนซ์ส่วนบุคคล

การใช้งานหลัก

แกนการขยายขนาด

Pretraining

Reinforcement learning

Test-time reasoning

การประเมินความปลอดภัย

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News