Olmo 3: เส้นทางใหม่ของโมเดลโฟลว์เพื่อขับเคลื่อน AI โอเพนซอร์ส

(allenai.org)

5 คะแนน โดย GN⁺ 2025-11-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Olmo 3 เปิดเผยไม่เพียงแค่ผลลัพธ์สุดท้ายของโมเดล แต่รวมถึง กระบวนการพัฒนาทั้งหมด (model flow) ทำให้สามารถติดตามย้อนกลับได้อย่างสมบูรณ์ตั้งแต่ข้อมูล โค้ด ไปจนถึงเช็กพอยต์
ประกอบด้วยโมเดล 4 แบบ ได้แก่ Base, Think, Instruct, RL Zero ในขนาด 7B และ 32B พารามิเตอร์ รองรับงานวิจัยที่หลากหลาย เช่น การให้เหตุผล บทสนทนา และการเรียนรู้แบบเสริมกำลัง
อิงจากชุดข้อมูล Dolma 3 และ Dolci พร้อมเปิดเผยข้อมูลฝึกที่โปร่งใสขนาดราว 9.3 ล้านล้านโทเค็น ครอบคลุมเว็บ โค้ด คณิตศาสตร์ วิทยาศาสตร์ และอื่น ๆ
ด้วยเครื่องมือ OlmoTrace สามารถติดตามได้แบบเรียลไทม์ว่าผลลัพธ์ของโมเดลมาจากข้อมูลฝึกส่วนใด ช่วย เพิ่มความโปร่งใสและความน่าเชื่อถือ
การเปิดซอร์สอย่างสมบูรณ์ทำให้ทุกคนสามารถแทรกแซง แก้ไข หรือฝึกใหม่ได้ในแต่ละขั้นของโมเดล ช่วยสร้าง ระบบนิเวศการวิจัย AI ที่ตรวจสอบได้

ภาพรวมของ Olmo 3

Olmo 3 คือโมเดลภาษาตระกูลโอเพนซอร์สรุ่นถัดไปที่เปิดเผยโดย Allen Institute for AI(Ai2) โดยหัวใจสำคัญคือการเปิดเผย ลำดับการพัฒนาทั้งหมดของโมเดล (model flow)
- model flow ครอบคลุมทุกขั้นตอน เช่น การเก็บข้อมูล การประมวลผลล่วงหน้า การฝึก การปรับจูนละเอียด และการเรียนรู้แบบเสริมกำลัง
- สิ่งนี้ช่วยให้นักวิจัยและนักพัฒนาสามารถวิเคราะห์และแก้ไขกลไกการทำงานภายในของโมเดลได้
Olmo 3 มีให้ใช้ในเวอร์ชัน 7B และ 32B พารามิเตอร์ และสามารถรันได้ในสภาพแวดล้อมที่หลากหลายตั้งแต่โน้ตบุ๊กไปจนถึงคลัสเตอร์วิจัย

องค์ประกอบของโมเดลหลัก

Olmo 3-Base (7B, 32B)
- เป็นเบสโมเดลที่เปิดเผยอย่างสมบูรณ์ และมี ประสิทธิภาพระดับแนวหน้า ในหลายด้าน เช่น โค้ด คณิตศาสตร์ และการอ่านจับความ
- แข่งขันได้กับโมเดลระดับเดียวกันอย่าง Qwen 2.5 และ Gemma 3 พร้อมรองรับคอนเท็กซ์ขยาย 65K โทเค็น
Olmo 3-Think (7B, 32B)
- เป็น โมเดลเฉพาะทางด้านการให้เหตุผล ที่ฝึกกับปัญหาการให้เหตุผลหลายขั้นตอน เหมาะกับงานวิจัย RL และการทดลองด้านการคิดระยะยาว
- โมเดล 32B ทำผลงานได้ ระดับสูงสุดในกลุ่มเดียวกัน บน MATH, OMEGA, BigBenchHard และอื่น ๆ
Olmo 3-Instruct (7B)
- เป็นโมเดลที่ปรับให้เหมาะกับบทสนทนา การทำตามคำสั่ง และการใช้เครื่องมือ โดย เทียบเท่าหรือเหนือกว่า Qwen 2.5, Gemma 3 และ Llama 3.1 ในระดับเดียวกัน
Olmo 3-RL Zero (7B)
- เปิดเผยเส้นทางทั้งหมดสำหรับการประเมินอัลกอริทึมการเรียนรู้แบบเสริมกำลัง พร้อม เช็กพอยต์ 4 โดเมน เช่น คณิตศาสตร์ โค้ด และการทำตามคำสั่ง

ประสิทธิภาพและเบนช์มาร์ก

Olmo 3-Base 32B เหนือกว่าโมเดลที่เปิดเผยอย่างสมบูรณ์อย่าง Marin 32B, Apertus 70B
- ทำผลลัพธ์ได้ดีในเบนช์มาร์กสำคัญ เช่น GSM8k (คณิตศาสตร์) 80.5 คะแนน และ HumanEval (โค้ด) 66.5 คะแนน
Olmo 3-Think 32B แสดงประสิทธิภาพใกล้เคียงหรือเทียบเท่า Qwen 3 32B และทำคะแนนสูงสุดใน HumanEvalPlus, IFEval และอื่น ๆ
Olmo 3-Instruct 7B ได้ 87.3 คะแนนในด้าน ความปลอดภัย (Safety) ซึ่งสูงสุดในบรรดาโมเดลที่นำมาเปรียบเทียบ

สถาปัตยกรรมและกระบวนการฝึก

ใช้ สถาปัตยกรรม Transformer แบบ decoder-only ประกอบด้วยการพรีเทรน 3 ขั้น (พื้นฐาน → ระดับกลาง → ข้อความยาว) และการฝึกหลังพรีเทรน 3 ขั้น (SFT → DPO → RLVR)
มีการ เปิดเผยเช็กพอยต์ในแต่ละขั้นตอน ทำให้นักวิจัยสามารถฟอร์กโมเดลหรือทดลองต่อจากจุดที่ต้องการได้
ใช้ชุดข้อมูล Dolma 3 (ราว 9.3 ล้านล้านโทเค็น) และ Dolci เพื่อให้เกิดความโปร่งใสของข้อมูลตลอดทั้งกระบวนการฝึก
- มีองค์ประกอบย่อย เช่น Dolma 3 Mix (6 ล้านล้านโทเค็น), Dolmino (100B โทเค็น), Longmino (50B โทเค็น)
- ส่วน Dolci ให้ data mix แยกตามแต่ละขั้นของ SFT, DPO และ RLVR

โครงสร้างพื้นฐานการฝึกที่มีประสิทธิภาพ

ฝึกด้วย GPU H100 ได้สูงสุด 1,024 ตัว และสำหรับโมเดล 7B มีความเร็วประมวลผล 7.7K โทเค็น/วินาที
ปรับปรุงประสิทธิภาพการฝึก RL ได้ 4 เท่า ด้วย in-flight weight updates, continuous batching และ การปรับปรุงเธรดดิ้ง
โมเดล 32B ของ Olmo 3 ถูกวางให้เป็น จุดสมดุลระหว่างประสิทธิภาพและการเข้าถึง เพื่อให้นักวิจัยสามารถปรับจูนละเอียดได้ด้วยตนเอง

ความโปร่งใสและระบบนิเวศเครื่องมือ

ด้วย OlmoTrace สามารถติดตามความเชื่อมโยงระหว่างผลลัพธ์ของโมเดลกับข้อมูลฝึกได้ในรูปแบบภาพ
ชุดข้อมูลและทูลเชนทั้งหมดถูกเผยแพร่เป็น โอเพนซอร์ส
- รวมถึง Olmo-core (เฟรมเวิร์กการฝึกแบบกระจาย), Open Instruct (ไปป์ไลน์การฝึกหลังพรีเทรน), datamap-rs (การคัดกรองข้อมูล), duplodocus (ลบข้อมูลซ้ำ), OLMES (ชุดเครื่องมือประเมินผล)
นักวิจัยสามารถวิเคราะห์ขั้นตอนการให้เหตุผลระหว่างทางและจุดล้มเหลว เพื่อ ระบุสาเหตุของพฤติกรรมโมเดล ได้

การใช้งานและความหมาย

Olmo 3 สนับสนุนการสร้าง ระบบ AI ที่เชื่อถือได้ ในงานวิจัย การศึกษา และการพัฒนาแอปพลิเคชัน
เนื่องจากเปิดเผยทุกขั้นตอนของโมเดล จึงช่วยส่งเสริม ความสามารถในการทำซ้ำ การตรวจสอบได้ และการวิจัยแบบร่วมมือกัน
Ai2 ระบุว่า “AI โอเพนซอร์สอย่างแท้จริงไม่ได้หมายถึงแค่การเข้าถึง แต่หมายถึง ความไว้วางใจ ความรับผิดชอบ และการพัฒนาร่วมกัน”
Olmo 3 นำเสนอ กระบวนทัศน์การวิจัยแบบเปิดรูปแบบใหม่ ที่ทำให้ทุกคนเข้าใจและปรับปรุงภายในของ AI ได้ผ่าน ความโปร่งใสอย่างสมบูรณ์

1 ความคิดเห็น

GN⁺ 2025-11-22

ความคิดเห็นจาก Hacker News

อนาคตของ AI ในมุมมองของฉันคือระบบที่มีขั้นตอนการให้เหตุผลที่ตรวจสอบย้อนหลังได้ทั้งหมด
ถ้าไม่มีความโปร่งใสแบบนี้ คนทั่วไปก็คงไม่มีทางเข้าใจหรือควบคุมระบบขนาดใหญ่ที่อิงกับ LLM ได้
สุดท้ายก็เสี่ยงที่ Big Tech หรือพวกอำนาจนิยม หรือแม้แต่ AI เอง จะทำอะไรก็ได้ตามใจ
- เลยรู้สึกว่าน่าสนใจที่หลายคนอยากลบแนวทางแบบนี้ทิ้งไปเลย
- อย่างน้อยเราควรรู้ว่าแต่ละโมเดลใช้ ข้อมูลฝึก อะไรบ้าง
  ฉันคิดว่าควรมีโครงสร้างที่ให้หน่วยงานภายนอกเข้ามาตรวจสอบและออกรายงานความโปร่งใส
- ความโปร่งใสนั้นดี แต่การทำให้คำตอบ ปรับจูนได้ เป็นโจทย์ UI/UX ใหญ่มาก
  หวังว่าจะมีความพยายามแบบนี้ต่อไปเรื่อย ๆ
คำว่า “โอเพนซอร์ส AI” ดูเหมือนถูกการตลาดบิดความหมายไปแล้ว
การเรียกว่าโอเพนซอร์สเพียงเพราะ เปิดเผยน้ำหนักโมเดล เป็นแนวปฏิบัติที่ผิด
โมเดลโอเพนซอร์สของจริงควรมีชื่อใหม่อย่าง “โมเดลโปร่งใส”
ฉันถามว่าฮิปโปโปเตมัสเป็นอาหาร โคเชอร์ (kosher) หรือไม่ แล้วโมเดลตอบว่า “ไม่ใช่”
แต่ตามการตีความของฉันและกฎหมายทัลมุด ยีราฟถือว่าได้ และ GPT5.1 ก็เห็นด้วยกับการตีความของฉัน
- มันแปลกที่โมเดล ท่องจำ รายละเอียดทางศาสนาแบบนี้ไว้
  ข้อมูลประเภทนี้ควรถูกดึงมาด้วยระบบค้นคืนอย่าง RAG มากกว่า
  โมเดลที่ตอบว่า “ไม่รู้” น่าจะมีประโยชน์กว่า
- สงสัยว่าลองใหม่ไปกี่ครั้งแล้ว และตั้งค่า temperature หรือ top_p ไว้อย่างไร
- จริง ๆ แล้วก็น่าสนใจที่คำถามแบบนี้ไม่สามารถใช้เป็น มาตรฐานของสินค้าสาธารณะ ได้อีกต่อไป
ช่วงนี้ฉันกำลังย้ายเวิร์กโฟลว์หลักจาก OpenAI ไปใช้ โมเดลโลคัล
โมเดลเล็ก ๆ มักมีแนวโน้มจะพยายามจัดการ edge case แบบฝืน ๆ
เพราะงั้นถ้าทำทางออกชื่อ “edge_case” ไว้ให้ มันจะทำงานได้ดีขึ้นมาก
อยากให้มีคลังกลางไว้รวบรวมทิป prompt hacking แบบนี้
- สงสัยว่า “edge_case” เป็น คีย์ (key) ในสคีมาผลลัพธ์แบบมีโครงสร้างหรือเปล่า
- สงสัยว่าใช้ฟรอนต์เอนด์อย่าง Open WebUI หรือ LibreChat หรือเรียกใช้งานเองโดยตรง
ฉันลองกด “Show OlmoTrace” ใน AllenAI Playground
เขาบอกว่าจะแสดง เอกสารข้อมูลฝึก ที่ตรงกับคำตอบของโมเดล
แต่ในความเป็นจริงดูเหมือนแค่หาความตรงกันของ N-gram เท่านั้น เลยเรียกว่าการติดตามย้อนหลังได้ยาก
บางครั้งผลลัพธ์ก็มาจากเอกสารที่ไม่เกี่ยวกับคำถามเลย
คำอธิบาย N-gram
- ในฐานะนักวิจัย Olmo ขอเสริมว่าจุดประสงค์ของ OlmoTrace ไม่ใช่การระบุว่าคำตอบมาจากเอกสารไหนโดยตรง
  แต่เป็นการแสดงให้เห็นว่าโมเดลได้รับอิทธิพลจาก ชิ้นส่วนข้อมูลฝึก ใดบ้าง
  ตัวอย่างเช่น เราสามารถตามรอยได้ว่าทำไมหลายโมเดลถึงพูดมุกเดียวกันหรือใช้ตัวเลขเดียวกันซ้ำ ๆ
ฉันคิดว่าขนาดโมเดลที่เหมาะที่สุดคือมี 3 ไลน์อัป: 7B, 20B และ 32B
7B เหมาะกับ GPU 8GB, 32B เหมาะกับ GPU 24GB และ โมเดลระดับ 20B ก็ลงตัวมากกับ GPU 16GB
- แน่นอนว่านี่ขึ้นอยู่กับ สถาปัตยกรรม ด้วย
  ตอนนี้ก็ยังมีการทดลองเพื่อหาขนาดที่เหมาะสมที่สุดอยู่
  ส่วนตัวหวังว่า GPU จะมี VRAM ที่ขยายได้
ฉันถามโมเดล 7B ว่า “hi, who are u” แล้วมันหยุดอยู่ที่การวิเคราะห์ประโยคภายใน
น่าจะเป็น บั๊กของ OpenWebUI
- ทุกครั้งที่มีโมเดลใหม่ออกมา ก็มักมีคนเอาไปทดสอบกับซอฟต์แวร์ที่ยังไม่รองรับ
  ตอน GPT-OSS ก็เป็นแบบนั้น และรอบนี้ OLMo ก็คงเกิดสถานการณ์คล้ายกันอีก
- ฉันลองเองใน playground แล้ว
  7B ตอบว่า “Hi! I'm Olmo 3…” ส่วน 32B ตอบว่า “Hi! I'm Olmo…”
- ฉันเป็นนักวิจัยใน ทีม post-training ของ Ai2 เลยอยากรู้ว่าคุณไปทดสอบมาจากที่ไหน
- ทำให้นึกถึง มุกตลก ที่ชอบวิเคราะห์คำว่า “good morning” เกินเหตุ
  สุดท้ายแม้แต่คำทักทายง่าย ๆ ก็จบลงด้วยการตีความเชิงปรัชญา
- แนะนำให้ลองเช็กดูว่าโดนจำกัด completion token หรือเปล่า
ฉันเห็น ชุดข้อมูล Dolma3 บน Hugging Face
แล้วตกใจที่บรรทัดแรก ๆ ก็มี ข้อความจากเว็บผู้ใหญ่ ปรากฏอยู่
- มีความเป็นไปได้สูงว่านี่ยังเป็นช่วง ก่อนการคิวเรต
  ถ้าจะเปิดเผยทั้งพายป์ไลน์ ก็คงต้องรวมข้อมูลแบบนี้ไว้ด้วย
  เพียงแต่ถ้าปรับไม่ให้ส่วนนี้โผล่มาในหน้าพรีวิวทันทีคงจะดีกว่า
- ยังไงซะ อีโรติกฟิกชัน ก็เป็นหนึ่งในกรณีใช้งานหลักของโมเดลประเภทนี้อยู่แล้ว
ฉันสงสัยว่าโมเดลเล็ก ๆ เอาไปใช้งานจริงด้านไหนได้บ้าง
ส่วนใหญ่ดูเหมือนจะเอาไว้สำหรับ การอนุมานบนอุปกรณ์ แล้วมีกรณีอื่นอีกไหม?
- ในฐานะนักวิจัยของ Ai2 ขอเสริมว่า 7B คือ โมเดลโลคัลสำหรับ GPU ผู้บริโภค ส่วน 32B ใช้งานได้หลากหลายกว่า
  หลายบริษัทอาจย้ายจากโมเดลฟाइनจูน Qwen 3 มาเป็น Olmo 32B ก็ได้
- ทีมของเราฟাইনจูนโมเดล 7B ให้เป็น ตัวจำแนกเฉพาะโดเมน
  แล้วได้ผลดีกว่าโมเดลขนาดเล็กที่ไม่ใช่ LLM
- ฉันเปิด Qwen3-30B-VL ค้างไว้ใน VRAM ตลอด
  มันเร็วกว่าแค่ไปค้น Google ธรรมดา และยังจัดการ คำสั่งเทอร์มินัล, การสำรวจไฟล์, และ การจัดระเบียบโน้ต ได้ด้วย
  ด้วยความเร็ว (90tok/s) และ latency ต่ำ มันช่วยให้งานจุกจิกเล็ก ๆ มีประสิทธิภาพขึ้นมาก
  ในทางกลับกัน Sonnet 4.5 ช้าและพลาดแบบก้ำกึ่งจนใช้งานจริงไม่มีประสิทธิภาพ
Qwen3-30B-VL แทบจะสมบูรณ์แบบสำหรับการใช้งานประจำวัน
มันเร็วมาก (90tok/s) และครอบคลุมงานส่วนใหญ่ได้
งานวิจัยแบบนี้สำคัญก็จริง แต่โมเดล dense คงไล่ความเร็วระดับนี้ได้ยาก
- ในฐานะนักพัฒนา Olmo ขอเสริมว่าเหตุผลที่โมเดล Qwen เร็วก็เพราะ โครงสร้าง MoE
  ใน Olmo เวอร์ชันถัดไปก็มีแผนจะใช้ MoE เช่นกัน
- ฉันลองรันบน MacBook เครื่องใหม่แล้วรู้สึกว่าช้า แต่ Qwen2.5:14B กลับให้ฟีดแบ็กได้แทบจะทันที
  แถมยังคุยเป็น ภาษาเอสเปรันโต ได้อย่างเป็นธรรมชาติด้วย
- สงสัยว่าเหตุผลที่ Qwen3-30B-VL ดู “ฉลาดกว่า” นั้น มาจาก ความต่างด้านสถาปัตยกรรม มากกว่าขนาดล้วน ๆ หรือเปล่า

Olmo 3: เส้นทางใหม่ของโมเดลโฟลว์เพื่อขับเคลื่อน AI โอเพนซอร์ส

ภาพรวมของ Olmo 3

องค์ประกอบของโมเดลหลัก

ประสิทธิภาพและเบนช์มาร์ก

สถาปัตยกรรมและกระบวนการฝึก

โครงสร้างพื้นฐานการฝึกที่มีประสิทธิภาพ

ความโปร่งใสและระบบนิเวศเครื่องมือ

การใช้งานและความหมาย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News