- Olmo 3 เปิดเผยไม่เพียงแค่ผลลัพธ์สุดท้ายของโมเดล แต่รวมถึง กระบวนการพัฒนาทั้งหมด (model flow) ทำให้สามารถติดตามย้อนกลับได้อย่างสมบูรณ์ตั้งแต่ข้อมูล โค้ด ไปจนถึงเช็กพอยต์
- ประกอบด้วยโมเดล 4 แบบ ได้แก่ Base, Think, Instruct, RL Zero ในขนาด 7B และ 32B พารามิเตอร์ รองรับงานวิจัยที่หลากหลาย เช่น การให้เหตุผล บทสนทนา และการเรียนรู้แบบเสริมกำลัง
- อิงจากชุดข้อมูล Dolma 3 และ Dolci พร้อมเปิดเผยข้อมูลฝึกที่โปร่งใสขนาดราว 9.3 ล้านล้านโทเค็น ครอบคลุมเว็บ โค้ด คณิตศาสตร์ วิทยาศาสตร์ และอื่น ๆ
- ด้วยเครื่องมือ OlmoTrace สามารถติดตามได้แบบเรียลไทม์ว่าผลลัพธ์ของโมเดลมาจากข้อมูลฝึกส่วนใด ช่วย เพิ่มความโปร่งใสและความน่าเชื่อถือ
- การเปิดซอร์สอย่างสมบูรณ์ทำให้ทุกคนสามารถแทรกแซง แก้ไข หรือฝึกใหม่ได้ในแต่ละขั้นของโมเดล ช่วยสร้าง ระบบนิเวศการวิจัย AI ที่ตรวจสอบได้
ภาพรวมของ Olmo 3
- Olmo 3 คือโมเดลภาษาตระกูลโอเพนซอร์สรุ่นถัดไปที่เปิดเผยโดย Allen Institute for AI(Ai2) โดยหัวใจสำคัญคือการเปิดเผย ลำดับการพัฒนาทั้งหมดของโมเดล (model flow)
- model flow ครอบคลุมทุกขั้นตอน เช่น การเก็บข้อมูล การประมวลผลล่วงหน้า การฝึก การปรับจูนละเอียด และการเรียนรู้แบบเสริมกำลัง
- สิ่งนี้ช่วยให้นักวิจัยและนักพัฒนาสามารถวิเคราะห์และแก้ไขกลไกการทำงานภายในของโมเดลได้
- Olmo 3 มีให้ใช้ในเวอร์ชัน 7B และ 32B พารามิเตอร์ และสามารถรันได้ในสภาพแวดล้อมที่หลากหลายตั้งแต่โน้ตบุ๊กไปจนถึงคลัสเตอร์วิจัย
องค์ประกอบของโมเดลหลัก
- Olmo 3-Base (7B, 32B)
- เป็นเบสโมเดลที่เปิดเผยอย่างสมบูรณ์ และมี ประสิทธิภาพระดับแนวหน้า ในหลายด้าน เช่น โค้ด คณิตศาสตร์ และการอ่านจับความ
- แข่งขันได้กับโมเดลระดับเดียวกันอย่าง Qwen 2.5 และ Gemma 3 พร้อมรองรับคอนเท็กซ์ขยาย 65K โทเค็น
- Olmo 3-Think (7B, 32B)
- เป็น โมเดลเฉพาะทางด้านการให้เหตุผล ที่ฝึกกับปัญหาการให้เหตุผลหลายขั้นตอน เหมาะกับงานวิจัย RL และการทดลองด้านการคิดระยะยาว
- โมเดล 32B ทำผลงานได้ ระดับสูงสุดในกลุ่มเดียวกัน บน MATH, OMEGA, BigBenchHard และอื่น ๆ
- Olmo 3-Instruct (7B)
- เป็นโมเดลที่ปรับให้เหมาะกับบทสนทนา การทำตามคำสั่ง และการใช้เครื่องมือ โดย เทียบเท่าหรือเหนือกว่า Qwen 2.5, Gemma 3 และ Llama 3.1 ในระดับเดียวกัน
- Olmo 3-RL Zero (7B)
- เปิดเผยเส้นทางทั้งหมดสำหรับการประเมินอัลกอริทึมการเรียนรู้แบบเสริมกำลัง พร้อม เช็กพอยต์ 4 โดเมน เช่น คณิตศาสตร์ โค้ด และการทำตามคำสั่ง
ประสิทธิภาพและเบนช์มาร์ก
- Olmo 3-Base 32B เหนือกว่าโมเดลที่เปิดเผยอย่างสมบูรณ์อย่าง Marin 32B, Apertus 70B
- ทำผลลัพธ์ได้ดีในเบนช์มาร์กสำคัญ เช่น GSM8k (คณิตศาสตร์) 80.5 คะแนน และ HumanEval (โค้ด) 66.5 คะแนน
- Olmo 3-Think 32B แสดงประสิทธิภาพใกล้เคียงหรือเทียบเท่า Qwen 3 32B และทำคะแนนสูงสุดใน HumanEvalPlus, IFEval และอื่น ๆ
- Olmo 3-Instruct 7B ได้ 87.3 คะแนนในด้าน ความปลอดภัย (Safety) ซึ่งสูงสุดในบรรดาโมเดลที่นำมาเปรียบเทียบ
สถาปัตยกรรมและกระบวนการฝึก
- ใช้ สถาปัตยกรรม Transformer แบบ decoder-only ประกอบด้วยการพรีเทรน 3 ขั้น (พื้นฐาน → ระดับกลาง → ข้อความยาว) และการฝึกหลังพรีเทรน 3 ขั้น (SFT → DPO → RLVR)
- มีการ เปิดเผยเช็กพอยต์ในแต่ละขั้นตอน ทำให้นักวิจัยสามารถฟอร์กโมเดลหรือทดลองต่อจากจุดที่ต้องการได้
- ใช้ชุดข้อมูล Dolma 3 (ราว 9.3 ล้านล้านโทเค็น) และ Dolci เพื่อให้เกิดความโปร่งใสของข้อมูลตลอดทั้งกระบวนการฝึก
- มีองค์ประกอบย่อย เช่น Dolma 3 Mix (6 ล้านล้านโทเค็น), Dolmino (100B โทเค็น), Longmino (50B โทเค็น)
- ส่วน Dolci ให้ data mix แยกตามแต่ละขั้นของ SFT, DPO และ RLVR
โครงสร้างพื้นฐานการฝึกที่มีประสิทธิภาพ
- ฝึกด้วย GPU H100 ได้สูงสุด 1,024 ตัว และสำหรับโมเดล 7B มีความเร็วประมวลผล 7.7K โทเค็น/วินาที
- ปรับปรุงประสิทธิภาพการฝึก RL ได้ 4 เท่า ด้วย in-flight weight updates, continuous batching และ การปรับปรุงเธรดดิ้ง
- โมเดล 32B ของ Olmo 3 ถูกวางให้เป็น จุดสมดุลระหว่างประสิทธิภาพและการเข้าถึง เพื่อให้นักวิจัยสามารถปรับจูนละเอียดได้ด้วยตนเอง
ความโปร่งใสและระบบนิเวศเครื่องมือ
- ด้วย OlmoTrace สามารถติดตามความเชื่อมโยงระหว่างผลลัพธ์ของโมเดลกับข้อมูลฝึกได้ในรูปแบบภาพ
- ชุดข้อมูลและทูลเชนทั้งหมดถูกเผยแพร่เป็น โอเพนซอร์ส
- รวมถึง Olmo-core (เฟรมเวิร์กการฝึกแบบกระจาย), Open Instruct (ไปป์ไลน์การฝึกหลังพรีเทรน), datamap-rs (การคัดกรองข้อมูล), duplodocus (ลบข้อมูลซ้ำ), OLMES (ชุดเครื่องมือประเมินผล)
- นักวิจัยสามารถวิเคราะห์ขั้นตอนการให้เหตุผลระหว่างทางและจุดล้มเหลว เพื่อ ระบุสาเหตุของพฤติกรรมโมเดล ได้
การใช้งานและความหมาย
- Olmo 3 สนับสนุนการสร้าง ระบบ AI ที่เชื่อถือได้ ในงานวิจัย การศึกษา และการพัฒนาแอปพลิเคชัน
- เนื่องจากเปิดเผยทุกขั้นตอนของโมเดล จึงช่วยส่งเสริม ความสามารถในการทำซ้ำ การตรวจสอบได้ และการวิจัยแบบร่วมมือกัน
- Ai2 ระบุว่า “AI โอเพนซอร์สอย่างแท้จริงไม่ได้หมายถึงแค่การเข้าถึง แต่หมายถึง ความไว้วางใจ ความรับผิดชอบ และการพัฒนาร่วมกัน”
- Olmo 3 นำเสนอ กระบวนทัศน์การวิจัยแบบเปิดรูปแบบใหม่ ที่ทำให้ทุกคนเข้าใจและปรับปรุงภายในของ AI ได้ผ่าน ความโปร่งใสอย่างสมบูรณ์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าไม่มีความโปร่งใสแบบนี้ คนทั่วไปก็คงไม่มีทางเข้าใจหรือควบคุมระบบขนาดใหญ่ที่อิงกับ LLM ได้
สุดท้ายก็เสี่ยงที่ Big Tech หรือพวกอำนาจนิยม หรือแม้แต่ AI เอง จะทำอะไรก็ได้ตามใจ
ฉันคิดว่าควรมีโครงสร้างที่ให้หน่วยงานภายนอกเข้ามาตรวจสอบและออกรายงานความโปร่งใส
หวังว่าจะมีความพยายามแบบนี้ต่อไปเรื่อย ๆ
การเรียกว่าโอเพนซอร์สเพียงเพราะ เปิดเผยน้ำหนักโมเดล เป็นแนวปฏิบัติที่ผิด
โมเดลโอเพนซอร์สของจริงควรมีชื่อใหม่อย่าง “โมเดลโปร่งใส”
แต่ตามการตีความของฉันและกฎหมายทัลมุด ยีราฟถือว่าได้ และ GPT5.1 ก็เห็นด้วยกับการตีความของฉัน
ข้อมูลประเภทนี้ควรถูกดึงมาด้วยระบบค้นคืนอย่าง RAG มากกว่า
โมเดลที่ตอบว่า “ไม่รู้” น่าจะมีประโยชน์กว่า
โมเดลเล็ก ๆ มักมีแนวโน้มจะพยายามจัดการ edge case แบบฝืน ๆ
เพราะงั้นถ้าทำทางออกชื่อ “edge_case” ไว้ให้ มันจะทำงานได้ดีขึ้นมาก
อยากให้มีคลังกลางไว้รวบรวมทิป prompt hacking แบบนี้
เขาบอกว่าจะแสดง เอกสารข้อมูลฝึก ที่ตรงกับคำตอบของโมเดล
แต่ในความเป็นจริงดูเหมือนแค่หาความตรงกันของ N-gram เท่านั้น เลยเรียกว่าการติดตามย้อนหลังได้ยาก
บางครั้งผลลัพธ์ก็มาจากเอกสารที่ไม่เกี่ยวกับคำถามเลย
คำอธิบาย N-gram
แต่เป็นการแสดงให้เห็นว่าโมเดลได้รับอิทธิพลจาก ชิ้นส่วนข้อมูลฝึก ใดบ้าง
ตัวอย่างเช่น เราสามารถตามรอยได้ว่าทำไมหลายโมเดลถึงพูดมุกเดียวกันหรือใช้ตัวเลขเดียวกันซ้ำ ๆ
7B เหมาะกับ GPU 8GB, 32B เหมาะกับ GPU 24GB และ โมเดลระดับ 20B ก็ลงตัวมากกับ GPU 16GB
ตอนนี้ก็ยังมีการทดลองเพื่อหาขนาดที่เหมาะสมที่สุดอยู่
ส่วนตัวหวังว่า GPU จะมี VRAM ที่ขยายได้
น่าจะเป็น บั๊กของ OpenWebUI
ตอน GPT-OSS ก็เป็นแบบนั้น และรอบนี้ OLMo ก็คงเกิดสถานการณ์คล้ายกันอีก
7B ตอบว่า “Hi! I'm Olmo 3…” ส่วน 32B ตอบว่า “Hi! I'm Olmo…”
สุดท้ายแม้แต่คำทักทายง่าย ๆ ก็จบลงด้วยการตีความเชิงปรัชญา
แล้วตกใจที่บรรทัดแรก ๆ ก็มี ข้อความจากเว็บผู้ใหญ่ ปรากฏอยู่
ถ้าจะเปิดเผยทั้งพายป์ไลน์ ก็คงต้องรวมข้อมูลแบบนี้ไว้ด้วย
เพียงแต่ถ้าปรับไม่ให้ส่วนนี้โผล่มาในหน้าพรีวิวทันทีคงจะดีกว่า
ส่วนใหญ่ดูเหมือนจะเอาไว้สำหรับ การอนุมานบนอุปกรณ์ แล้วมีกรณีอื่นอีกไหม?
หลายบริษัทอาจย้ายจากโมเดลฟाइनจูน Qwen 3 มาเป็น Olmo 32B ก็ได้
แล้วได้ผลดีกว่าโมเดลขนาดเล็กที่ไม่ใช่ LLM
มันเร็วกว่าแค่ไปค้น Google ธรรมดา และยังจัดการ คำสั่งเทอร์มินัล, การสำรวจไฟล์, และ การจัดระเบียบโน้ต ได้ด้วย
ด้วยความเร็ว (90tok/s) และ latency ต่ำ มันช่วยให้งานจุกจิกเล็ก ๆ มีประสิทธิภาพขึ้นมาก
ในทางกลับกัน Sonnet 4.5 ช้าและพลาดแบบก้ำกึ่งจนใช้งานจริงไม่มีประสิทธิภาพ
มันเร็วมาก (90tok/s) และครอบคลุมงานส่วนใหญ่ได้
งานวิจัยแบบนี้สำคัญก็จริง แต่โมเดล dense คงไล่ความเร็วระดับนี้ได้ยาก
ใน Olmo เวอร์ชันถัดไปก็มีแผนจะใช้ MoE เช่นกัน
แถมยังคุยเป็น ภาษาเอสเปรันโต ได้อย่างเป็นธรรมชาติด้วย