5 คะแนน โดย GN⁺ 2025-11-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Olmo 3 เปิดเผยไม่เพียงแค่ผลลัพธ์สุดท้ายของโมเดล แต่รวมถึง กระบวนการพัฒนาทั้งหมด (model flow) ทำให้สามารถติดตามย้อนกลับได้อย่างสมบูรณ์ตั้งแต่ข้อมูล โค้ด ไปจนถึงเช็กพอยต์
  • ประกอบด้วยโมเดล 4 แบบ ได้แก่ Base, Think, Instruct, RL Zero ในขนาด 7B และ 32B พารามิเตอร์ รองรับงานวิจัยที่หลากหลาย เช่น การให้เหตุผล บทสนทนา และการเรียนรู้แบบเสริมกำลัง
  • อิงจากชุดข้อมูล Dolma 3 และ Dolci พร้อมเปิดเผยข้อมูลฝึกที่โปร่งใสขนาดราว 9.3 ล้านล้านโทเค็น ครอบคลุมเว็บ โค้ด คณิตศาสตร์ วิทยาศาสตร์ และอื่น ๆ
  • ด้วยเครื่องมือ OlmoTrace สามารถติดตามได้แบบเรียลไทม์ว่าผลลัพธ์ของโมเดลมาจากข้อมูลฝึกส่วนใด ช่วย เพิ่มความโปร่งใสและความน่าเชื่อถือ
  • การเปิดซอร์สอย่างสมบูรณ์ทำให้ทุกคนสามารถแทรกแซง แก้ไข หรือฝึกใหม่ได้ในแต่ละขั้นของโมเดล ช่วยสร้าง ระบบนิเวศการวิจัย AI ที่ตรวจสอบได้

ภาพรวมของ Olmo 3

  • Olmo 3 คือโมเดลภาษาตระกูลโอเพนซอร์สรุ่นถัดไปที่เปิดเผยโดย Allen Institute for AI(Ai2) โดยหัวใจสำคัญคือการเปิดเผย ลำดับการพัฒนาทั้งหมดของโมเดล (model flow)
    • model flow ครอบคลุมทุกขั้นตอน เช่น การเก็บข้อมูล การประมวลผลล่วงหน้า การฝึก การปรับจูนละเอียด และการเรียนรู้แบบเสริมกำลัง
    • สิ่งนี้ช่วยให้นักวิจัยและนักพัฒนาสามารถวิเคราะห์และแก้ไขกลไกการทำงานภายในของโมเดลได้
  • Olmo 3 มีให้ใช้ในเวอร์ชัน 7B และ 32B พารามิเตอร์ และสามารถรันได้ในสภาพแวดล้อมที่หลากหลายตั้งแต่โน้ตบุ๊กไปจนถึงคลัสเตอร์วิจัย

องค์ประกอบของโมเดลหลัก

  • Olmo 3-Base (7B, 32B)
    • เป็นเบสโมเดลที่เปิดเผยอย่างสมบูรณ์ และมี ประสิทธิภาพระดับแนวหน้า ในหลายด้าน เช่น โค้ด คณิตศาสตร์ และการอ่านจับความ
    • แข่งขันได้กับโมเดลระดับเดียวกันอย่าง Qwen 2.5 และ Gemma 3 พร้อมรองรับคอนเท็กซ์ขยาย 65K โทเค็น
  • Olmo 3-Think (7B, 32B)
    • เป็น โมเดลเฉพาะทางด้านการให้เหตุผล ที่ฝึกกับปัญหาการให้เหตุผลหลายขั้นตอน เหมาะกับงานวิจัย RL และการทดลองด้านการคิดระยะยาว
    • โมเดล 32B ทำผลงานได้ ระดับสูงสุดในกลุ่มเดียวกัน บน MATH, OMEGA, BigBenchHard และอื่น ๆ
  • Olmo 3-Instruct (7B)
    • เป็นโมเดลที่ปรับให้เหมาะกับบทสนทนา การทำตามคำสั่ง และการใช้เครื่องมือ โดย เทียบเท่าหรือเหนือกว่า Qwen 2.5, Gemma 3 และ Llama 3.1 ในระดับเดียวกัน
  • Olmo 3-RL Zero (7B)
    • เปิดเผยเส้นทางทั้งหมดสำหรับการประเมินอัลกอริทึมการเรียนรู้แบบเสริมกำลัง พร้อม เช็กพอยต์ 4 โดเมน เช่น คณิตศาสตร์ โค้ด และการทำตามคำสั่ง

ประสิทธิภาพและเบนช์มาร์ก

  • Olmo 3-Base 32B เหนือกว่าโมเดลที่เปิดเผยอย่างสมบูรณ์อย่าง Marin 32B, Apertus 70B
    • ทำผลลัพธ์ได้ดีในเบนช์มาร์กสำคัญ เช่น GSM8k (คณิตศาสตร์) 80.5 คะแนน และ HumanEval (โค้ด) 66.5 คะแนน
  • Olmo 3-Think 32B แสดงประสิทธิภาพใกล้เคียงหรือเทียบเท่า Qwen 3 32B และทำคะแนนสูงสุดใน HumanEvalPlus, IFEval และอื่น ๆ
  • Olmo 3-Instruct 7B ได้ 87.3 คะแนนในด้าน ความปลอดภัย (Safety) ซึ่งสูงสุดในบรรดาโมเดลที่นำมาเปรียบเทียบ

สถาปัตยกรรมและกระบวนการฝึก

  • ใช้ สถาปัตยกรรม Transformer แบบ decoder-only ประกอบด้วยการพรีเทรน 3 ขั้น (พื้นฐาน → ระดับกลาง → ข้อความยาว) และการฝึกหลังพรีเทรน 3 ขั้น (SFT → DPO → RLVR)
  • มีการ เปิดเผยเช็กพอยต์ในแต่ละขั้นตอน ทำให้นักวิจัยสามารถฟอร์กโมเดลหรือทดลองต่อจากจุดที่ต้องการได้
  • ใช้ชุดข้อมูล Dolma 3 (ราว 9.3 ล้านล้านโทเค็น) และ Dolci เพื่อให้เกิดความโปร่งใสของข้อมูลตลอดทั้งกระบวนการฝึก
    • มีองค์ประกอบย่อย เช่น Dolma 3 Mix (6 ล้านล้านโทเค็น), Dolmino (100B โทเค็น), Longmino (50B โทเค็น)
    • ส่วน Dolci ให้ data mix แยกตามแต่ละขั้นของ SFT, DPO และ RLVR

โครงสร้างพื้นฐานการฝึกที่มีประสิทธิภาพ

  • ฝึกด้วย GPU H100 ได้สูงสุด 1,024 ตัว และสำหรับโมเดล 7B มีความเร็วประมวลผล 7.7K โทเค็น/วินาที
  • ปรับปรุงประสิทธิภาพการฝึก RL ได้ 4 เท่า ด้วย in-flight weight updates, continuous batching และ การปรับปรุงเธรดดิ้ง
  • โมเดล 32B ของ Olmo 3 ถูกวางให้เป็น จุดสมดุลระหว่างประสิทธิภาพและการเข้าถึง เพื่อให้นักวิจัยสามารถปรับจูนละเอียดได้ด้วยตนเอง

ความโปร่งใสและระบบนิเวศเครื่องมือ

  • ด้วย OlmoTrace สามารถติดตามความเชื่อมโยงระหว่างผลลัพธ์ของโมเดลกับข้อมูลฝึกได้ในรูปแบบภาพ
  • ชุดข้อมูลและทูลเชนทั้งหมดถูกเผยแพร่เป็น โอเพนซอร์ส
    • รวมถึง Olmo-core (เฟรมเวิร์กการฝึกแบบกระจาย), Open Instruct (ไปป์ไลน์การฝึกหลังพรีเทรน), datamap-rs (การคัดกรองข้อมูล), duplodocus (ลบข้อมูลซ้ำ), OLMES (ชุดเครื่องมือประเมินผล)
  • นักวิจัยสามารถวิเคราะห์ขั้นตอนการให้เหตุผลระหว่างทางและจุดล้มเหลว เพื่อ ระบุสาเหตุของพฤติกรรมโมเดล ได้

การใช้งานและความหมาย

  • Olmo 3 สนับสนุนการสร้าง ระบบ AI ที่เชื่อถือได้ ในงานวิจัย การศึกษา และการพัฒนาแอปพลิเคชัน
  • เนื่องจากเปิดเผยทุกขั้นตอนของโมเดล จึงช่วยส่งเสริม ความสามารถในการทำซ้ำ การตรวจสอบได้ และการวิจัยแบบร่วมมือกัน
  • Ai2 ระบุว่า “AI โอเพนซอร์สอย่างแท้จริงไม่ได้หมายถึงแค่การเข้าถึง แต่หมายถึง ความไว้วางใจ ความรับผิดชอบ และการพัฒนาร่วมกัน
  • Olmo 3 นำเสนอ กระบวนทัศน์การวิจัยแบบเปิดรูปแบบใหม่ ที่ทำให้ทุกคนเข้าใจและปรับปรุงภายในของ AI ได้ผ่าน ความโปร่งใสอย่างสมบูรณ์

1 ความคิดเห็น

 
GN⁺ 2025-11-22
ความคิดเห็นจาก Hacker News
  • อนาคตของ AI ในมุมมองของฉันคือระบบที่มีขั้นตอนการให้เหตุผลที่ตรวจสอบย้อนหลังได้ทั้งหมด
    ถ้าไม่มีความโปร่งใสแบบนี้ คนทั่วไปก็คงไม่มีทางเข้าใจหรือควบคุมระบบขนาดใหญ่ที่อิงกับ LLM ได้
    สุดท้ายก็เสี่ยงที่ Big Tech หรือพวกอำนาจนิยม หรือแม้แต่ AI เอง จะทำอะไรก็ได้ตามใจ
    • เลยรู้สึกว่าน่าสนใจที่หลายคนอยากลบแนวทางแบบนี้ทิ้งไปเลย
    • อย่างน้อยเราควรรู้ว่าแต่ละโมเดลใช้ ข้อมูลฝึก อะไรบ้าง
      ฉันคิดว่าควรมีโครงสร้างที่ให้หน่วยงานภายนอกเข้ามาตรวจสอบและออกรายงานความโปร่งใส
    • ความโปร่งใสนั้นดี แต่การทำให้คำตอบ ปรับจูนได้ เป็นโจทย์ UI/UX ใหญ่มาก
      หวังว่าจะมีความพยายามแบบนี้ต่อไปเรื่อย ๆ
  • คำว่า “โอเพนซอร์ส AI” ดูเหมือนถูกการตลาดบิดความหมายไปแล้ว
    การเรียกว่าโอเพนซอร์สเพียงเพราะ เปิดเผยน้ำหนักโมเดล เป็นแนวปฏิบัติที่ผิด
    โมเดลโอเพนซอร์สของจริงควรมีชื่อใหม่อย่าง “โมเดลโปร่งใส
  • ฉันถามว่าฮิปโปโปเตมัสเป็นอาหาร โคเชอร์ (kosher) หรือไม่ แล้วโมเดลตอบว่า “ไม่ใช่”
    แต่ตามการตีความของฉันและกฎหมายทัลมุด ยีราฟถือว่าได้ และ GPT5.1 ก็เห็นด้วยกับการตีความของฉัน
    • มันแปลกที่โมเดล ท่องจำ รายละเอียดทางศาสนาแบบนี้ไว้
      ข้อมูลประเภทนี้ควรถูกดึงมาด้วยระบบค้นคืนอย่าง RAG มากกว่า
      โมเดลที่ตอบว่า “ไม่รู้” น่าจะมีประโยชน์กว่า
    • สงสัยว่าลองใหม่ไปกี่ครั้งแล้ว และตั้งค่า temperature หรือ top_p ไว้อย่างไร
    • จริง ๆ แล้วก็น่าสนใจที่คำถามแบบนี้ไม่สามารถใช้เป็น มาตรฐานของสินค้าสาธารณะ ได้อีกต่อไป
  • ช่วงนี้ฉันกำลังย้ายเวิร์กโฟลว์หลักจาก OpenAI ไปใช้ โมเดลโลคัล
    โมเดลเล็ก ๆ มักมีแนวโน้มจะพยายามจัดการ edge case แบบฝืน ๆ
    เพราะงั้นถ้าทำทางออกชื่อ “edge_case” ไว้ให้ มันจะทำงานได้ดีขึ้นมาก
    อยากให้มีคลังกลางไว้รวบรวมทิป prompt hacking แบบนี้
    • สงสัยว่า “edge_case” เป็น คีย์ (key) ในสคีมาผลลัพธ์แบบมีโครงสร้างหรือเปล่า
    • สงสัยว่าใช้ฟรอนต์เอนด์อย่าง Open WebUI หรือ LibreChat หรือเรียกใช้งานเองโดยตรง
  • ฉันลองกด “Show OlmoTrace” ใน AllenAI Playground
    เขาบอกว่าจะแสดง เอกสารข้อมูลฝึก ที่ตรงกับคำตอบของโมเดล
    แต่ในความเป็นจริงดูเหมือนแค่หาความตรงกันของ N-gram เท่านั้น เลยเรียกว่าการติดตามย้อนหลังได้ยาก
    บางครั้งผลลัพธ์ก็มาจากเอกสารที่ไม่เกี่ยวกับคำถามเลย
    คำอธิบาย N-gram
    • ในฐานะนักวิจัย Olmo ขอเสริมว่าจุดประสงค์ของ OlmoTrace ไม่ใช่การระบุว่าคำตอบมาจากเอกสารไหนโดยตรง
      แต่เป็นการแสดงให้เห็นว่าโมเดลได้รับอิทธิพลจาก ชิ้นส่วนข้อมูลฝึก ใดบ้าง
      ตัวอย่างเช่น เราสามารถตามรอยได้ว่าทำไมหลายโมเดลถึงพูดมุกเดียวกันหรือใช้ตัวเลขเดียวกันซ้ำ ๆ
  • ฉันคิดว่าขนาดโมเดลที่เหมาะที่สุดคือมี 3 ไลน์อัป: 7B, 20B และ 32B
    7B เหมาะกับ GPU 8GB, 32B เหมาะกับ GPU 24GB และ โมเดลระดับ 20B ก็ลงตัวมากกับ GPU 16GB
    • แน่นอนว่านี่ขึ้นอยู่กับ สถาปัตยกรรม ด้วย
      ตอนนี้ก็ยังมีการทดลองเพื่อหาขนาดที่เหมาะสมที่สุดอยู่
      ส่วนตัวหวังว่า GPU จะมี VRAM ที่ขยายได้
  • ฉันถามโมเดล 7B ว่า “hi, who are u” แล้วมันหยุดอยู่ที่การวิเคราะห์ประโยคภายใน
    น่าจะเป็น บั๊กของ OpenWebUI
    • ทุกครั้งที่มีโมเดลใหม่ออกมา ก็มักมีคนเอาไปทดสอบกับซอฟต์แวร์ที่ยังไม่รองรับ
      ตอน GPT-OSS ก็เป็นแบบนั้น และรอบนี้ OLMo ก็คงเกิดสถานการณ์คล้ายกันอีก
    • ฉันลองเองใน playground แล้ว
      7B ตอบว่า “Hi! I'm Olmo 3…” ส่วน 32B ตอบว่า “Hi! I'm Olmo…”
    • ฉันเป็นนักวิจัยใน ทีม post-training ของ Ai2 เลยอยากรู้ว่าคุณไปทดสอบมาจากที่ไหน
    • ทำให้นึกถึง มุกตลก ที่ชอบวิเคราะห์คำว่า “good morning” เกินเหตุ
      สุดท้ายแม้แต่คำทักทายง่าย ๆ ก็จบลงด้วยการตีความเชิงปรัชญา
    • แนะนำให้ลองเช็กดูว่าโดนจำกัด completion token หรือเปล่า
  • ฉันเห็น ชุดข้อมูล Dolma3 บน Hugging Face
    แล้วตกใจที่บรรทัดแรก ๆ ก็มี ข้อความจากเว็บผู้ใหญ่ ปรากฏอยู่
    • มีความเป็นไปได้สูงว่านี่ยังเป็นช่วง ก่อนการคิวเรต
      ถ้าจะเปิดเผยทั้งพายป์ไลน์ ก็คงต้องรวมข้อมูลแบบนี้ไว้ด้วย
      เพียงแต่ถ้าปรับไม่ให้ส่วนนี้โผล่มาในหน้าพรีวิวทันทีคงจะดีกว่า
    • ยังไงซะ อีโรติกฟิกชัน ก็เป็นหนึ่งในกรณีใช้งานหลักของโมเดลประเภทนี้อยู่แล้ว
  • ฉันสงสัยว่าโมเดลเล็ก ๆ เอาไปใช้งานจริงด้านไหนได้บ้าง
    ส่วนใหญ่ดูเหมือนจะเอาไว้สำหรับ การอนุมานบนอุปกรณ์ แล้วมีกรณีอื่นอีกไหม?
    • ในฐานะนักวิจัยของ Ai2 ขอเสริมว่า 7B คือ โมเดลโลคัลสำหรับ GPU ผู้บริโภค ส่วน 32B ใช้งานได้หลากหลายกว่า
      หลายบริษัทอาจย้ายจากโมเดลฟाइनจูน Qwen 3 มาเป็น Olmo 32B ก็ได้
    • ทีมของเราฟাইনจูนโมเดล 7B ให้เป็น ตัวจำแนกเฉพาะโดเมน
      แล้วได้ผลดีกว่าโมเดลขนาดเล็กที่ไม่ใช่ LLM
    • ฉันเปิด Qwen3-30B-VL ค้างไว้ใน VRAM ตลอด
      มันเร็วกว่าแค่ไปค้น Google ธรรมดา และยังจัดการ คำสั่งเทอร์มินัล, การสำรวจไฟล์, และ การจัดระเบียบโน้ต ได้ด้วย
      ด้วยความเร็ว (90tok/s) และ latency ต่ำ มันช่วยให้งานจุกจิกเล็ก ๆ มีประสิทธิภาพขึ้นมาก
      ในทางกลับกัน Sonnet 4.5 ช้าและพลาดแบบก้ำกึ่งจนใช้งานจริงไม่มีประสิทธิภาพ
  • Qwen3-30B-VL แทบจะสมบูรณ์แบบสำหรับการใช้งานประจำวัน
    มันเร็วมาก (90tok/s) และครอบคลุมงานส่วนใหญ่ได้
    งานวิจัยแบบนี้สำคัญก็จริง แต่โมเดล dense คงไล่ความเร็วระดับนี้ได้ยาก
    • ในฐานะนักพัฒนา Olmo ขอเสริมว่าเหตุผลที่โมเดล Qwen เร็วก็เพราะ โครงสร้าง MoE
      ใน Olmo เวอร์ชันถัดไปก็มีแผนจะใช้ MoE เช่นกัน
    • ฉันลองรันบน MacBook เครื่องใหม่แล้วรู้สึกว่าช้า แต่ Qwen2.5:14B กลับให้ฟีดแบ็กได้แทบจะทันที
      แถมยังคุยเป็น ภาษาเอสเปรันโต ได้อย่างเป็นธรรมชาติด้วย
    • สงสัยว่าเหตุผลที่ Qwen3-30B-VL ดู “ฉลาดกว่า” นั้น มาจาก ความต่างด้านสถาปัตยกรรม มากกว่าขนาดล้วน ๆ หรือเปล่า