ฝึกโมเดลระดับ O1 Preview ด้วยตัวเองในราคาไม่เกิน 450 ดอลลาร์

(sky.cs.berkeley.edu)

1 คะแนน โดย GN⁺ 2025-02-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Sky-T1 ของทีม NovaSky จาก UC Berkeley เป็นโปรเจกต์ที่ชูว่าสามารถฝึกโมเดล reasoning ระดับ O1 Preview ได้ด้วยตัวเองในต้นทุน ไม่เกิน 450 ดอลลาร์
o1 และ Gemini 2.0 Flash Thinking แสดงประสิทธิภาพด้าน reasoning ที่แข็งแกร่งในงานซับซ้อน โดยใช้ chain of thought ภายใน ที่ยาว
โมเดลลักษณะนี้ไม่ได้เปิดเผย รายละเอียดทางเทคนิคและ weights ทำให้แวดวงวิชาการและชุมชนโอเพนซอร์สทำซ้ำหรือขยายต่อได้ยาก
เคยมีความพยายามสร้างโมเดล reasoning แบบเปิด weights เช่น Still-2 และ Journey แต่ส่วนใหญ่มุ่งเน้นที่ ด้านคณิตศาสตร์
ทีม NovaSky นำเสนอจุดต่างของ Sky-T1 ว่าสามารถทำ reasoning ได้แข่งขันได้ทั้ง คณิตศาสตร์และการเขียนโค้ด ในโมเดลเดียวกัน

ปัญหาที่ Sky-T1 มุ่งแก้

Sky-T1 เป็นโปรเจกต์ที่เผยแพร่โดยทีม NovaSky ของ UC Berkeley Sky Computing Lab โดยชูประเด็นหลักว่า สามารถฝึกโมเดล O1 Preview ด้วยตัวเองในราคาไม่เกิน 450 ดอลลาร์
โมเดลที่เชี่ยวชาญด้าน reasoning อย่าง o1 และ Gemini 2.0 Flash Thinking แสดงความสามารถในการสร้าง chain of thought ภายใน ที่ยาวเมื่อแก้โจทย์ซับซ้อน
อย่างไรก็ตาม โมเดลกลุ่มนี้ไม่สามารถเข้าถึงรายละเอียดทางเทคนิคและ weights ของโมเดลได้ ทำให้แวดวงวิชาการและชุมชนโอเพนซอร์สเข้ามามีส่วนร่วมโดยตรงได้ยาก

กระแสโมเดล reasoning แบบเปิด weights และจุดแตกต่าง

มีความพยายามฝึกโมเดล reasoning แบบเปิด weights อย่าง Still-2 และ Journey ซึ่งเน้นไปที่ ด้านคณิตศาสตร์
ทีม NovaSky สำรวจ เทคนิคการยกระดับความสามารถด้าน reasoning ของโมเดลพื้นฐานและโมเดลที่ผ่าน instruct-tuning
งาน Sky-T1 เน้นย้ำว่าสามารถบรรลุประสิทธิภาพ reasoning ที่แข่งขันได้ด้วยโมเดลเดียวกัน ไม่เพียงในคณิตศาสตร์ แต่รวมถึง การเขียนโค้ด ด้วย

1 ความคิดเห็น

GN⁺ 2025-02-22

ความคิดเห็นจาก Hacker News

ถ้าสนใจ ผมทำ Colab notebook ที่มี GPU ฟรีไว้ให้แล้ว
เป็นโน้ตบุ๊กสำหรับฝึกโมเดล reasoning ตั้งแต่ต้นด้วย GRPO ซึ่งเป็นอัลกอริทึมที่ DeepSeek ใช้ และโน้ตบุ๊ก fine-tuning ทั่วไปแบบที่ทีม Berkeley ใช้
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
ชุดข้อมูล 17K ของทีม Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k ส่วน Hugging Face ก็เปิดชุดข้อมูล 220K ด้วย: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- สงสัยว่าบน T4 ระดับฟรีจะใช้เวลานานแค่ไหน
  ปกติคิดว่างานแบบ “ลองแตะข้างใน” พวกนี้น่าจะเข้าถึงยากกว่านี้มากสำหรับโปรแกรมเมอร์ทั่วไป แต่ดูเหมือนอยู่ในระดับที่อยากลองเองได้
การใส่ O1 preview ไว้ในชื่อดูแปลก ๆ เหมือน clickbait
ผมคาดหวังว่าจะเป็นวิธีอะไรสักอย่างที่เอา o1 preview มาฝึกใหม่แล้วดาวน์โหลดได้จริง
อีกอย่าง การดูแค่ benchmark 7 ตัวแล้วเรียกว่า O1 preview ก็ไม่ถูกนัก ในบาง use case O1 preview อาจทำได้ดีกว่าโมเดลนี้ก็ได้
ถึงอย่างนั้น ต้นทุนที่ลดลงก็เป็นเรื่องดี
- ผมมองว่าไม่ซื่อตรงเท่าไร เพราะชื่อนี้ไม่ได้แค่พาดพิงถึงโมเดลภาษาใดโมเดลหนึ่ง แต่เจาะจงถึง เวอร์ชันเบต้า ของโมเดลนั้นเลย ไม่เข้าใจจริง ๆ ว่าทำไมต้องทำแบบนั้น
- เห็นด้วย ชื่อ O1 preview ทำให้เข้าใจผิดได้อยู่บ้าง
  มันทำให้คาดหวังถึงความสามารถที่กว้างกว่า benchmark เฉพาะไม่กี่ตัว การลดต้นทุนนั้นเจ๋ง แต่การตลาดควรทำให้ขอบเขตการใช้งานโปร่งใสมากกว่านี้
การแข่งขันเป็นเรื่องดีจริง ๆ
แค่มีใครสักคนเปิดเผย architecture ออกมา ความก้าวหน้าก็ถาโถมเข้ามาในช่วงไม่กี่สัปดาห์ที่ผ่านมา
ถ้าเปิดเผยไปถึงชุดข้อมูลฝึก และไม่ติดพันกับกฎหมายลิขสิทธิ์ด้วย ก็ชวนให้จินตนาการได้ว่าจะไปได้ไกลแค่ไหน ไม่ได้หมายความว่าชวนให้ทำผิดกฎหมายนะ
คงทำได้แค่ฝันจริง ๆ
- คำว่า “ความก้าวหน้าถาโถม” นี่ตรงมาก โดยเฉพาะหลังจากที่เห็นแล้วว่า Meta ใช้อะไรฝึกโมเดล :)
- ชุดข้อมูลฝึก แบบนั้นแทบทั้งหมดมีลิขสิทธิ์คุ้มครองอยู่ จึงไม่มีทางเป็นอิสระได้เลย
- กระแสแบบนั้นกำลังเกิดขึ้นอยู่แล้ว และ DeepSeek ดูเหมือนจะเป็นตัวอย่างหนึ่งในนั้น
  แต่ก็ช่วยดึงความสนใจไปที่ความก้าวหน้านั้น และทำให้คนเข้ามามีส่วนร่วมมากขึ้น รวมถึงค้นหา use case เฉพาะทางมากขึ้น
- บรรยากาศช่วงนี้คือถ้ามีสตาร์ทอัพที่ฮอตที่สุด ก็แค่ทำผิดกฎหมายแล้วติดสินบนข้าราชการไม่ใช่เหรอ? /s
  ต่อจาก /s คือ ครั้งหนึ่งผมเคยอยู่ต่างประเทศและบริหาร Bitcoin casino ที่ฮิตที่สุดในตอนนั้น ใช้เงินและพลังงานมหาศาลเพื่อกันผู้เล่นที่อาจเป็นคนอเมริกันออกไป เลยไม่ได้ทำเงินก้อนใหญ่อะไร
  ผมเคยคำนวณว่าต้องทำเงินแค่ไหนถึงจะทำผิดกฎหมายแล้วหลบซ่อนอยู่ได้ตลอดไป และคิดว่าถึงจะทำได้ปีละ 10–15 ล้านดอลลาร์ ก็ยังไม่พอให้ซ่อนตัวได้ ผมน่าจะพลาดเอง
  คนที่รวยที่สุดในโลกทำเงินส่วนใหญ่ช่วงแรกจากการเป็นตัวกลางธุรกรรมการพนัน และตอนนี้ก็เข้าไปยุ่งกับทุกหน่วยงานรัฐบาลกลาง ดูเหมือนผมน่าจะต้องมีความกล้าขออภัยทีหลังแทนขออนุญาตก่อน
ในการ deploy AI จริง การคำนวณตอน inference ยังถูกใช้น้อยกว่าที่ควรมาก
หลายคนกำลังสร้าง foundation model ที่ต้อง reasoning ได้ในโดเมนปัญหากว้าง ๆ แต่ยังมีคนไม่มากพอที่ใช้เทคนิคเดียวกันเพื่อเพิ่มประสิทธิภาพเฉพาะงาน
เราสามารถ distill reasoning ของโมเดลที่ใหญ่กว่าอย่าง R1 ให้เข้ากับงานเฉพาะได้ง่าย ๆ ยิ่งไปกว่านั้น ถ้าผสมคำสั่งการคิดแบบปรับแต่งสำหรับปัญหาย่อยเฉพาะเข้าไป โมเดลที่ fine-tune แล้วก็จะเรียนรู้ทั้ง reasoning เฉพาะงานและ logic แบบปรับแต่งไปพร้อมกัน
ไม่ยาก และชนะการปรับ prompt ซ้ำ ๆ ได้ง่าย ถ้าเจอบั๊กก็แก้ได้ด้วย
ผมทำโปรเจกต์ GitHub สำหรับการ distill โมเดลคิด และการ fine-tuning ตอน inference สำหรับกระบวนการคิดแบบปรับแต่งไว้แล้ว: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- สงสัยว่าควรจัดทำข้อมูล fine-tuning สำหรับ ช่วงคำถามที่ยืดหยุ่น ภายในโดเมนปัญหาเฉพาะอย่างไร ไม่ใช่งานที่แยกโดด ๆ
  คล้ายกับการ tuning instruction ทั่วไป แต่มีโฟกัสแคบกว่ามาก
  เช่น สมมติว่าจะทำแอปที่ช่วยแพทย์ค้นวรรณกรรมวิจัยเพื่อช่วยวินิจฉัยและตรวจสอบสมมติฐาน แน่นอนว่าต้องอาศัยผู้เชี่ยวชาญโดเมนและผู้ใช้จริงเพื่อดูว่าควรสร้างคำถามแบบไหน
  แต่หลังจากนั้น กระบวนการไปสู่ชุดข้อมูลที่สมดุลและเป็นตัวแทนของการกระจายของคำถาม คำสั่ง สไตล์การเขียนและสไตล์การคิด รูปแบบ ลำดับการสนทนา ฯลฯ ที่เป็นไปได้อย่างเพียงพอนั้น รู้สึกว่ายังยากจะรู้ว่าควรเข้าหาอย่างไร ดูเหมือนมีมิติที่อาจเผลอ overfit ได้ไม่รู้จบ
บล็อกโพสต์ค่อนข้างไม่ชัดเจน ผมเข้าใจแบบนี้
ใช้ QwQ สร้างข้อมูลฝึก และใช้ GPT-4o-mini ทำความสะอาดบางส่วน จากนั้นนำข้อมูลฝึกนั้นไป fine-tune Qwen2.5-32B-Instruct ซึ่งเป็นโมเดลที่ไม่ใช่ reasoning model
ผลคือ Sky-T1 ทำงาน reasoning ได้ด้อยกว่า QwQ เล็กน้อย แต่ดีกว่า Qwen2.5 มาก
มีบางคนตอบแบบดูแคลนเรื่องนี้ แต่ผมว่ามันค่อนข้างน่าสนใจ เพราะแสดงให้เห็นว่าสามารถ fine-tune โมเดลฐานให้ reasoning ได้ดีขึ้น
- น่าจะดีถ้าได้เทียบกับ โมเดล r1 distillation ของ qwen2.5 ด้วย
นี่ไม่ใช่การฝึกตั้งแต่ต้น แต่เป็น fine-tuning เลยดูเป็นข้อเสนอที่สมเหตุสมผลกว่ามาก
ถึงผมจะไม่ได้ลงลึกในสายนี้ แต่ในฐานะคนที่อยากรู้รายละเอียดของ fine-tuning การที่ดาวน์โหลดได้ทั้งชุดข้อมูลและโค้ดถือว่าดี
URL ที่ดีกว่า: https://novasky-ai.github.io/posts/sky-t1/
- การอภิปรายก่อนหน้านี้อยู่ที่นี่: https://news.ycombinator.com/item?id=42681417
ฝึกด้วย ร่องรอย reasoning ของ QwQ และในการประเมินส่วนใหญ่ก็ด้อยกว่า QwQ เล็กน้อย
ยังมองว่าเป็นผลงานที่ยิ่งใหญ่มากไม่ได้
ส่วนสำคัญน่าจะอยู่ตรงนี้: “การฝึกโมเดลเสร็จใน 19 ชั่วโมงบน H100 8 ตัว ด้วย DeepSpeed Zero-3 offloading และคิดเป็นราว 450 ดอลลาร์ตามราคาของ Lambda Cloud”

ฝึกโมเดลระดับ O1 Preview ด้วยตัวเองในราคาไม่เกิน 450 ดอลลาร์

ปัญหาที่ Sky-T1 มุ่งแก้

กระแสโมเดล reasoning แบบเปิด weights และจุดแตกต่าง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News