S1: คู่แข่งของ R1 ในราคา $6?

(timkellogg.me)

14 คะแนน โดย GN⁺ 2025-02-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัยใหม่ "s1: Simple test-time scaling" ที่เผยแพร่เมื่อวันที่ 3 กุมภาพันธ์ กำลังเป็นประเด็นร้อนในวงการ AI
ประเด็นสำคัญไม่ใช่ตัวโมเดลเอง แต่คือการชี้ให้เห็นว่าอาจเกิดความก้าวหน้าครั้งใหญ่ในวงการ AI ได้
โมเดลนี้ยังไม่ถึงระดับเทคโนโลยีล้ำหน้าสุด (SOTA) แต่เป็นโมเดลขนาดเล็กที่รันได้แม้บนโน้ตบุ๊ก
สิ่งสำคัญคือมันช่วยให้เข้าใจได้ว่าเทคนิคนี้ทำงานอย่างไรโดยไม่ต้องมีเนื้อหาซับซ้อน

การขยายการให้เหตุผล: "เดี๋ยวก่อน" เพื่อฉัน!

OpenAI เคยแสดงกราฟพร้อมข้ออ้างว่า "ยิ่งใช้เวลาให้เหตุผลนานขึ้น ประสิทธิภาพของ LLM ก็ยิ่งดีขึ้น"
โดยพื้นฐานแล้ว หาก LLM สามารถ "คิด" ได้นานขึ้น ก็จะให้ประสิทธิภาพที่สูงขึ้นได้
ปัญหาคือจะควบคุมอย่างไรให้โมเดลใช้เวลา "คิด" นานขึ้นก่อนตอบ และก่อนหน้านี้ก็ยังมีคำอธิบายไม่มากนักว่าจะทำแบบนั้นได้อย่างไร
งานวิจัย s1 อธิบายส่วนนี้ไว้อย่างละเอียด และน่าสนใจมาก
> เมื่อ LLM "คิด" ระหว่างการให้เหตุผล มันจะเก็บกระบวนการคิดภายในของโมเดลไว้ในแท็ก <think> และ </think> และเมื่อ </think> ปรากฏขึ้น ก็จะถูกฝึกให้เปลี่ยนน้ำเสียงเป็นแบบมั่นใจและมีอำนาจเพื่อให้คำตอบสุดท้าย
ในงานวิจัย s1 มีการอธิบายเทคนิคง่ายๆ ที่บังคับแทนที่ "</think>" ด้วย "Wait" เพื่อให้โมเดลใช้เวลาครุ่นคิดนานขึ้น
- การลบหรือแทนที่ "</think>" ช่วยชักนำให้โมเดลคิดต่อไปเรื่อยๆ
- และยังสามารถตัดการให้เหตุผลให้สั้นลงได้ด้วยการแทรก "</think>" เข้าไปแบบกะทันหัน
ด้วยวิธีนี้ จึงมีการคาดว่าโมเดลอย่าง o3-mini-low และ o3-mini-high น่าจะถูกฝึกให้มีเวลาให้เหตุผลเฉลี่ยต่างกัน
- พวกเขาอาจฝึกโมเดลไว้ 3 ตัว โดยแต่ละตัวมีเวลาใช้คิดเฉลี่ยต่างกัน (วัดระหว่างการฝึก)
- ท้ายที่สุด กระบวนการฝึกก็เริ่มเข้ารหัสพฤติกรรมนั้นลงไปในค่าน้ำหนักของโมเดล

ความเชื่อมโยงกับ Entropix

เทคนิค "Wait" ที่เสนอในงานวิจัย s1 ไม่ได้ต่างจากแนวทางที่ Entropix พยายามทำมากนัก
Entropix เป็นเทคนิคที่เปลี่ยนวิธีเลือกโทเคนโดยดูจากเอนโทรปีของ logit และ attention รวมถึง varentropy
- ดูเหมือนว่าจะพยายามทำให้โมเดลทบทวนคำตอบของตัวเองผ่านโทเคนอย่าง "Wait"
คาดว่าแนวทางแบบนี้สามารถนำไปใช้ได้ทั้งในช่วง inference time และช่วงการฝึก

การประหยัดข้อมูลแบบสุดขั้ว

เหตุผลที่มีการอ้างว่าโมเดล s1 ถูกพัฒนาด้วยเงินเพียง 6 ดอลลาร์ ก็เพราะมันใช้ โมเดลขนาดเล็ก และฝึกด้วยข้อมูลปริมาณน้อย
แนวทางที่ใช้คือคัดตัวอย่างที่มีคุณค่ามากที่สุดเพียง 1K จากข้อมูลตัวอย่างทั้งหมด 56K
- ข้อสรุปคือข้อมูลเพิ่มเติมไม่ได้ช่วยเพิ่มประสิทธิภาพของโมเดลเลย
เนื่องจากเป็นโมเดลขนาด 32B จึงสามารถรันบนโน้ตบุ๊กได้
มีการใช้ NVIDIA H100 จำนวน 16 ตัวเป็นเวลาประมาณ 26 นาที ซึ่งประเมินค่าใช้จ่ายได้ราว 6 ดอลลาร์
เพราะต้นทุนต่ำ จึงสามารถลองการทดลองจำนวนมาก (ablations) ได้ และก็มีการฝึกใหม่ทั้งชุดซ้ำหลายครั้งโดยค่อยๆ ปรับตัวแปรต่างๆ
- เช่น วัดโดยตรงว่าโทเคนระหว่าง "Wait" กับ "Hmm" แบบไหนมีประสิทธิภาพมากกว่า
- รวมถึงทดลองด้วยว่าส่วนใดของข้อมูลตัวอย่างสำคัญให้สัญญาณที่มีความหมายมากที่สุด

นัยทางภูมิรัฐศาสตร์

มีมุมมองว่า AI เชื่อมโยงอย่างใกล้ชิดกับความมั่นคงของชาติ
นี่คือเหตุผลที่บริษัทอย่าง OpenAI และ Anthropic ทุ่มงบประมาณมหาศาล
แม้จะมีนวัตกรรมลดต้นทุนอย่าง s1 เกิดขึ้น แต่การมีเงินทุนมหาศาลก็ยังสำคัญ เพราะทำให้สามารถทดลองสิ่งต่างๆ จำนวนมากพร้อมกันได้
ยังมีข้อถกเถียงด้วยว่าจำเป็นต้องลงทุนให้มากขึ้นเพื่อเร่งความเร็วของพัฒนาการ AI

Distealing (การกลั่นโมเดลโดยไม่ได้รับอนุญาต)

โดยพื้นฐานแล้ว ชุดข้อมูลของ s1 คือผลลัพธ์จากการกลั่น (distillation) โดยใช้ thought trace ของโมเดลอื่น (Qwen2.5)
OpenAI กำลังสงสัยว่า DeepSeek ได้นำโมเดล o1 ของตนไปกลั่นโดยไม่ได้รับอนุญาตเพื่อสร้างโมเดล V3
อย่างไรก็ตาม ในทางปฏิบัติ การป้องกันการกลั่นแบบนี้ทำได้ยากขึ้นเรื่อยๆ
- ตัวอย่างราว 1,000 รายการนั้นอยู่ในระดับที่บุคคลทั่วไปก็สามารถเก็บรวบรวมได้
เหตุผลที่ OpenAI ช่วงหลังเลือกเปิดตัวโมเดล o3 ในรูปแบบเอเจนต์แทนการปล่อยโมเดลตรงๆ ก็ดูเหมือนจะเป็นความพยายามเพื่อป้องกันการกลั่นโดยไม่ได้รับอนุญาตเช่นกัน

บทสรุป

การมาของ s1 เป็นตัวอย่างที่ชัดเจนว่า AI กำลังวิวัฒน์อย่างรวดเร็วเพียงใดในโลกเปิด
บริษัทอย่าง OpenAI และ Anthropic มีแนวโน้มจะสร้างความก้าวหน้าได้เร็วกว่าเดิมมาก ด้วยการใช้ทรัพยากรคอมพิวต์ที่มหาศาลกว่า
s1 ไม่ได้เป็นการคัดลอก R1 หรือ o1 ตรงๆ แต่ชี้ให้เห็นว่าแม้ใช้เพียง SFT (Supervised Fine Tuning) แทน RL ก็ยังอาจเปิดทางไปสู่ความเป็นไปได้ที่คล้ายกันได้
มีการคาดการณ์ว่าในปี 2025 จะได้เห็นนวัตกรรมที่ใหญ่กว่านี้อีก

2 ความคิดเห็น

hoonix 2025-02-06

การเล่นคำจาก Distillation เป็น Distealing นี่ตลกดีนะ!

GN⁺ 2025-02-06

ความคิดเห็นจาก Hacker News

การขยายการให้เหตุผลด้วยการแฮ็กคำว่า 'Wait' น่าสนใจมาก ในแง่ที่ว่าวิธีง่าย ๆ ก็สามารถส่งผลต่อประสิทธิภาพได้ จนทำให้ความก้าวหน้าของวิทยาการคอมพิวเตอร์ดูคล้ายกับการร่ายคาถา เลยสงสัยว่าควรเริ่มต้นกรอบความคิดแบบนี้อย่างไร
หากกระแสความคิดทำหน้าที่เป็นบัฟเฟอร์สำหรับประมวลผลข้อความโดยมอบ 'เลเยอร์' ชั่วคราวให้กับโมเดล ก็สงสัยว่าการทำให้บัฟเฟอร์นี้เป็นคอนเท็กซ์แยกต่างหากที่มี FNN และกลไก attention ของตัวเองจะมีความหมายหรือไม่ ซึ่งอาจผสานกับไมโครโปรเซสที่อธิบายด้วยภาษาธรรมชาติเพื่อให้การแสดงออกของ 'ความคิด' มีความหนาแน่นมากขึ้น
CoT เป็นเทคนิคที่รู้จักกันอย่างแพร่หลายอยู่แล้ว แต่ DeepSeek มุ่งเน้นไปที่การค้นหาการเพิ่มประสิทธิภาพด้านหน่วยความจำ แบนด์วิดท์ และการทำงานแบบขนาน เนื่องจากข้อจำกัดด้านคอมพิวต์ การเพิ่มประสิทธิภาพในระดับโครงสร้างพื้นฐานและซอฟต์แวร์ของพวกเขานั้นน่าจับตามอง
คิดว่าเบนช์มาร์กในปัจจุบันยังแข็งแกร่งไม่พอ และห้องแล็บ LLM ในสหรัฐฯ ก็น่าจะตระหนักถึงการขาดการเพิ่มประสิทธิภาพด้านโครงสร้างพื้นฐานและฮาร์ดแวร์ ระดับของ RL และการฝึกตั้งต้นจะยิ่งสำคัญมากขึ้น
น่าสนใจที่วิธีการที่ทดลองผ่านการแฮ็ก AI ก็ถูกใช้ในห้องแล็บเช่นกัน เคยใช้วิธีแทนที่ด้วย 'Okay' เพื่อให้ R1 คิดต่อไปเรื่อย ๆ
บุ๊กมาร์กบล็อกของ Tim ไว้แล้ว ความก้าวหน้าในด้าน AI และโครงข่ายประสาทน่าทึ่งมาก ส่วนตัวกำลังลำบากกับการสร้างเอเจนต์ที่ใช้ LLM บนโมเดล on-device ที่ค่อนข้างอ่อน
การมี H100 จำนวน 10,000 ตัว หมายความว่าสามารถทำการทดลองได้มากกว่า S1 ถึง 625 เท่า บริษัทใหญ่ ๆ มักมีแนวโน้มจะใช้ทรัพยากรคอมพิวต์อย่างสิ้นเปลือง
วิธีควบคุมความยาวเอาต์พุตของโมเดลให้เหตุผลนั้นน่าสนใจ พบวิธีแทนที่ด้วย 'Wait' เพื่อฉีด CoT และทำให้แหกข้อจำกัดได้ง่ายขึ้น
ให้ลิงก์ไปยังบทความต้นฉบับเกี่ยวกับ S1
ในองค์กรขนาดใหญ่ไม่สามารถทำการทดลองได้มากนัก และพนักงานก็โฟกัสกับการสร้างผลลัพธ์อย่างรวดเร็ว ทำงานกันอย่างเร่งรีบเพื่อผลประโยชน์ระยะสั้น
การปั้นเอาต์พุตของ LLM ก็เหมือนการสร้างงานประติมากรรม ต้องนำโมเดลเข้าไปไว้ในลูปของเกมและโต้ตอบทุก ๆ tick เพื่อให้ได้ผลลัพธ์ที่ต้องการ ความกระหายต่อทรัพยากรคอมพิวต์จะยังคงดำเนินต่อไป

S1: คู่แข่งของ R1 ในราคา $6?

การขยายการให้เหตุผล: "เดี๋ยวก่อน" เพื่อฉัน!

ความเชื่อมโยงกับ Entropix

การประหยัดข้อมูลแบบสุดขั้ว

นัยทางภูมิรัฐศาสตร์

Distealing (การกลั่นโมเดลโดยไม่ได้รับอนุญาต)

บทสรุป

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News