14 คะแนน โดย GN⁺ 2025-02-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • งานวิจัยใหม่ "s1: Simple test-time scaling" ที่เผยแพร่เมื่อวันที่ 3 กุมภาพันธ์ กำลังเป็นประเด็นร้อนในวงการ AI
  • ประเด็นสำคัญไม่ใช่ตัวโมเดลเอง แต่คือการชี้ให้เห็นว่าอาจเกิดความก้าวหน้าครั้งใหญ่ในวงการ AI ได้
  • โมเดลนี้ยังไม่ถึงระดับเทคโนโลยีล้ำหน้าสุด (SOTA) แต่เป็นโมเดลขนาดเล็กที่รันได้แม้บนโน้ตบุ๊ก
  • สิ่งสำคัญคือมันช่วยให้เข้าใจได้ว่าเทคนิคนี้ทำงานอย่างไรโดยไม่ต้องมีเนื้อหาซับซ้อน

การขยายการให้เหตุผล: "เดี๋ยวก่อน" เพื่อฉัน!

  • OpenAI เคยแสดงกราฟพร้อมข้ออ้างว่า "ยิ่งใช้เวลาให้เหตุผลนานขึ้น ประสิทธิภาพของ LLM ก็ยิ่งดีขึ้น"
  • โดยพื้นฐานแล้ว หาก LLM สามารถ "คิด" ได้นานขึ้น ก็จะให้ประสิทธิภาพที่สูงขึ้นได้
  • ปัญหาคือจะควบคุมอย่างไรให้โมเดลใช้เวลา "คิด" นานขึ้นก่อนตอบ และก่อนหน้านี้ก็ยังมีคำอธิบายไม่มากนักว่าจะทำแบบนั้นได้อย่างไร
  • งานวิจัย s1 อธิบายส่วนนี้ไว้อย่างละเอียด และน่าสนใจมาก
    > เมื่อ LLM "คิด" ระหว่างการให้เหตุผล มันจะเก็บกระบวนการคิดภายในของโมเดลไว้ในแท็ก <think> และ </think> และเมื่อ </think> ปรากฏขึ้น ก็จะถูกฝึกให้เปลี่ยนน้ำเสียงเป็นแบบมั่นใจและมีอำนาจเพื่อให้คำตอบสุดท้าย
  • ในงานวิจัย s1 มีการอธิบายเทคนิคง่ายๆ ที่บังคับแทนที่ "</think>" ด้วย "Wait" เพื่อให้โมเดลใช้เวลาครุ่นคิดนานขึ้น
    • การลบหรือแทนที่ "</think>" ช่วยชักนำให้โมเดลคิดต่อไปเรื่อยๆ
    • และยังสามารถตัดการให้เหตุผลให้สั้นลงได้ด้วยการแทรก "</think>" เข้าไปแบบกะทันหัน
  • ด้วยวิธีนี้ จึงมีการคาดว่าโมเดลอย่าง o3-mini-low และ o3-mini-high น่าจะถูกฝึกให้มีเวลาให้เหตุผลเฉลี่ยต่างกัน
    • พวกเขาอาจฝึกโมเดลไว้ 3 ตัว โดยแต่ละตัวมีเวลาใช้คิดเฉลี่ยต่างกัน (วัดระหว่างการฝึก)
    • ท้ายที่สุด กระบวนการฝึกก็เริ่มเข้ารหัสพฤติกรรมนั้นลงไปในค่าน้ำหนักของโมเดล

ความเชื่อมโยงกับ Entropix

  • เทคนิค "Wait" ที่เสนอในงานวิจัย s1 ไม่ได้ต่างจากแนวทางที่ Entropix พยายามทำมากนัก
  • Entropix เป็นเทคนิคที่เปลี่ยนวิธีเลือกโทเคนโดยดูจากเอนโทรปีของ logit และ attention รวมถึง varentropy
    • ดูเหมือนว่าจะพยายามทำให้โมเดลทบทวนคำตอบของตัวเองผ่านโทเคนอย่าง "Wait"
  • คาดว่าแนวทางแบบนี้สามารถนำไปใช้ได้ทั้งในช่วง inference time และช่วงการฝึก

การประหยัดข้อมูลแบบสุดขั้ว

  • เหตุผลที่มีการอ้างว่าโมเดล s1 ถูกพัฒนาด้วยเงินเพียง 6 ดอลลาร์ ก็เพราะมันใช้ โมเดลขนาดเล็ก และฝึกด้วยข้อมูลปริมาณน้อย
  • แนวทางที่ใช้คือคัดตัวอย่างที่มีคุณค่ามากที่สุดเพียง 1K จากข้อมูลตัวอย่างทั้งหมด 56K
    • ข้อสรุปคือข้อมูลเพิ่มเติมไม่ได้ช่วยเพิ่มประสิทธิภาพของโมเดลเลย
  • เนื่องจากเป็นโมเดลขนาด 32B จึงสามารถรันบนโน้ตบุ๊กได้
  • มีการใช้ NVIDIA H100 จำนวน 16 ตัวเป็นเวลาประมาณ 26 นาที ซึ่งประเมินค่าใช้จ่ายได้ราว 6 ดอลลาร์
  • เพราะต้นทุนต่ำ จึงสามารถลองการทดลองจำนวนมาก (ablations) ได้ และก็มีการฝึกใหม่ทั้งชุดซ้ำหลายครั้งโดยค่อยๆ ปรับตัวแปรต่างๆ
    • เช่น วัดโดยตรงว่าโทเคนระหว่าง "Wait" กับ "Hmm" แบบไหนมีประสิทธิภาพมากกว่า
    • รวมถึงทดลองด้วยว่าส่วนใดของข้อมูลตัวอย่างสำคัญให้สัญญาณที่มีความหมายมากที่สุด

นัยทางภูมิรัฐศาสตร์

  • มีมุมมองว่า AI เชื่อมโยงอย่างใกล้ชิดกับความมั่นคงของชาติ
  • นี่คือเหตุผลที่บริษัทอย่าง OpenAI และ Anthropic ทุ่มงบประมาณมหาศาล
  • แม้จะมีนวัตกรรมลดต้นทุนอย่าง s1 เกิดขึ้น แต่การมีเงินทุนมหาศาลก็ยังสำคัญ เพราะทำให้สามารถทดลองสิ่งต่างๆ จำนวนมากพร้อมกันได้
  • ยังมีข้อถกเถียงด้วยว่าจำเป็นต้องลงทุนให้มากขึ้นเพื่อเร่งความเร็วของพัฒนาการ AI

Distealing (การกลั่นโมเดลโดยไม่ได้รับอนุญาต)

  • โดยพื้นฐานแล้ว ชุดข้อมูลของ s1 คือผลลัพธ์จากการกลั่น (distillation) โดยใช้ thought trace ของโมเดลอื่น (Qwen2.5)
  • OpenAI กำลังสงสัยว่า DeepSeek ได้นำโมเดล o1 ของตนไปกลั่นโดยไม่ได้รับอนุญาตเพื่อสร้างโมเดล V3
  • อย่างไรก็ตาม ในทางปฏิบัติ การป้องกันการกลั่นแบบนี้ทำได้ยากขึ้นเรื่อยๆ
    • ตัวอย่างราว 1,000 รายการนั้นอยู่ในระดับที่บุคคลทั่วไปก็สามารถเก็บรวบรวมได้
  • เหตุผลที่ OpenAI ช่วงหลังเลือกเปิดตัวโมเดล o3 ในรูปแบบเอเจนต์แทนการปล่อยโมเดลตรงๆ ก็ดูเหมือนจะเป็นความพยายามเพื่อป้องกันการกลั่นโดยไม่ได้รับอนุญาตเช่นกัน

บทสรุป

  • การมาของ s1 เป็นตัวอย่างที่ชัดเจนว่า AI กำลังวิวัฒน์อย่างรวดเร็วเพียงใดในโลกเปิด
  • บริษัทอย่าง OpenAI และ Anthropic มีแนวโน้มจะสร้างความก้าวหน้าได้เร็วกว่าเดิมมาก ด้วยการใช้ทรัพยากรคอมพิวต์ที่มหาศาลกว่า
  • s1 ไม่ได้เป็นการคัดลอก R1 หรือ o1 ตรงๆ แต่ชี้ให้เห็นว่าแม้ใช้เพียง SFT (Supervised Fine Tuning) แทน RL ก็ยังอาจเปิดทางไปสู่ความเป็นไปได้ที่คล้ายกันได้
  • มีการคาดการณ์ว่าในปี 2025 จะได้เห็นนวัตกรรมที่ใหญ่กว่านี้อีก

2 ความคิดเห็น

 
hoonix 2025-02-06

การเล่นคำจาก Distillation เป็น Distealing นี่ตลกดีนะ!

 
GN⁺ 2025-02-06
ความคิดเห็นจาก Hacker News
  • การขยายการให้เหตุผลด้วยการแฮ็กคำว่า 'Wait' น่าสนใจมาก ในแง่ที่ว่าวิธีง่าย ๆ ก็สามารถส่งผลต่อประสิทธิภาพได้ จนทำให้ความก้าวหน้าของวิทยาการคอมพิวเตอร์ดูคล้ายกับการร่ายคาถา เลยสงสัยว่าควรเริ่มต้นกรอบความคิดแบบนี้อย่างไร

  • หากกระแสความคิดทำหน้าที่เป็นบัฟเฟอร์สำหรับประมวลผลข้อความโดยมอบ 'เลเยอร์' ชั่วคราวให้กับโมเดล ก็สงสัยว่าการทำให้บัฟเฟอร์นี้เป็นคอนเท็กซ์แยกต่างหากที่มี FNN และกลไก attention ของตัวเองจะมีความหมายหรือไม่ ซึ่งอาจผสานกับไมโครโปรเซสที่อธิบายด้วยภาษาธรรมชาติเพื่อให้การแสดงออกของ 'ความคิด' มีความหนาแน่นมากขึ้น

  • CoT เป็นเทคนิคที่รู้จักกันอย่างแพร่หลายอยู่แล้ว แต่ DeepSeek มุ่งเน้นไปที่การค้นหาการเพิ่มประสิทธิภาพด้านหน่วยความจำ แบนด์วิดท์ และการทำงานแบบขนาน เนื่องจากข้อจำกัดด้านคอมพิวต์ การเพิ่มประสิทธิภาพในระดับโครงสร้างพื้นฐานและซอฟต์แวร์ของพวกเขานั้นน่าจับตามอง

  • คิดว่าเบนช์มาร์กในปัจจุบันยังแข็งแกร่งไม่พอ และห้องแล็บ LLM ในสหรัฐฯ ก็น่าจะตระหนักถึงการขาดการเพิ่มประสิทธิภาพด้านโครงสร้างพื้นฐานและฮาร์ดแวร์ ระดับของ RL และการฝึกตั้งต้นจะยิ่งสำคัญมากขึ้น

  • น่าสนใจที่วิธีการที่ทดลองผ่านการแฮ็ก AI ก็ถูกใช้ในห้องแล็บเช่นกัน เคยใช้วิธีแทนที่ด้วย 'Okay' เพื่อให้ R1 คิดต่อไปเรื่อย ๆ

  • บุ๊กมาร์กบล็อกของ Tim ไว้แล้ว ความก้าวหน้าในด้าน AI และโครงข่ายประสาทน่าทึ่งมาก ส่วนตัวกำลังลำบากกับการสร้างเอเจนต์ที่ใช้ LLM บนโมเดล on-device ที่ค่อนข้างอ่อน

  • การมี H100 จำนวน 10,000 ตัว หมายความว่าสามารถทำการทดลองได้มากกว่า S1 ถึง 625 เท่า บริษัทใหญ่ ๆ มักมีแนวโน้มจะใช้ทรัพยากรคอมพิวต์อย่างสิ้นเปลือง

  • วิธีควบคุมความยาวเอาต์พุตของโมเดลให้เหตุผลนั้นน่าสนใจ พบวิธีแทนที่ด้วย 'Wait' เพื่อฉีด CoT และทำให้แหกข้อจำกัดได้ง่ายขึ้น

  • ให้ลิงก์ไปยังบทความต้นฉบับเกี่ยวกับ S1

  • ในองค์กรขนาดใหญ่ไม่สามารถทำการทดลองได้มากนัก และพนักงานก็โฟกัสกับการสร้างผลลัพธ์อย่างรวดเร็ว ทำงานกันอย่างเร่งรีบเพื่อผลประโยชน์ระยะสั้น

  • การปั้นเอาต์พุตของ LLM ก็เหมือนการสร้างงานประติมากรรม ต้องนำโมเดลเข้าไปไว้ในลูปของเกมและโต้ตอบทุก ๆ tick เพื่อให้ได้ผลลัพธ์ที่ต้องการ ความกระหายต่อทรัพยากรคอมพิวต์จะยังคงดำเนินต่อไป