5 คะแนน โดย GN⁺ 2024-03-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ฝึก LLM ตั้งแต่ต้นจนเสร็จสมบูรณ์

  • มีความสนใจอย่างมากต่อประสบการณ์ของ Reka ในการฝึกโมเดลภาษาหลายรูปแบบที่ทรงพลังได้สำเร็จ
  • แบ่งปันความท้าทายและบทเรียนจากการสร้างโครงสร้างพื้นฐานและการฝึกโมเดลภาษาขนาดใหญ่รวมถึงโมเดลหลายรูปแบบตั้งแต่ศูนย์
  • หวังว่าโพสต์นี้จะทั้งน่าสนใจและให้ความรู้แก่ผู้คนจำนวนมาก

ลอตเตอรี่ฮาร์ดแวร์ในยุค LLM

  • สิ่งจำเป็นอันดับแรกสำหรับการฝึกโมเดลคือการจัดหาพลังประมวลผล
  • รู้สึกประหลาดใจกับความไม่เสถียรของผู้ให้บริการคอมพิวต์ และความแตกต่างด้านคุณภาพของคลัสเตอร์ ตัวเร่งความเร็ว และการเชื่อมต่อ
  • ความต่างของคุณภาพฮาร์ดแวร์มีมาก และสำหรับการฝึกแล้วมันเหมือนกับ 'ลอตเตอรี่ฮาร์ดแวร์' จริง ๆ

GPU เทียบกับ TPU

  • ที่ Reka ใช้ GPU เป็นหลักในการฝึกโมเดล
  • เมื่อเทียบกับประสบการณ์การใช้ TPU ที่ Google ก็ประหลาดใจกับอัตราการล้มเหลวของ GPU
  • ความสามารถของทีมฮาร์ดแวร์มีความสำคัญ และยิ่งตอกย้ำแนวคิดเรื่อง 'ลอตเตอรี่ฮาร์ดแวร์'

ความเจ็บปวดของการตั้งค่าแบบหลายคลัสเตอร์

  • แนวคิดที่ต้องตั้งค่าสภาพแวดล้อมใหม่บนหลายคลัสเตอร์เป็นสิ่งที่ไม่คุ้นเคย
  • การมีพูลตัวเร่งความเร็วจากหลายคลัสเตอร์เป็นสิ่งที่หลีกเลี่ยงไม่ได้
  • มีความยุ่งยากในการจัดการข้อมูลขนาดใหญ่ และการทำสำเนาข้อมูลไม่ใช่เรื่องง่ายเมื่ออยู่ในสเกลใหญ่

โค้ดในโลกจริง

  • T5X และ MeshTensorflow เคยเป็นโค้ดเบสที่ชื่นชอบ แต่ภายนอก Google มีการรองรับน้อยและใช้งานยาก
  • เลือกใช้ PyTorch ที่เข้าถึงได้ง่ายกว่า
  • รู้สึกว่าคุณภาพของโค้ดเบสภายนอกด้อยกว่าภายใน Google

ยึดหลักการน้อยลง, Yolo มากขึ้น

  • ตามหลักแล้วควรขยายโมเดลอย่างเป็นระบบ แต่ในสตาร์ทอัปมีทรัพยากรคอมพิวต์น้อย จึงต้องรันแบบ Yolo หลายครั้ง
  • การฝึกโมเดลที่ทรงพลังด้วยจำนวนครั้งทดลองที่จำกัดเป็นเรื่องท้าทาย

สรุป

  • ประสบการณ์ในโลกจริงนั้นทั้งน่าสนใจแต่ก็เจ็บปวด
  • การขาดแคลนทรัพยากรคอมพิวต์และผู้ให้บริการที่ไม่เสถียรทำให้ยากกว่าที่คาดไว้ แต่ก็เอาชนะได้ด้วยพลังทางเทคนิค
  • เล่าเพียงบางส่วนของกระบวนการตั้งบริษัท ระดมทุน ซื้อชิป เพื่อแข่งขันกับ Gemini pro/GPT 3.5 และเหนือกว่าผู้อื่นอีกมากมาย

ความเห็นของ GN⁺

  • บทความนี้แสดงให้เห็นปัญหาและความท้าทายจริงที่สตาร์ทอัปต้องเผชิญเมื่อฝึกโมเดลภาษาขนาดใหญ่ตั้งแต่ศูนย์ได้เป็นอย่างดี ซึ่งอาจมอบอินไซต์ที่สมจริงให้กับวิศวกรซอฟต์แวร์ระดับเริ่มต้น
  • ความสำคัญของการเลือกฮาร์ดแวร์ รวมถึงความแตกต่างของอัตราการล้มเหลวและระดับการรองรับ เป็นสิ่งที่สตาร์ทอัปหรือบริษัทขนาดเล็กต้องพิจารณาอย่างยิ่งเมื่อเริ่มโครงการใหญ่
  • บทความนี้เน้นข้อจำกัดทางเทคนิคที่สตาร์ทอัปต้องเผชิญเมื่อเทียบกับโครงสร้างพื้นฐานของบริษัทใหญ่เช่น Google ซึ่งแสดงให้เห็นว่าทำไมสตาร์ทอัปจึงต้องระมัดระวังในการเลือกเทคโนโลยี
  • บทความนี้ชี้ให้เห็นว่ากระบวนการสร้างโครงสร้างพื้นฐานและเครื่องมือที่จำเป็นสำหรับการฝึกโมเดลขนาดใหญ่ในสตาร์ทอัปอาจซับซ้อนและยากลำบากมาก ซึ่งเป็นปัจจัยสำคัญในการเลือกผู้ให้บริการคลาวด์หรือการตัดสินใจสร้างฮาร์ดแวร์เอง
  • แม้จะมีปัญหาและความท้าทายทางเทคนิค แต่ก็ส่งสารเชิงบวกว่า สตาร์ทอัปสามารถเอาชนะความยากลำบากและสร้างผลลัพธ์ที่ประสบความสำเร็จได้ด้วยพลังทางเทคนิค

1 ความคิดเห็น

 
GN⁺ 2024-03-08
ความเห็นจาก Hacker News
  • สตาร์ตอัปในที่นี้หมายถึงองค์กรที่มีคนจำนวนน้อยแต่มีเงินทุนจำนวนมากพอจะลงทุนกับคลัสเตอร์สำหรับฝึกโมเดล บทความอธิบายว่าทั้งสตาร์ตอัปจำนวนมากและบริษัทเดิมต่างก็เช่าเซิร์ฟเวอร์มาใช้งาน ผู้สร้าง LLM (Large Language Model) ส่วนใหญ่ฝึกโมเดลด้วยฮาร์ดแวร์และข้อมูลที่คล้ายกัน โดยใช้ข้อมูลข้อความและรูปภาพ LLM แต่ละตัวมี "ซอสลับ" เฉพาะของตัวเอง ซึ่งทำให้คุณภาพของผลลัพธ์แตกต่างกันไป แต่โดยรวมแล้วกระบวนการนี้ดูเหมือนเป็นงานซ้ำซ้อนที่ใช้พลังงานสูง
  • บทความนี้เป็นเรื่องของ Yi Tay ซึ่งเคยเป็นผู้นำด้านเทคโนโลยีของ PaLM, UL2, Flan และ Bard ที่ Google และได้ร่วมก่อตั้ง Reka เพื่อฝึก LLM ในฐานะสตาร์ตอัปอิสระ บทสนทนาที่เป็นแรงกระตุ้นให้ Yi Tay เขียนโพสต์นี้ถูกบันทึกไว้ที่นี่
  • เพิ่งรู้จัก Reka.ai ผ่านโพสต์นี้ LLM ของ Reka.ai ไม่ค่อยถูกพูดถึงบน Hacker News ด้วยความสงสัยจึงลองทดสอบอินเทอร์เฟซแชตของ Reka Flash เทียบกับ ChatGPT 4, Gemini Advanced, Claude 3 และ Mistral Large ผลลัพธ์อยู่ที่นี่ โดยรวมแล้ว Reka Flash ไม่ได้แย่กว่าหรือดีกว่า LLM อื่นอย่างชัดเจน แน่นอนว่าต้องมีการทดสอบเพิ่มอีกมากจึงจะตัดสินได้แน่ชัด
  • ผู้เขียนดูเหมือนตั้งสมมติฐานว่าผู้อ่านจะเข้าใจคำว่า "wild" ว่าหมายถึง "นอก Google" บทความนี้ให้เครดิตกับทีมโครงสร้างพื้นฐานและฮาร์ดแวร์ของ Google อย่างมาก และอยากอ่านมุมมองของคนวงใน Google ที่ไปทำงานลักษณะนี้ในที่อื่น
  • หน้าเว็บหลักของ Reka.AI ดูเหมือนจะเป็น ChatGPT โคลนแบบทั่วไปที่คิดค่าบริการตามโทเค็น กล่าวคือเป็น LLM ยังไม่ชัดเจนว่าสิ่งนี้แตกต่างจากบริษัทอื่นอย่างไร ราคาเองก็ดูใกล้เคียงกับ ChatGPT 3.5-Turbo
  • การฝึก LLM ตั้งแต่ต้นเป็นประเด็นที่สำคัญต่อความเร็วและขอบเขตของวิวัฒนาการ AI พอ ๆ กับการพัฒนาฮาร์ดแวร์ระดับล่าง บล็อกนี้อ่านสนุก แต่ค่อนข้างผิวเผินและไม่ค่อยเชิงเทคนิค สำหรับคนที่เคยมีประสบการณ์จัดการคลัสเตอร์ GPU ก็ไม่มีอะไรน่าแปลกใจนัก และยังไม่แน่ชัดว่าทำไมนอก Google จึงควรแนะนำ Jax มากกว่า PyTorch สำหรับงาน LLM หวังว่าบริษัทใหม่นี้จะเผยแพร่รายงานเชิงเทคนิคเกี่ยวกับการผจญภัยในการฝึกโมเดลมากกว่านี้
  • บทความเล่าเพียงส่วนเล็ก ๆ ของเรื่องราวเท่านั้น ทั้งการเริ่มบริษัท ระดมทุน ซื้อชิป และสร้าง LLM ระดับ GPT 3.5 ได้ในเวลาไม่ถึงหนึ่งปี พร้อมทั้งเอาชนะผลิตภัณฑ์อื่นอีกมากมาย จึงสงสัยว่างบประมาณสำหรับชิปหรือคลาวด์ GPU ใช้ไปเท่าไรกันแน่ ราว 2 ล้านถึง 5 ล้านดอลลาร์หรือไม่?
  • คำถามใหญ่คือสตาร์ตอัปเล็ก ๆ ที่ไม่มีภูมิหลังหรือประสบการณ์ที่เหมาะสม หาเงินทุนสำหรับผลิตภัณฑ์ LLM ได้อย่างไร โลกของสตาร์ตอัป LLM ดูคล้ายกับโลกของเฮดจ์ฟันด์และไพรเวตอิควิตี ที่เงื่อนไขเบื้องต้นสำหรับ seed/funding คือมีประวัติการทำงานที่มีชื่อเสียงหรือประสบการณ์ที่เหมาะสม พร้อมเครือข่ายนักลงทุนที่แข็งแกร่งซึ่งพร้อมลงทุนก่อนที่ผลิตภัณฑ์จะเริ่มต้น
  • สงสัยว่าชื่อเรื่องควรเป็น "from the ground up" แทน "ground zero" หรือไม่
  • เรื่องราวเกี่ยวกับกระบวนการจัดการข้อมูลฝึกนั้นน่าสนใจมาก แต่อยากฟังเพิ่มเติมอีก