17 คะแนน โดย xguru 2023-12-15 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • SLM: Small Language Model
  • แม้จะเป็นโมเดลขนาด 2.7B แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่มีขนาดใหญ่กว่ามากถึง 25 เท่า
    • เหนือกว่าประสิทธิภาพของ Mistral 7B และ Llama-7B/13B
    • ในการให้เหตุผลหลายขั้นตอน เช่น งานเขียนโค้ดและคณิตศาสตร์ ทำได้ดีกว่าโมเดล Llama-2-70B ที่ใหญ่กว่าถึง 25 เท่า
    • มีขนาดเล็กกว่า Google Gemini Nano 2 แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า
  • สามารถทำงานลักษณะเดียวกัน เช่น การสร้างข้อความและการอธิบายภาพ ได้ด้วยพลังประมวลผลน้อยกว่าโมเดลอย่าง GPT-4 และ Llama-2
  • ด้วยขนาดที่เล็ก จึงเป็นสนามทดลองที่เหมาะอย่างยิ่งสำหรับนักวิจัย รวมถึงการทดลองด้านความสามารถในการตีความเชิงกลไก การปรับปรุงความปลอดภัย หรือการทำฟाइनจูนสำหรับงานที่หลากหลาย

2 ความคิดเห็น

 
xguru 2023-12-15

Weights อยู่ที่นี่ https://huggingface.co/microsoft/phi-2

 
xguru 2023-12-15
ความเห็นจาก Hacker News
  • การเปรียบเทียบจำนวนพารามิเตอร์ระหว่าง GPT-3 และ Phi-2
    • GPT-3 มีพารามิเตอร์ 174 พันล้านตัว
    • Phi-2 มีพารามิเตอร์ 2.7 พันล้านตัว จึงมีขนาดเล็กกว่า GPT-3 ประมาณ 65 เท่า
  • การเปรียบเทียบปริมาณข้อมูลฝึก
    • GPT-3 ถูกฝึกด้วยโทเค็น 300 พันล้านรายการ
    • Phi-2 ถูกฝึกด้วยโทเค็น 1.4 ล้านล้านรายการ จึงถูกฝึกด้วยข้อมูลมากกว่า GPT-3 ราว 5 เท่า
  • การเรียนรู้ภาษาของมนุษย์กับปัญญาประดิษฐ์
    • ทารกมนุษย์ต้องใช้ข้อมูลการเรียนรู้แบบ "เทียบเท่าโทเค็น" ประมาณ 30 ล้านรายการเพื่อเรียนรู้ภาษา
    • สิ่งนี้ชี้ให้เห็นว่าโครงสร้างทางชีววิทยาของมนุษย์ถูกทำให้เหมาะกับการเรียนรู้ภาษา และมี "ตัวชี้นำ" หรือข้อจำกัดที่ทรงพลังซึ่งช่วยลดพื้นที่สมมติฐานของภาษามนุษย์ที่เป็นไปได้
    • น่าสงสัยว่าจะหาโครงสร้างที่คล้ายกันซึ่งทำให้ language model เรียนรู้ได้ด้วยข้อมูลที่น้อยลงหรือไม่
  • การเปิดเผยน้ำหนักของ Phi-2
    • มีการเผยแพร่น้ำหนักของ Phi-2 แล้ว แต่ต้องล็อกอิน Azure Studio ก่อนจึงจะดาวน์โหลดได้
    • สามารถดาวน์โหลดได้โดยเข้าไปที่หน้า Phi-2 ใน Azure AI Studio แล้วคลิกแท็บ "artifacts"
  • ต้นทุนการฝึก Phi-2
    • Phi-2 ถูกฝึกบน A100 GPU จำนวน 96 ตัวเป็นเวลา 14 วัน
    • หมายความว่าต้นทุนการฝึกอยู่ที่ประมาณ 30,000 USD
    • หากต้นทุนการฝึก LLM (Large Language Model) ถูกกว่าการซื้อรถยนต์ ก็อาจช่วยผลักดันการทำให้ AI เข้าถึงได้อย่างกว้างขวางอย่างมาก
  • ข้อจำกัดการใช้ Phi-2 เพื่อการวิจัย
    • แม้จะมีข้อจำกัดว่า "ใช้เพื่อการวิจัยเท่านั้น" แต่ประสิทธิภาพของ Phi-2 ก็เพิ่มความเป็นไปได้ในการใช้งานแบบโลคัลบนอุปกรณ์หลากหลายชนิด
    • มีความเห็นว่ามันอ้างว่ามีประสิทธิภาพดีมาก จึงทำให้อนาคตดูสดใส/น่ากลัว
  • การแข่งขันของโมเดลขนาดเล็ก
    • ช่วงหลังมานี้มีการแข่งขันอย่างจริงจังในวงการโมเดลขนาดเล็ก
    • เป้าหมายหลักของโมเดลขนาดเล็กเหล่านี้คือการนำไปติดตั้งแบบโลคัลบนโทรศัพท์/โน้ตบุ๊ก ฯลฯ เพื่อขับเคลื่อนแอปและส่วนติดต่อผู้ใช้ยุคใหม่
  • การเปรียบเทียบประสิทธิภาพของ Phi-2 กับ Mistral 7B
    • น่าประทับใจที่ Phi-2 ขนาด 2.7B ให้ประสิทธิภาพดีกว่า Mistral 7B ขนาด 7B
  • ปัญหาการเข้าถึงเว็บไซต์
    • เข้าเว็บไซต์ไม่ได้ แต่ยังตรวจสอบได้ผ่านเวอร์ชันแคช
  • วิธีการเผยแพร่ Phi-2
    • Phi-1.5 ถูกเผยแพร่บน huggingface แต่ Phi-2 ถูกเพิ่มไว้เฉพาะใน Azure AI Studio เพื่อจูงใจให้นักพัฒนาสมัครใช้งาน
    • มีคำถามว่าเหตุใด Microsoft จึงไม่เข้าร่วมกับ GitHub ของวงการ ML อย่าง huggingface
  • ความสามารถในการดาวน์โหลดโมเดล Phi-2
    • มีคำถามว่าสามารถดาวน์โหลดโมเดล Phi-2 มาใช้งานแบบโลคัลได้หรือไม่ หรือใช้งานได้เฉพาะบน Azure เท่านั้น