9 คะแนน โดย xguru 2024-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สรุ่นถัดไปที่ฝึกตั้งแต่ต้นโดยนักพัฒนา
  • ถูกพัฒนาโดยตั้งเป้าเป็นโมเดลสองภาษา และฝึกด้วยคอร์ปัสหลายภาษา 3T จึงแสดงประสิทธิภาพที่แข็งแกร่งในด้านความเข้าใจภาษา การให้เหตุผลเชิงสามัญสำนึก และความสามารถในการอ่านจับใจความ
  • มีพื้นฐานจากโมเดลภาษาที่ผ่านการพรีเทรนขนาด 6B และ 34B และขยายไปเป็นโมเดลแชตบอต โมเดลคอนเท็กซ์ยาว 200K โมเดลอัปสเกลเชิงลึก และโมเดลวิชัน-ภาษา
  • โมเดล Yi-34B-Chat
    • อยู่อันดับ 2 บนลีดเดอร์บอร์ด AlpacaEval รองจาก GPT-4 Turbo และเหนือกว่า LLM อื่น ๆ
    • เหนือกว่าโมเดลโอเพนซอร์สเดิมทั้งในภาษาอังกฤษและภาษาจีน และคว้าอันดับ 1 ในหลายเบนช์มาร์ก
  • ใช้สถาปัตยกรรมโมเดลเดียวกับ Llama แต่ไม่ใช่โมเดลที่แตกแขนงมาจาก Llama และไม่ได้ใช้ค่าน้ำหนักของ Llama
  • มีให้เลือกหลายขนาด และสามารถปรับจูนโมเดลอย่างละเอียดให้ตรงกับความต้องการเฉพาะได้
    • โมเดลแชต
      • Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
      • Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
    • โมเดลฐาน
      • Yi-34B, Yi-34B-200K
      • Yi-9B
      • Yi-6B, Yi-6B-200K

1 ความคิดเห็น

 
xguru 2024-03-12

ความคิดเห็นจาก Hacker News

  • โมเดล Yi-34B-Chat อยู่อันดับ 2 บนกระดานผู้นำ AlpacaEval รองจาก GPT-4 Turbo และทำได้ดีกว่า LLM อื่น ๆ เช่น GPT-4, Mixtral, Claude
  • โมเดล Yi-34B ครองอันดับ 1 ในบรรดาโมเดลโอเพนซอร์สบนเบนช์มาร์กภาษาอังกฤษและภาษาจีน โดยอ้างอิงจาก Hugging Face Open LLM Leaderboard (โมเดลที่พรีเทรนแล้ว) และ C-Eval
  • ซอร์สโค้ดในรีโพซิทอรีอยู่ภายใต้ไลเซนส์ Apache 2.0 แต่เวตของโมเดลไม่ได้ใช้ไลเซนส์ดังกล่าว
  • โมเดล Yi ล้มเหลวกับพรอมป์ทดสอบบางรายการ แม้จะลองหลายครั้งแล้ว Yi ก็เลือกคำตอบผู้ชนะสลับกันไปมาทุกครั้ง
  • ชื่อ "01.ai" ชวนให้นึกถึงชื่อของรัฐ AI แห่งแรกในภาพยนตร์ 'The Matrix' ที่ทำสงครามกับมนุษยชาติและทำให้มนุษย์กลายเป็นทาส จึงสื่อว่าไม่ค่อยเป็นลางดีนัก
  • ประสิทธิภาพของโมเดล Yi น่าจะมาจากคุณภาพของข้อมูลอันเป็นผลจากความพยายามด้านวิศวกรรมข้อมูล
  • โมเดล Yi 34B Chat ทำผลงานได้ไม่ดีนักบนเบนช์มาร์ก NYT Connections และอยู่อันดับ 22 บนกระดานผู้นำที่อิง Elo ของ LMSYS โดยทำผลงานในภาษาจีนได้ดีกว่า
  • เมื่อเห็นประสิทธิภาพของโมเดลเหล่านี้ดีขึ้น ก็ทำให้มีความหวังว่าในอีก 2-3 ปีข้างหน้า LLM ที่เน้นมือถือเป็นหลักจะช่วยปรับปรุงการแปลงข้อความเป็นเสียงและการคาดเดาการพิมพ์ พร้อมทั้งลดการใช้แบตเตอรี่ลงได้มาก
  • ยังมีโมเดลใหม่ชื่อ Yi-9B อีกด้วย.