Yi - LLM สองภาษารุ่นถัดไปแบบโอเพนซอร์ส

xguru · 2024-03-12T10:03:02+09:00

โมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สรุ่นถัดไปที่ฝึกตั้งแต่ต้นโดยนักพัฒนา ถูกพัฒนาโดยตั้งเป้าเป็นโมเดลสองภาษา และฝึกด้วยคอร์ปัสหลายภาษา 3T จึงแสดงประสิทธิภาพที่แข็งแกร่งในด้านความเข้าใจภาษา การให้เหตุผลเชิงสามัญสำนึก และความสามารถในการอ่านจับใจความ มีพื้นฐานจากโมเดลภาษาที่ผ่านการพรีเทรนขนาด 6B และ 34B และขยายไปเป็นโมเดลแชตบอต โมเดลคอนเท็กซ์ยาว 200K โมเดลอัปสเกลเชิงลึก และโมเดลวิชัน-ภาษา โมเดล Yi-34B-Chat อยู่อันดับ 2 บนลีดเดอร์บอร์ด AlpacaEval รองจาก GPT-4 Turbo และเหนือกว่า LLM อื่น ๆ เหนือกว่าโมเดลโอเพนซอร์สเดิมทั้งในภาษาอังกฤษและภาษาจีน และคว้าอันดับ 1 ในหลายเบนช์มาร์ก ใช้สถาปัตยกรรมโมเดลเดียวกับ Llama แต่ไม่ใช่โมเดลที่แตกแขนงมาจาก Llama และไม่ได้ใช้ค่าน้ำหนักของ Llama มีให้เลือกหลายขนาด และสามารถปรับจูนโมเดลอย่างละเอียดให้ตรงกับความต้องการเฉพาะได้ โมเดลแชต Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits โมเดลฐาน Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 คะแนน โดย xguru 2024-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สรุ่นถัดไปที่ฝึกตั้งแต่ต้นโดยนักพัฒนา
ถูกพัฒนาโดยตั้งเป้าเป็นโมเดลสองภาษา และฝึกด้วยคอร์ปัสหลายภาษา 3T จึงแสดงประสิทธิภาพที่แข็งแกร่งในด้านความเข้าใจภาษา การให้เหตุผลเชิงสามัญสำนึก และความสามารถในการอ่านจับใจความ
มีพื้นฐานจากโมเดลภาษาที่ผ่านการพรีเทรนขนาด 6B และ 34B และขยายไปเป็นโมเดลแชตบอต โมเดลคอนเท็กซ์ยาว 200K โมเดลอัปสเกลเชิงลึก และโมเดลวิชัน-ภาษา
โมเดล Yi-34B-Chat
- อยู่อันดับ 2 บนลีดเดอร์บอร์ด AlpacaEval รองจาก GPT-4 Turbo และเหนือกว่า LLM อื่น ๆ
- เหนือกว่าโมเดลโอเพนซอร์สเดิมทั้งในภาษาอังกฤษและภาษาจีน และคว้าอันดับ 1 ในหลายเบนช์มาร์ก
ใช้สถาปัตยกรรมโมเดลเดียวกับ Llama แต่ไม่ใช่โมเดลที่แตกแขนงมาจาก Llama และไม่ได้ใช้ค่าน้ำหนักของ Llama
มีให้เลือกหลายขนาด และสามารถปรับจูนโมเดลอย่างละเอียดให้ตรงกับความต้องการเฉพาะได้
- โมเดลแชต
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- โมเดลฐาน
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 ความคิดเห็น

xguru 2024-03-12

ความคิดเห็นจาก Hacker News

โมเดล Yi-34B-Chat อยู่อันดับ 2 บนกระดานผู้นำ AlpacaEval รองจาก GPT-4 Turbo และทำได้ดีกว่า LLM อื่น ๆ เช่น GPT-4, Mixtral, Claude
โมเดล Yi-34B ครองอันดับ 1 ในบรรดาโมเดลโอเพนซอร์สบนเบนช์มาร์กภาษาอังกฤษและภาษาจีน โดยอ้างอิงจาก Hugging Face Open LLM Leaderboard (โมเดลที่พรีเทรนแล้ว) และ C-Eval
ซอร์สโค้ดในรีโพซิทอรีอยู่ภายใต้ไลเซนส์ Apache 2.0 แต่เวตของโมเดลไม่ได้ใช้ไลเซนส์ดังกล่าว
โมเดล Yi ล้มเหลวกับพรอมป์ทดสอบบางรายการ แม้จะลองหลายครั้งแล้ว Yi ก็เลือกคำตอบผู้ชนะสลับกันไปมาทุกครั้ง
ชื่อ "01.ai" ชวนให้นึกถึงชื่อของรัฐ AI แห่งแรกในภาพยนตร์ 'The Matrix' ที่ทำสงครามกับมนุษยชาติและทำให้มนุษย์กลายเป็นทาส จึงสื่อว่าไม่ค่อยเป็นลางดีนัก
ประสิทธิภาพของโมเดล Yi น่าจะมาจากคุณภาพของข้อมูลอันเป็นผลจากความพยายามด้านวิศวกรรมข้อมูล
โมเดล Yi 34B Chat ทำผลงานได้ไม่ดีนักบนเบนช์มาร์ก NYT Connections และอยู่อันดับ 22 บนกระดานผู้นำที่อิง Elo ของ LMSYS โดยทำผลงานในภาษาจีนได้ดีกว่า
เมื่อเห็นประสิทธิภาพของโมเดลเหล่านี้ดีขึ้น ก็ทำให้มีความหวังว่าในอีก 2-3 ปีข้างหน้า LLM ที่เน้นมือถือเป็นหลักจะช่วยปรับปรุงการแปลงข้อความเป็นเสียงและการคาดเดาการพิมพ์ พร้อมทั้งลดการใช้แบตเตอรี่ลงได้มาก
ยังมีโมเดลใหม่ชื่อ Yi-9B อีกด้วย.

Yi - LLM สองภาษารุ่นถัดไปแบบโอเพนซอร์ส

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News