24 คะแนน โดย lemonmint 2025-03-19 | 9 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว EXAONE Deep โมเดล Reasoning AI ใหม่ที่พัฒนาโดย LG AI Research
  • โมเดลการให้เหตุผลประสิทธิภาพสูงที่จำเป็นต่อการเปลี่ยนผ่านสู่ยุค Agentic AI
  • พิสูจน์ความสามารถด้านการให้เหตุผลที่โดดเด่นในสาขาคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ด
  • คุณสมบัติเด่น:
    • คณิตศาสตร์: ทำผลงานได้เหนือกว่าโมเดลคู่แข่งในเบนช์มาร์กคณิตศาสตร์ระดับยาก (ให้ประสิทธิภาพเทียบเท่ากันได้ด้วยขนาดโมเดลที่เล็กกว่า)
    • วิทยาศาสตร์ & การเขียนโค้ด: คว้าอันดับ 1 ในเบนช์มาร์กสำคัญ (โมเดล 7.8B และ 2.4B)
    • MMLU: ทำผลงานสูงสุดในบรรดาโมเดลภายในประเทศ (โมเดล 32B)
  • ได้รับการบรรจุในรายชื่อ AI models ที่น่าจับตาของ Epoch AI จึงเป็นการยืนยันประสิทธิภาพ (นับเป็นโมเดล EXAONE ตัวที่สองต่อจาก EXAONE 3.5)

ประสิทธิภาพโดดเด่นด้านคณิตศาสตร์

  • EXAONE Deep ทุกรุ่น (32B, 7.8B, 2.4B) ได้คะแนนสูงสุดในส่วนคณิตศาสตร์ของการสอบ CSAT ประจำปีการศึกษา 2025
  • EXAONE Deep 32B:
    • ทำคะแนนคณิตศาสตร์ CSAT ได้ 94.5 และ AIME 2024 ได้ 90.0
    • ให้ประสิทธิภาพเทียบเท่ากับโมเดล DeepSeek-R1 (671B) ใน AIME 2025
    • โดยเฉพาะใน AIME ซึ่งเป็นเบนช์มาร์กความยากสูง แสดงให้เห็นถึงประสิทธิภาพด้านการฝึกและความคุ้มค่าต้นทุนอย่างชัดเจน
  • EXAONE Deep 7.8B & 2.4B:
    • ครองอันดับ 1 ในเบนช์มาร์กสำคัญของหมวดโมเดลขนาดเบาและโมเดล on-device ตามลำดับ
    • โมเดล 7.8B: MATH-500 94.8, AIME 2025 59.6
    • โมเดล 2.4B: MATH-500 92.3, AIME 2024 47.9
  • เบนช์มาร์กคณิตศาสตร์หลัก:
    • CSAT
    • AIME (American Invitational Mathematics Examination)
    • MATH-500

ความเชี่ยวชาญโดดเด่นด้านวิทยาศาสตร์และการเขียนโค้ด

  • พิสูจน์แล้วว่ามีประสิทธิภาพเหนือกว่าโมเดลคู่แข่งในด้านวิทยาศาสตร์และการเขียนโค้ดด้วยเช่นกัน
  • EXAONE Deep 32B:
    • ทำคะแนน GPQA Diamond ได้ 66.1 (ประเมินความสามารถแก้ปัญหาวิทยาศาสตร์ระดับปริญญาเอก)
    • ทำคะแนน LiveCodeBench ได้ 59.5 (ประเมินความสามารถด้านการเขียนโค้ด) สูงกว่าโมเดล Reasoning AI ขนาดใกล้เคียงกัน
    • บ่งชี้ถึงศักยภาพการนำไปใช้สูงในสาขาที่ต้องการความรู้เฉพาะทาง
  • EXAONE Deep 7.8B & 2.4B:
    • คว้าอันดับ 1 ใน GPQA Diamond และ LiveCodeBench
    • ต่อเนื่องจาก EXAONE 3.5 2.4B ได้วางตำแหน่งเป็นโมเดลชั้นนำระดับโลกในกลุ่มโมเดลขนาดเบา/บนอุปกรณ์
  • เบนช์มาร์กด้านวิทยาศาสตร์และการเขียนโค้ดหลัก:
    • GPQA Diamond
    • LiveCodeBench

9 ความคิดเห็น

 
sice81 2025-03-20

ว้าว ขอเป็นกำลังใจให้ LG ครับ LLM นี่แทบจะดีที่สุดในประเทศเราแล้วไม่ใช่เหรอ? เห็นว่าก็นำไปใช้กับระบบภายในได้ดีด้วย... แต่เรื่องไลเซนส์น่าเสียดายครับ ถ้ามีเวอร์ชันใหม่ออกมา เวอร์ชันเก่าน่าจะปล่อยเป็น MIT ก็คงดีนะครับ

 
mindok 2025-03-19

ถ้าจะรันแบบโลคัลบนโน้ตบุ๊ก EXAONE 3.5 ก็ถือว่าโอเคอยู่แล้ว อันนี้เลยน่าตั้งตารอครับ

 
bungker 2025-03-19

ตกใจเลยครับ นึกว่าเป็นแค่การสร้างกระแสผ่านสื่อ แต่ LG ที่ค่อนข้างอนุรักษนิยมกลับปล่อยของแบบนี้ออกมา แถมยังเปิดเผยต่อสาธารณะอีก..

 
halfenif 2025-03-20

ผมก็สงสัยเหมือนกันว่าจากไลเซนส์ที่ลองหาอ่านมา จะเอาไปใช้งานได้อย่างไรบ้าง

  1. Restrictions
    3.1 Commercial Use: The Licensee is expressly prohibited from using the Model, Derivatives, or Output for
    any commercial purposes, including but not limited to, developing or deploying products, services, or
    applications that generate revenue, whether directly or indirectly.

3.1 การใช้งานเชิงพาณิชย์: ผู้รับไลเซนส์ถูกห้ามอย่างชัดแจ้งไม่ให้ใช้ Model, Derivatives หรือ Output เพื่อวัตถุประสงค์เชิงพาณิชย์ใด ๆ ซึ่งรวมถึงแต่ไม่จำกัดเพียงการพัฒนาหรือการนำไปใช้งานผลิตภัณฑ์ บริการ หรือแอปพลิเคชันที่สร้างรายได้ ไม่ว่าโดยตรงหรือโดยอ้อม

  1. Ownership
    4.2 Output: All rights, title, and interest in and to the Output generated by the Model and Derivatives
    whether in its original form or modified, are and shall remain the exclusive property of the Licensor.

4.2 ผลลัพธ์: สิทธิ กรรมสิทธิ์ และผลประโยชน์ทั้งหมดใน Output ที่สร้างขึ้นโดย Model และ Derivatives ไม่ว่าจะอยู่ในรูปแบบดั้งเดิมหรือมีการแก้ไข จะเป็นและยังคงเป็นทรัพย์สินแต่เพียงผู้เดียวของผู้ให้ไลเซนส์

 
yosemite 2025-03-20

ใช่ครับ เป็นไลเซนส์ที่ไม่อนุญาตให้ใช้งานเชิงพาณิชย์ ดังนั้นสำหรับผมจึงตัดออกจากตัวเลือกที่พิจารณา

 
junia3 2025-03-19

ผมลองติดตั้งบนเซิร์ฟเวอร์แล้วใช้งานดู แต่เมื่อเทียบกับ qwq แล้วเวลา think นานขึ้นมากครับ
ถึงจะไม่แน่ใจว่าตอบถูกได้ดีแค่ไหน แต่รู้สึกว่า latency หนักกว่าที่คิดไว้ครับ

 
junia3 2025-03-19

ปรากฏว่าเป็นแบบนั้นเฉพาะกับบางปัญหาเท่านั้นเอง ผมลองรันเพิ่มอีกสองสามครั้งแล้วเปรียบเทียบดู ก็เหมือนว่าจะออกมาคล้าย ๆ กันครับ

 
nowdoit7 2025-03-19

ขอเป็นกำลังใจให้~ LG~ สู้ๆ~

 
jujumilk3 2025-03-19

ขอเป็นกำลังใจให้ครับ/ค่ะ กดไลก์ทุกที่ที่เห็นบน LinkedIn อยู่เลยครับ/ค่ะ