11 คะแนน โดย xguru 2024-06-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • NVIDIA เปิดตัวตระกูลโมเดล Nemotron-4 340B
    • สามารถใช้สร้างข้อมูลสังเคราะห์สำหรับการฝึก LLM เชิงพาณิชย์ในหลากหลายอุตสาหกรรม เช่น เฮลท์แคร์ การเงิน การผลิต และค้าปลีก
  • ข้อมูลฝึกคุณภาพสูงมีบทบาทสำคัญต่อประสิทธิภาพ ความแม่นยำ และคุณภาพของคำตอบของ LLM แบบปรับแต่งเอง แต่ชุดข้อมูลที่แข็งแกร่งมีต้นทุนสูงและเข้าถึงได้ยาก
  • Nemotron-4 340B มอบวิธีที่ขยายขนาดได้สำหรับให้นักพัฒนาสร้างข้อมูลสังเคราะห์ฟรี เพื่อช่วยสร้าง LLM ที่ทรงพลัง
    • ประกอบด้วยโมเดลพื้นฐาน (Base), โมเดลคำสั่ง (Instruct) และโมเดลรางวัล (Reward)
    • รวมกันเป็นไปป์ไลน์สำหรับสร้างข้อมูลสังเคราะห์ที่ใช้ฝึกและปรับปรุง LLM
    • ปรับแต่งให้เหมาะกับเฟรมเวิร์กโอเพนซอร์ส NVIDIA NeMo และยังเข้ากันได้กับไลบรารี NVIDIA TensorRT-LLM
    • ดาวน์โหลดได้แล้วบน Hugging Face และจะให้บริการเป็น NVIDIA NIM microservice บน ai.nvidia.com ด้วย

การสร้างข้อมูลสังเคราะห์ด้วย Nemotron

  • LLM สามารถใช้สร้างข้อมูลฝึกสังเคราะห์ได้ในสถานการณ์ที่เข้าถึงชุดข้อมูลขนาดใหญ่ หลากหลาย และมีการติดป้ายกำกับได้ยาก
  • โมเดล Nemotron-4 340B Instruct สามารถสร้างข้อมูลสังเคราะห์ที่หลากหลายซึ่งเลียนแบบลักษณะของข้อมูลจริง เพื่อเพิ่มประสิทธิภาพและความทนทานของ LLM แบบปรับแต่งเอง
  • โมเดล Nemotron-4 340B Reward จะกรองคำตอบคุณภาพสูงเพื่อยกระดับคุณภาพของข้อมูลที่ AI สร้างขึ้น โมเดลนี้ประเมินคำตอบด้วยคุณลักษณะ 5 ด้าน ได้แก่ ความเป็นประโยชน์ ความถูกต้อง ความสอดคล้อง ความซับซ้อน และความยืดเยื้อ
  • นักวิจัยสามารถใช้โมเดล Nemotron-4 340B Base ร่วมกับข้อมูลที่ปรับแต่งเอง เพื่อสร้างโมเดลคำสั่งหรือโมเดลรางวัลของตนเองได้

การปรับแต่งแบบละเอียดผ่าน NeMo และการเพิ่มประสิทธิภาพการอนุมานผ่าน TensorRT-LLM

  • สามารถใช้ NVIDIA NeMo และ NVIDIA TensorRT-LLM เพื่อเพิ่มประสิทธิภาพของโมเดลคำสั่งและโมเดลรางวัลในการสร้างข้อมูลสังเคราะห์และประเมินคำตอบได้
  • โมเดล Nemotron-4 340B ใช้ tensor parallelism ซึ่งแบ่งเมทริกซ์น้ำหนักแต่ละตัวออกไปยังหลาย GPU และหลายเซิร์ฟเวอร์ เพื่อให้การอนุมานขนาดใหญ่มีประสิทธิภาพ
  • โมเดล Nemotron-4 340B Base ที่ฝึกด้วยโทเค็น 9 ล้านล้านรายการ สามารถปรับแต่งให้เหมาะกับการใช้งานหรือโดเมนเฉพาะได้ผ่านเฟรมเวิร์ก NeMo
  • เฟรมเวิร์ก NeMo รองรับวิธีการปรับแต่งที่หลากหลาย ซึ่งช่วยเพิ่มความแม่นยำและปรับปรุงผลลัพธ์สำหรับงานย่อยเฉพาะได้
  • เพื่อยกระดับคุณภาพของโมเดล สามารถใช้ NeMo Aligner และโมเดล Nemotron-4 340B Reward เพื่อจัดแนวโมเดลด้วยชุดข้อมูลที่มีการใส่คำอธิบายกำกับ

1 ความคิดเห็น

 
soychick 2024-06-17

Nvidia เปิดเผยไปป์ไลน์การสร้างข้อมูลสังเคราะห์สำหรับการฝึก LLM โดยใช้ Nemotron เพื่อสร้างข้อมูลสังเคราะห์และนำไปใช้ฝึก LLM ได้