3 คะแนน โดย GN⁺ 2025-01-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek-R1: เสริมความสามารถด้านการให้เหตุผลของ LLM

    • แนะนำโมเดลให้เหตุผลรุ่นแรก ได้แก่ DeepSeek-R1-Zero และ DeepSeek-R1
    • DeepSeek-R1-Zero ได้รับการฝึกด้วยการเสริมกำลังการเรียนรู้ขนาดใหญ่ และแสดงความสามารถด้านการให้เหตุผลที่โดดเด่นแม้ไม่มีการปรับจูนละเอียดแบบมีผู้สอน
    • อย่างไรก็ตาม โมเดลเผชิญกับความท้าทาย เช่น ปัญหาด้านความอ่านง่ายและการผสมภาษา
    • เพื่อแก้ปัญหาเหล่านี้และปรับปรุงประสิทธิภาพด้านการให้เหตุผล จึงนำเสนอ DeepSeek-R1 ซึ่งรวมถึงการฝึกหลายขั้นตอนและการใช้ข้อมูลตั้งต้นก่อนการเสริมกำลังการเรียนรู้
    • DeepSeek-R1 ทำผลงานได้ใกล้เคียงกับ OpenAI-o1-1217
    • เพื่อสนับสนุนชุมชนนักวิจัย ได้เปิดซอร์ส DeepSeek-R1-Zero, DeepSeek-R1 และโมเดล dense ที่กลั่นจาก Qwen และ Llama จำนวน 6 รุ่น (1.5B, 7B, 8B, 14B, 32B, 70B)
  • หัวข้อและการอ้างอิง

    • หัวข้อ: การคำนวณและภาษา (cs.CL); ปัญญาประดิษฐ์ (cs.AI); การเรียนรู้ของเครื่อง (cs.LG)
    • การอ้างอิง: arXiv:2501.12948 [cs.CL]
  • ประวัติการส่ง

    • ผู้ส่ง: Wenfeng Liang
    • วันที่ส่ง: 22 มกราคม 2025
  • วิธีเข้าถึง

    • สามารถเข้าถึงบทความได้ในหลายรูปแบบ เช่น PDF, HTML, TeX source
  • เอกสารอ้างอิงและเครื่องมืออ้างอิง

    • มีเอกสารอ้างอิงและเครื่องมืออ้างอิงหลากหลายให้ใช้งาน
  • โค้ด ข้อมูล และสื่อ

    • มีโค้ดและข้อมูลที่เกี่ยวข้องให้บริการ
  • ข้อมูลเกี่ยวกับ arXivLabs

    • มีคำอธิบายเกี่ยวกับ arXivLabs และข้อมูลการสนับสนุน

1 ความคิดเห็น

 
GN⁺ 2025-01-26
ความเห็นจาก Hacker News
  • บทความ DeepSeek V3 ถือเป็นเอกสารพื้นฐานที่ควรอ่านก่อน

    • ชุดผสม R1 + Sonnet ทำได้ดีกว่าชุดผสมอื่น
    • มีงานศึกษาทำซ้ำอย่างอิสระเกิดขึ้นในหลายแห่ง
    • การกลั่น R1 ทำได้ง่ายมาก จึงน่าจะเกิดขึ้นบ่อย
    • DeepSeek-R1 สร้างกระแสใหญ่ในซิลิคอนแวลลีย์
  • หลังจากลองใช้โมเดล r1-14b ของ Ollama แล้ว รู้สึกว่าการที่โมเดลลองหลายแนวทางแบบเรียลไทม์และเลือกทางเลือกต่าง ๆ ชวนให้นึกถึงพฤติกรรมของมนุษย์

  • DeepSeek V3 ปรากฏตัวได้ถูกจังหวะในช่วงที่ Claude Sonnet เริ่มมีปัญหา

    • ราคาของ DeepSeek ถูกมาก จึงเป็นข้อได้เปรียบอย่างมาก
    • เปลี่ยนจาก Aider และ Cursor มาใช้ DeepSeek แบบเต็มตัวแล้ว
  • ฟีเจอร์แชตของ DeepSeek ใช้งานง่ายกว่า ChatGPT Pro

    • สามารถอ่านกระบวนการคิดของโมเดลได้ จึงดีบักได้ง่าย
  • รู้สึกประหลาดใจที่กระบวนการคิดของโมเดล GPT-O1 เกิดขึ้นภายในตัวโมเดลเอง

    • สงสัยว่า OpenAI จะเปิดเผยกระบวนการคิดของ O1 หรือไม่
  • นอกจากประสิทธิภาพของ DeepSeek R1 แล้ว โมเดลกลั่นขนาดเล็กก็น่าประทับใจเช่นกัน

    • โมเดลกลั่น 7b ที่อิง Qwen ก็ยอดเยี่ยมเช่นกัน
    • โมเดลกลั่น 32b ถูกใช้เป็นโมเดลหลักบนเซิร์ฟเวอร์ที่บ้าน
  • Larry Ellison และ Masayoshi Son ตั้งเป้าไปที่ความเป็นอมตะผ่าน ASI

    • ทุ่มการลงทุนมหาศาลเพื่อพัฒนา ASI
  • บน Arxiv มีผู้เขียนมากกว่า 100 คนเผยแพร่งานวิจัยโดยใช้ชื่อทีม

    • ช่วยส่งเสริมการทำงานเป็นทีมและขวัญกำลังใจ