1 คะแนน โดย GN⁺ 2025-05-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Deepseek R1-0528 เปิดตัวในฐานะ LLM รุ่นล่าสุด
  • โมเดลนี้เปิดให้ใช้งานแบบ โอเพนซอร์ส ช่วยเพิ่มการเข้าถึงและการนำไปใช้ประโยชน์
  • แสดงประสิทธิภาพที่แข็งแกร่งในงานด้าน การประมวลผลและการสร้างภาษาธรรมชาติ ที่หลากหลาย
  • มอบข้อได้เปรียบต่อการวิจัยและการใช้งานจริงด้วย สถาปัตยกรรมที่เร็วและมีประสิทธิภาพยิ่งขึ้น
  • กำลังก้าวขึ้นมาเป็นอีกหนึ่งทางเลือกที่มี ความสามารถในการแข่งขัน ในวงการ AI

แนะนำโมเดล Deepseek R1-0528

  • Deepseek R1-0528 เป็น โมเดลภาษาขนาดใหญ่ (LLM) รุ่นล่าสุด ที่สามารถใช้งานในด้านความเข้าใจและการสร้างภาษาธรรมชาติ
  • โมเดลนี้เผยแพร่แบบ โอเพนซอร์ส ผ่าน Hugging Face ทำให้นักวิจัยและนักพัฒนาทุกคนสามารถนำไปใช้ได้อย่างอิสระ
  • โมเดล R1-0528 ที่พัฒนาโดย DeepSeek-AI ได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่ และสามารถนำไปใช้กับงานด้านการประมวลผลและการสร้างภาษาธรรมชาติหลากหลายรูปแบบ เช่น การสรุปข้อความ การแปล การตอบคำถาม และการสร้างโค้ด
  • เมื่อเทียบกับโมเดลโอเพนซอร์สที่เปิดเผยก่อนหน้านี้ จุดเด่นของมันคือ ความเร็วในการอนุมานที่เหนือกว่าและโครงสร้างเครือข่ายที่ได้รับการปรับแต่งให้เหมาะสม
  • ด้วยจุดแข็งเหล่านี้ จึงกำลังได้รับความสนใจในฐานะตัวเลือกที่นักพัฒนาซึ่งต้องการ ผลลัพธ์ที่รวดเร็วและแม่นยำ ทั้งในงานวิจัยและสภาพแวดล้อมอุตสาหกรรมจริงอาจให้ความนิยม

จุดเด่นและข้อดีของโมเดล

  • Deepseek R1-0528 มีความแตกต่างจากโมเดล LLM เดิมในด้าน ความสามารถในการขยายตัว ประสิทธิภาพ และความรวดเร็ว
  • ใช้ โครงสร้างแบบโมดูลาร์ ที่ช่วยให้นักพัฒนาปรับแต่งโมเดลได้ง่าย และประยุกต์ใช้ให้เหมาะกับภาษาหรือโดเมนต่าง ๆ ได้
  • ด้วยอัลกอริทึมที่ได้รับการปรับปรุง ทำให้ ความเร็วในการประมวลผล ทั้งในขั้นตอนการฝึกและการอนุมานดีขึ้น
  • ผู้ใช้ทุกคนสามารถโหลดและใช้งานโมเดลได้อย่างสะดวกผ่านไลบรารีของ Hugging Face

การใช้งานและผลที่คาดหวัง

  • สามารถนำไปใช้ใน สถานการณ์การทำงานจริงที่หลากหลาย เช่น งานวิจัย AI, แชตบอต, การสร้างเอกสารอัตโนมัติ, และผู้ช่วยเขียนโค้ด
  • การเปิดเป็นโอเพนซอร์สช่วยให้ การประยุกต์ใช้กับชุดข้อมูลจริงและการตรวจสอบประสิทธิภาพของโมเดล ทำได้อย่างอิสระมากขึ้น
  • การเปิดตัว DeepSeek R1-0528 ช่วยส่งเสริม สภาพแวดล้อมการแข่งขันที่ดีและความก้าวหน้าทางเทคโนโลยี ภายในชุมชน AI ทั่วโลก

1 ความคิดเห็น

 
GN⁺ 2025-05-29
ความคิดเห็นจาก Hacker News
  • ตอนแรกเพิ่งรู้ว่าสามารถใช้ DeepSeek R1 ผ่าน openrouter ได้จากผู้ให้บริการ 7 ราย
    ลิงก์
    เป็นอัปเดตของ DeepSeek R1 ต้นฉบับเมื่อวันที่ 28 พฤษภาคม โดยประสิทธิภาพอยู่ในระดับใกล้เคียงกับ OpenAI o1
    ในฐานะโอเพนซอร์สก็มีการเปิดเผย reasoning tokens ด้วย
    พารามิเตอร์ทั้งหมดมี 671B และระหว่างทำ inference จะเปิดใช้เพียง 37B
    เป็นโมเดลโอเพนซอร์สเต็มรูปแบบ

    • สงสัยว่ามีโมเดลที่ดาวน์โหลดได้หรือไม่
      ไม่คุ้นกับ openrouter และหาโมเดลใน ollama ไม่เจอ จึงอยากหาข้อมูลเพิ่ม

    • ไม่มีการเปิดเผยเลยว่าโมเดลถูกฝึกด้วยข้อมูลอะไร
      แม้จะปล่อย weights ให้ดาวน์โหลดได้ แต่โดยพื้นฐานแล้วไม่ใช่โอเพนซอร์สที่ทำซ้ำได้จริง
      เคยมีโปรเจกต์ชื่อ "Open R1" ที่เปิดเผยไปถึงข้อมูลฝึกเองด้วย
      เลยสงสัยว่าตอนนี้คืบหน้าไปถึงไหนแล้ว
      ลิงก์

    • ไม่เห็นด้วยกับคำกล่าวที่ว่า DeepSeek R1 เป็นโอเพนซอร์ส
      ย้ำว่าการดาวน์โหลดได้ไม่ได้แปลว่าเป็นโอเพนซอร์ส
      ลิงก์

  • น่าเสียดายที่แทบไม่มีข้อมูลเกี่ยวกับ DeepSeek R1 เลย
    ไม่มีข้อมูล benchmark ด้วย ทำให้นึกถึงสมัยก่อนที่ Mistral เคยปล่อย magnet link ของ torrent ทางทวีต

    • ช่วงนี้รู้สึกว่า benchmark ไม่ค่อยมีความหมายแล้ว
      เพราะเอาแต่โฟกัสกับการปรับโมเดลให้เข้ากับชุดทดสอบที่เปิดเผยไปแล้ว
      แต่กลับละเลยพัฒนาการเชิงแก่นแท้เพื่อเพิ่มความเป็นอเนกประสงค์
      ถ้าดู leaderboard ของ Huggingface จะเห็นว่าโมเดลโอเพนซอร์สที่ผ่านการ fine-tune หลายตัวอยู่อันดับบน ๆ แต่จริง ๆ ก็ไม่ได้ถูกใช้งานอย่างแพร่หลาย
      ลิงก์

    • ในตาราง benchmark เห็นคะแนน "Overall" และ "Median" แต่
      ไม่มีข้อมูลว่าเขาทดสอบอะไรอย่างชัดเจน
      โดยรวมดูคล้ายกับโมเดลใหม่ ๆ รุ่นอื่น แต่ในแง่ต้นทุนมีข้อได้เปรียบเล็กน้อย
      ข้อเสียคือความเร็ว inference ยังช้าเหมือน r1 รุ่นก่อนหน้า (ใช้โทเคนเยอะ)
      ลิงก์ตาราง

    • วิธีการเปิดเผยของ DeepSeek คล้ายกับ Mistral ในอดีต เลยสงสัยว่าอาจเป็นการคารวะโดยตั้งใจหรือไม่

    • ปกติ DeepSeek มักจะลงงานวิจัยในวันถัดจากที่ปล่อยโมเดล
      ถ้าจัดตารางให้ดีขึ้นอีกนิดก็น่าจะดูเรียบร้อยกว่านี้ แต่ตอนนี้ข่าวในวงการเลยออกมาค่อนข้างกระจัดกระจาย

  • จุดที่แปลกดีคือ DeepSeek เป็นหนึ่งใน LLM ไม่กี่ตัวที่รันได้บน iPod Touch ที่ติดตั้ง iOS เวอร์ชันเก่า

  • ชอบที่ DeepSeek ปล่อยอัปเดตใหม่แบบสบาย ๆ ไม่ได้ทำให้เป็นเรื่องใหญ่โต
    แม้จะมีการปรับปรุงครั้งใหญ่ก็ยังปล่อยเงียบ ๆ โดยไม่โปรโมตมากนัก ซึ่งเป็นบรรยากาศที่ชอบ

    • สงสัยว่าการปรับปรุงใหญ่จริงหรือไม่
      อยากรู้ว่ามีข้อมูลเปรียบเทียบอย่างเป็นทางการ เช่น benchmark หรือเปล่า

    • ทั้ง OpenAI และ Anthropic ช่วงหลังก็มักโหมโรงโมเดลใหม่เกินจริง
      พร้อมใส่เรื่องเล่าทำนองว่า
      'โมเดลนี้อันตรายแค่ไหน หลบหนีอย่างไร หลอกคนอย่างไร และแฮ็กเซิร์ฟเวอร์หลักได้อย่างไร'
      จนให้อารมณ์แบบ nightmare ขณะที่ DeepSeek ปล่อยแบบเรียบ ๆ ไม่มีการโอ้อวด

    • ดูเหมือนว่าในความเป็นจริงจะมีการประกาศอย่างเป็นทางการผ่าน WeChat

    • วิธีปล่อยแบบเงียบ ๆ นี้ก็ดี แต่ถ้ามีข้อมูลเชิงตัวเลขอย่าง benchmark ให้ด้วยก็น่าจะดียิ่งขึ้น

    • จังหวะที่ปล่อยตรงกับวันประกาศผลประกอบการของ Nvidia ก็เป็นเรื่องบังเอิญที่น่าสนใจ

  • ถ้าคนทั่วไปอยากใช้ LLM ขนาดใหญ่แบบนี้ แม้จะช้าก็ตาม อยากรู้ว่าต้องใช้ฮาร์ดแวร์อะไรบ้างแบบเฉพาะเจาะจง
    และมีวิธีลดการตั้งค่าหรือย่อขนาดโมเดลให้ใช้งานได้ง่ายขึ้นสำหรับคนทั่วไปหรือไม่

    • มีคนรัน DeepSeek R1 บนเครื่องโลคัลได้สำเร็จด้วยการ offload และ quantization แบบ 1.58bit
      ข้อมูลที่เกี่ยวข้อง: ลิงก์
      และกำลังทำเวอร์ชันใหม่อยู่

    • เวอร์ชัน 4bit quantized สามารถรันได้บน M3 Ultra 512GB
      แต่ราคาค่อนข้างแพง
      อีกวิธีคือใช้ระบบที่มี CPU ประสิทธิภาพสูงพร้อม RAM DDR5 500GB
      ซึ่งก็ไม่ถูกเช่นกัน และช้ากว่า M3 Ultra
      อีกทางเลือกคือใช้ Nvidia GPU หลายใบรวม VRAM ให้ได้ 500GB
      วิธีนี้แพงที่สุดแต่เร็วกว่า

    • ต้องใช้เซิร์ฟเวอร์บอร์ดแบบ dual socket พร้อม RAM DDR5 768GB และเพิ่ม GPU อย่างน้อย 16GB สำหรับประมวลผลพรอมป์ต์
      ต้องใช้เงินหลายล้านวอนเพื่อให้รันได้ที่ความเร็ว 8~10 โทเคน/วินาที

    • ใช้ Xeon แบบ dual-socket มือสองราคา 2,000 ดอลลาร์ พร้อม DDR4 768GB
      เพื่อรันเวอร์ชัน 4bit quantized ได้ที่ความเร็วราว 1.5 โทเคนต่อวินาที

    • ใช้งานผ่าน Amazon ได้ในราคาประมาณ 1 เซนต์ต่อ 10,000 โทเคน
      และยังมีคู่มือสำหรับตั้งค่า EC2 instance แบบแมนนวลด้วย
      ตัวอย่างเช่น instance g6e.48xlarge (192 vCPU, RAM 1536GB, L40S Tensor Core GPU 8 ใบ แต่ละใบมี VRAM 48GB)
      ค่าใช้งานต่อเดือนอยู่ที่ราว 22,000 ดอลลาร์
      คู่มือ Bedrock DeepSeek
      คู่มือ deploy แบบแมนนวล

  • คาดหวังกับ R1 รุ่นล่าสุดมาก
    เป็นโมเดลขนาด 685B พารามิเตอร์ แต่ไม่มี model card, release notes, รายละเอียดการเปลี่ยนแปลง หรือข้อมูล context window
    คุณภาพผลลัพธ์ของ R1 ต้นฉบับน่าประทับใจ แต่ก็น่าเสียดายที่ใช้โทเคนมาก
    ตอนนี้กำลังรอข้อมูลเพิ่มเติมออกมา

  • ก็น่าสนใจที่เมื่อเทียบกับ o4 mini high แล้ว ราคาประมาณครึ่งหนึ่งแต่ประสิทธิภาพแทบไม่ต่างกัน
    และยังเห็นว่าผู้ให้บริการส่วนใหญ่กำลังอัปโหลดเวอร์ชัน quantized อยู่ด้วย

  • หากต้องการประสิทธิภาพใกล้เคียง DeepSeek อย่างน้อยต้องใช้ GPU h100 80GB จำนวน 8 ใบ

    • คาดว่าค่าใช้จ่ายอยู่ที่ประมาณ 16~24 ดอลลาร์ต่อชั่วโมง
      ถ้าใช้โทเคนเยอะก็จะถูกกว่า OpenAI มาก
  • อยากลองใช้ DeepSeek บน Groq เร็ว ๆ

    • Groq ยังไม่รองรับโมเดล DeepSeek ตัวจริง
      ตอนนี้รองรับแค่ DeepSeek-r1-distill-llama-70b ซึ่งเป็นโมเดลที่ distilled มาจาก llama 70b
      คู่มือโมเดลของ Groq