เปิดตัว Deepseek R1-0528

(huggingface.co)

1 คะแนน โดย GN⁺ 2025-05-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Deepseek R1-0528 เปิดตัวในฐานะ LLM รุ่นล่าสุด
โมเดลนี้เปิดให้ใช้งานแบบ โอเพนซอร์ส ช่วยเพิ่มการเข้าถึงและการนำไปใช้ประโยชน์
แสดงประสิทธิภาพที่แข็งแกร่งในงานด้าน การประมวลผลและการสร้างภาษาธรรมชาติ ที่หลากหลาย
มอบข้อได้เปรียบต่อการวิจัยและการใช้งานจริงด้วย สถาปัตยกรรมที่เร็วและมีประสิทธิภาพยิ่งขึ้น
กำลังก้าวขึ้นมาเป็นอีกหนึ่งทางเลือกที่มี ความสามารถในการแข่งขัน ในวงการ AI

แนะนำโมเดล Deepseek R1-0528

Deepseek R1-0528 เป็น โมเดลภาษาขนาดใหญ่ (LLM) รุ่นล่าสุด ที่สามารถใช้งานในด้านความเข้าใจและการสร้างภาษาธรรมชาติ
โมเดลนี้เผยแพร่แบบ โอเพนซอร์ส ผ่าน Hugging Face ทำให้นักวิจัยและนักพัฒนาทุกคนสามารถนำไปใช้ได้อย่างอิสระ
โมเดล R1-0528 ที่พัฒนาโดย DeepSeek-AI ได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่ และสามารถนำไปใช้กับงานด้านการประมวลผลและการสร้างภาษาธรรมชาติหลากหลายรูปแบบ เช่น การสรุปข้อความ การแปล การตอบคำถาม และการสร้างโค้ด
เมื่อเทียบกับโมเดลโอเพนซอร์สที่เปิดเผยก่อนหน้านี้ จุดเด่นของมันคือ ความเร็วในการอนุมานที่เหนือกว่าและโครงสร้างเครือข่ายที่ได้รับการปรับแต่งให้เหมาะสม
ด้วยจุดแข็งเหล่านี้ จึงกำลังได้รับความสนใจในฐานะตัวเลือกที่นักพัฒนาซึ่งต้องการ ผลลัพธ์ที่รวดเร็วและแม่นยำ ทั้งในงานวิจัยและสภาพแวดล้อมอุตสาหกรรมจริงอาจให้ความนิยม

จุดเด่นและข้อดีของโมเดล

Deepseek R1-0528 มีความแตกต่างจากโมเดล LLM เดิมในด้าน ความสามารถในการขยายตัว ประสิทธิภาพ และความรวดเร็ว
ใช้ โครงสร้างแบบโมดูลาร์ ที่ช่วยให้นักพัฒนาปรับแต่งโมเดลได้ง่าย และประยุกต์ใช้ให้เหมาะกับภาษาหรือโดเมนต่าง ๆ ได้
ด้วยอัลกอริทึมที่ได้รับการปรับปรุง ทำให้ ความเร็วในการประมวลผล ทั้งในขั้นตอนการฝึกและการอนุมานดีขึ้น
ผู้ใช้ทุกคนสามารถโหลดและใช้งานโมเดลได้อย่างสะดวกผ่านไลบรารีของ Hugging Face

การใช้งานและผลที่คาดหวัง

สามารถนำไปใช้ใน สถานการณ์การทำงานจริงที่หลากหลาย เช่น งานวิจัย AI, แชตบอต, การสร้างเอกสารอัตโนมัติ, และผู้ช่วยเขียนโค้ด
การเปิดเป็นโอเพนซอร์สช่วยให้ การประยุกต์ใช้กับชุดข้อมูลจริงและการตรวจสอบประสิทธิภาพของโมเดล ทำได้อย่างอิสระมากขึ้น
การเปิดตัว DeepSeek R1-0528 ช่วยส่งเสริม สภาพแวดล้อมการแข่งขันที่ดีและความก้าวหน้าทางเทคโนโลยี ภายในชุมชน AI ทั่วโลก

1 ความคิดเห็น

GN⁺ 2025-05-29

ความคิดเห็นจาก Hacker News

ตอนแรกเพิ่งรู้ว่าสามารถใช้ DeepSeek R1 ผ่าน openrouter ได้จากผู้ให้บริการ 7 ราย
ลิงก์
เป็นอัปเดตของ DeepSeek R1 ต้นฉบับเมื่อวันที่ 28 พฤษภาคม โดยประสิทธิภาพอยู่ในระดับใกล้เคียงกับ OpenAI o1
ในฐานะโอเพนซอร์สก็มีการเปิดเผย reasoning tokens ด้วย
พารามิเตอร์ทั้งหมดมี 671B และระหว่างทำ inference จะเปิดใช้เพียง 37B
เป็นโมเดลโอเพนซอร์สเต็มรูปแบบ
- สงสัยว่ามีโมเดลที่ดาวน์โหลดได้หรือไม่
  ไม่คุ้นกับ openrouter และหาโมเดลใน ollama ไม่เจอ จึงอยากหาข้อมูลเพิ่ม
- ไม่มีการเปิดเผยเลยว่าโมเดลถูกฝึกด้วยข้อมูลอะไร
  แม้จะปล่อย weights ให้ดาวน์โหลดได้ แต่โดยพื้นฐานแล้วไม่ใช่โอเพนซอร์สที่ทำซ้ำได้จริง
  เคยมีโปรเจกต์ชื่อ "Open R1" ที่เปิดเผยไปถึงข้อมูลฝึกเองด้วย
  เลยสงสัยว่าตอนนี้คืบหน้าไปถึงไหนแล้ว
  ลิงก์
- ไม่เห็นด้วยกับคำกล่าวที่ว่า DeepSeek R1 เป็นโอเพนซอร์ส
  ย้ำว่าการดาวน์โหลดได้ไม่ได้แปลว่าเป็นโอเพนซอร์ส
  ลิงก์
น่าเสียดายที่แทบไม่มีข้อมูลเกี่ยวกับ DeepSeek R1 เลย
ไม่มีข้อมูล benchmark ด้วย ทำให้นึกถึงสมัยก่อนที่ Mistral เคยปล่อย magnet link ของ torrent ทางทวีต
- ช่วงนี้รู้สึกว่า benchmark ไม่ค่อยมีความหมายแล้ว
  เพราะเอาแต่โฟกัสกับการปรับโมเดลให้เข้ากับชุดทดสอบที่เปิดเผยไปแล้ว
  แต่กลับละเลยพัฒนาการเชิงแก่นแท้เพื่อเพิ่มความเป็นอเนกประสงค์
  ถ้าดู leaderboard ของ Huggingface จะเห็นว่าโมเดลโอเพนซอร์สที่ผ่านการ fine-tune หลายตัวอยู่อันดับบน ๆ แต่จริง ๆ ก็ไม่ได้ถูกใช้งานอย่างแพร่หลาย
  ลิงก์
- ในตาราง benchmark เห็นคะแนน "Overall" และ "Median" แต่
  ไม่มีข้อมูลว่าเขาทดสอบอะไรอย่างชัดเจน
  โดยรวมดูคล้ายกับโมเดลใหม่ ๆ รุ่นอื่น แต่ในแง่ต้นทุนมีข้อได้เปรียบเล็กน้อย
  ข้อเสียคือความเร็ว inference ยังช้าเหมือน r1 รุ่นก่อนหน้า (ใช้โทเคนเยอะ)
  ลิงก์ตาราง
- วิธีการเปิดเผยของ DeepSeek คล้ายกับ Mistral ในอดีต เลยสงสัยว่าอาจเป็นการคารวะโดยตั้งใจหรือไม่
- ปกติ DeepSeek มักจะลงงานวิจัยในวันถัดจากที่ปล่อยโมเดล
  ถ้าจัดตารางให้ดีขึ้นอีกนิดก็น่าจะดูเรียบร้อยกว่านี้ แต่ตอนนี้ข่าวในวงการเลยออกมาค่อนข้างกระจัดกระจาย
จุดที่แปลกดีคือ DeepSeek เป็นหนึ่งใน LLM ไม่กี่ตัวที่รันได้บน iPod Touch ที่ติดตั้ง iOS เวอร์ชันเก่า
ชอบที่ DeepSeek ปล่อยอัปเดตใหม่แบบสบาย ๆ ไม่ได้ทำให้เป็นเรื่องใหญ่โต
แม้จะมีการปรับปรุงครั้งใหญ่ก็ยังปล่อยเงียบ ๆ โดยไม่โปรโมตมากนัก ซึ่งเป็นบรรยากาศที่ชอบ
- สงสัยว่าการปรับปรุงใหญ่จริงหรือไม่
  อยากรู้ว่ามีข้อมูลเปรียบเทียบอย่างเป็นทางการ เช่น benchmark หรือเปล่า
- ทั้ง OpenAI และ Anthropic ช่วงหลังก็มักโหมโรงโมเดลใหม่เกินจริง
  พร้อมใส่เรื่องเล่าทำนองว่า
  'โมเดลนี้อันตรายแค่ไหน หลบหนีอย่างไร หลอกคนอย่างไร และแฮ็กเซิร์ฟเวอร์หลักได้อย่างไร'
  จนให้อารมณ์แบบ nightmare ขณะที่ DeepSeek ปล่อยแบบเรียบ ๆ ไม่มีการโอ้อวด
- ดูเหมือนว่าในความเป็นจริงจะมีการประกาศอย่างเป็นทางการผ่าน WeChat
- วิธีปล่อยแบบเงียบ ๆ นี้ก็ดี แต่ถ้ามีข้อมูลเชิงตัวเลขอย่าง benchmark ให้ด้วยก็น่าจะดียิ่งขึ้น
- จังหวะที่ปล่อยตรงกับวันประกาศผลประกอบการของ Nvidia ก็เป็นเรื่องบังเอิญที่น่าสนใจ
ถ้าคนทั่วไปอยากใช้ LLM ขนาดใหญ่แบบนี้ แม้จะช้าก็ตาม อยากรู้ว่าต้องใช้ฮาร์ดแวร์อะไรบ้างแบบเฉพาะเจาะจง
และมีวิธีลดการตั้งค่าหรือย่อขนาดโมเดลให้ใช้งานได้ง่ายขึ้นสำหรับคนทั่วไปหรือไม่
- มีคนรัน DeepSeek R1 บนเครื่องโลคัลได้สำเร็จด้วยการ offload และ quantization แบบ 1.58bit
  ข้อมูลที่เกี่ยวข้อง: ลิงก์
  และกำลังทำเวอร์ชันใหม่อยู่
- เวอร์ชัน 4bit quantized สามารถรันได้บน M3 Ultra 512GB
  แต่ราคาค่อนข้างแพง
  อีกวิธีคือใช้ระบบที่มี CPU ประสิทธิภาพสูงพร้อม RAM DDR5 500GB
  ซึ่งก็ไม่ถูกเช่นกัน และช้ากว่า M3 Ultra
  อีกทางเลือกคือใช้ Nvidia GPU หลายใบรวม VRAM ให้ได้ 500GB
  วิธีนี้แพงที่สุดแต่เร็วกว่า
- ต้องใช้เซิร์ฟเวอร์บอร์ดแบบ dual socket พร้อม RAM DDR5 768GB และเพิ่ม GPU อย่างน้อย 16GB สำหรับประมวลผลพรอมป์ต์
  ต้องใช้เงินหลายล้านวอนเพื่อให้รันได้ที่ความเร็ว 8~10 โทเคน/วินาที
- ใช้ Xeon แบบ dual-socket มือสองราคา 2,000 ดอลลาร์ พร้อม DDR4 768GB
  เพื่อรันเวอร์ชัน 4bit quantized ได้ที่ความเร็วราว 1.5 โทเคนต่อวินาที
- ใช้งานผ่าน Amazon ได้ในราคาประมาณ 1 เซนต์ต่อ 10,000 โทเคน
  และยังมีคู่มือสำหรับตั้งค่า EC2 instance แบบแมนนวลด้วย
  ตัวอย่างเช่น instance g6e.48xlarge (192 vCPU, RAM 1536GB, L40S Tensor Core GPU 8 ใบ แต่ละใบมี VRAM 48GB)
  ค่าใช้งานต่อเดือนอยู่ที่ราว 22,000 ดอลลาร์
  คู่มือ Bedrock DeepSeek
  คู่มือ deploy แบบแมนนวล
คาดหวังกับ R1 รุ่นล่าสุดมาก
เป็นโมเดลขนาด 685B พารามิเตอร์ แต่ไม่มี model card, release notes, รายละเอียดการเปลี่ยนแปลง หรือข้อมูล context window
คุณภาพผลลัพธ์ของ R1 ต้นฉบับน่าประทับใจ แต่ก็น่าเสียดายที่ใช้โทเคนมาก
ตอนนี้กำลังรอข้อมูลเพิ่มเติมออกมา
ก็น่าสนใจที่เมื่อเทียบกับ o4 mini high แล้ว ราคาประมาณครึ่งหนึ่งแต่ประสิทธิภาพแทบไม่ต่างกัน
และยังเห็นว่าผู้ให้บริการส่วนใหญ่กำลังอัปโหลดเวอร์ชัน quantized อยู่ด้วย
หากต้องการประสิทธิภาพใกล้เคียง DeepSeek อย่างน้อยต้องใช้ GPU h100 80GB จำนวน 8 ใบ
- คาดว่าค่าใช้จ่ายอยู่ที่ประมาณ 16~24 ดอลลาร์ต่อชั่วโมง
  ถ้าใช้โทเคนเยอะก็จะถูกกว่า OpenAI มาก
อยากลองใช้ DeepSeek บน Groq เร็ว ๆ
- Groq ยังไม่รองรับโมเดล DeepSeek ตัวจริง
  ตอนนี้รองรับแค่ DeepSeek-r1-distill-llama-70b ซึ่งเป็นโมเดลที่ distilled มาจาก llama 70b
  คู่มือโมเดลของ Groq

เปิดตัว Deepseek R1-0528

แนะนำโมเดล Deepseek R1-0528

จุดเด่นและข้อดีของโมเดล

การใช้งานและผลที่คาดหวัง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News