โมเดล Kimi K2 1T รันได้บน M3 Ultra 512GB จำนวน 2 เครื่อง

(twitter.com/awnihannun)

1 คะแนน โดย GN⁺ 2025-12-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มีกรณีที่ โมเดล Kimi K2 1T ทำงานบน ชิป M3 Ultra สองตัวที่มีหน่วยความจำ 512GB
ในโพสต์บน Twitter มีการกล่าวถึง สภาพแวดล้อมการรันและการจัดฮาร์ดแวร์ ของโมเดลดังกล่าว
จุดที่น่าสนใจคือมีการรัน โมเดลขนาด 1T บนฮาร์ดแวร์ Mac เชิงพาณิชย์
เป็นตัวอย่างที่แสดงให้เห็นถึงความเป็นไปได้ของ งานคำนวณ AI ประสิทธิภาพสูงบน Apple Silicon
เป็นความพยายามเชิงเทคนิคที่ชี้ให้เห็นถึง การขยายขีดจำกัดของการรันโมเดลภาษาขนาดใหญ่แบบโลคัล

เนื้อหาโพสต์บน Twitter

โพสต์ระบุชัดว่า โมเดล Kimi K2 1T ถูกนำไปรันบน M3 Ultra สองเครื่อง (แต่ละเครื่องมีหน่วยความจำ 512GB)
ไม่มีการกล่าวถึง ตัวเลขประสิทธิภาพเพิ่มเติมหรือผลลัพธ์อื่น ๆ
นอกเหนือจากทวีตดังกล่าว ไม่มีการให้บริบทเพิ่มเติมหรือรายละเอียดทางเทคนิคเชิงลึก

1 ความคิดเห็น

GN⁺ 2025-12-15

ความคิดเห็นจาก Hacker News

Kimi K2 เป็นโมเดลที่ แปลกมาก
มันอาจไม่ฉลาดกว่า Opus 4.5 หรือ 5.2-Pro แต่สไตล์การเขียนมีเอกลักษณ์มาก และมี น้ำเสียงตรงไปตรงมา เหมือนคุยกับคนจริง ๆ
ถ้าใช้เขียนข้อความสั้น ๆ แบบอีเมล มันถือว่าอยู่ในระดับดีที่สุดเท่าที่มีตอนนี้ และไม่ลังเลที่จะชี้ข้อผิดพลาดหรือแก้คำพูดเหลวไหลระหว่างสนทนา
ให้ความรู้สึกว่าได้รับการฝึกมาแตกต่างจากโมเดลอื่นอย่างสิ้นเชิง จึงมีประโยชน์กับงาน editing มากกว่าวิเคราะห์ข้อมูลอย่างชัดเจน
เพราะแบบนี้เลยจ่ายค่าสมาชิก Kimi ใช้งานจริง
- ฉันก็คิดเหมือนกัน ในการสื่อสารสั้น ๆ Kimi K2 เหนือกว่าตัวอื่นชัดเจน
  มันมี ความฉลาดทางอารมณ์ (emotional intelligence) สูงมาก อ่านนัยและเจตนาของข้อความได้ดี และยังช่วยปรับประโยคโดยคำนึงถึงบริบททางสังคมด้วย
  ไม่รู้ว่า Moonshot ฝึกมันมายังไง แต่จุดนี้น่าสนใจมากจริง ๆ
  มันได้อันดับ 1 ในการวัดความฉลาดทางอารมณ์บน EQ-bench ซึ่งตรงกับประสบการณ์ที่ฉันรู้สึกเป๊ะ
- มันเป็นโมเดลเดียวที่ผ่าน การทดสอบ Clocks ซึ่งเป็น AI benchmark ที่ฉันชอบ ได้อย่างสม่ำเสมอ
- มันเป็น โมเดลเดียว ที่กล้าบอกตรง ๆ ว่าฉันผิด
  การได้เห็นแชตบอตพูดประมาณว่า “กรุณาแสดงตัวอย่างที่ทำซ้ำได้” เป็นประสบการณ์ที่แปลกดี
  อ้างอิงไว้ด้วยว่าใน Kagi ก็ใช้ Kimi K2 ได้
- Sonnet 4.5 ก็เถียงผู้ใช้กลับคล้ายกัน แต่ส่วนใหญ่เป็นความเข้าใจผิดที่เกิดจาก บริบทไม่พอ
  เลยสงสัยว่า Kimi K2 แม่นในเรื่องนี้แค่ไหน
  สุดท้ายก็อดคิดไม่ได้ว่าแก่นสำคัญของโมเดลคือ instruction following ไม่ใช่หรือ
- ด้วยคุณสมบัติแบบนี้ คะแนน EQ-bench สูงก็ถือว่าไม่แปลก
Kimi K2 เป็นโมเดลที่น่าประทับใจจริง ๆ
ด้วยท่าทีที่ ไม่ประจบเกินไป มันจึงมีประโยชน์สำหรับใช้ตรวจสอบตรรกะ
โมเดล ChatGPT รุ่นก่อน ๆ มักชมทุกอย่างไปหมด แต่ Kimi ถ้าขอให้วิจารณ์ มันพร้อมจัดหนักจนเหมือนตั้งคำถามได้ทั้งสติปัญญาและบรรพบุรุษของคุณ
- ถ้าขอ มันจะเข้า โหมด roast จริง ๆ ซึ่งช่วยให้มีสมาธิได้ดี
- เคยมีครั้งหนึ่งเปิด Grok ในรถ Tesla แล้วระบบรู้จำเสียงทำงานพลาดจนเจอสถานการณ์น่าอึดอัด
  โมเดลนั้นก็มีบุคลิกแบบไม่ประจบเลยเหมือน Kimi
รุ่น M3 Ultra 512GB ราคา $9,499
ลิงก์ทางการของ Apple
- รุ่นรีเฟอร์บิชซื้อได้ในราคา $8,070 จากลิงก์นี้
  และยังลดเพิ่มได้อีก 10% ด้วยบัตรของขวัญ
สงสัยว่ามี เวอร์ชัน Linux ของชุดนี้ไหม
เคยได้ยินเรื่องการรองรับ RDNA แต่ไม่รู้ว่ามันต้องพึ่งฮาร์ดแวร์เฉพาะไหม (เช่น ConnectX หรือ Apple Thunderbolt) หรือใช้ 10G NIC ทั่วไปก็ได้
- ถ้าจะเอาประสิทธิภาพระดับ production จำเป็นต้องใช้ฮาร์ดแวร์ที่รองรับ RDNA
  แต่ vLLM ก็รองรับ multi-node cluster บน Ethernet ทั่วไปด้วย
เช่นเคย คำกล่าวอ้างเรื่องประสิทธิภาพ ที่ไม่ระบุความยาวบริบทหรือเงื่อนไข prefill มักทำให้เข้าใจผิด
ถ้าใช้คอนเท็กซ์ยาว ๆ อาจต้องรอคำตอบเป็นนาที
อยากซื้อเครื่องแบบนี้สักสองสามเครื่องอยู่เหมือนกัน แต่พอนึกถึง ค่าเสื่อมราคา แล้วก็รู้สึกว่ายังเร็วไป
อีกไม่กี่ปีก็น่าจะถูกกว่านี้มาก
- ก่อนซื้อควรดู benchmark ความเร็ว จริงให้ดี
  อย่าเชื่อแค่คำว่า “ใช้งานได้” เพราะความเร็วในการประมวลผลเมื่ออยู่ในสถานการณ์คอนเท็กซ์ยาวนั้นต่างกันลิบลับ
- ส่วนตัวคิดว่าการซื้อเครื่องแบบนี้ไม่คุ้มในเชิงเศรษฐศาสตร์
  ใช้เงินเท่ากันสามารถซื้อ การใช้งานคลาวด์ ได้มากกว่ามาก
  แถมเราไม่ได้รันมัน 24/7 อยู่แล้ว เลยยิ่งไม่คุ้ม
  โมเดลโอเพนซอร์ซเอาไปรันบนบริการ latency ต่ำมาก อย่าง Groq หรือ Cerebras สะดวกกว่ามาก
- เหตุผลที่รันโมเดลในเครื่องคือเรื่อง ความเป็นส่วนตัว ไม่ใช่เรื่องต้นทุนหรือ latency
- หวังว่าอัปเดตครั้งหน้าจะใช้ชิปตระกูล M5
- น่าจะดีกว่าถ้ารอให้ ราคา RAM นิ่งก่อน
ช่วงนี้สงสัยว่า benchmark แบบไหนยังใช้วัดผลได้จริง
แม้จะทดสอบหลายโมเดลบน Cursor แต่ Deepseek v3.2 หรือ Kimi K2 ใช้งานได้ไม่ดีเพราะปัญหาเรื่องฟอร์แมต และยังมีโมเดลอื่น ๆ ที่ตกหล่นไป
โดยเฉพาะอยากรู้ benchmark ในสายที่ไม่ใช่เว็บ เช่น C++ หรือ Rust
ควรพูดด้วยว่าโมเดลนี้เป็นเวอร์ชัน quant 4bit ถึงอย่างนั้นก็ยังน่าประทับใจ
- Kimi K2 ถูกออกแบบมาโดยตั้งเป้า ปรับให้เหมาะกับ 4bit ตั้งแต่แรก
- ถ้าจำนวนพารามิเตอร์อยู่ระดับล้านล้าน ก็มองได้ว่า การ quantize เป็นเงื่อนไขตั้งต้นอยู่แล้ว
สงสัยว่า token pre-fill acceleration ของ Exo Labs จะรันบน DGX Spark ได้ไหม
ถ้าเอา Spark 2 เครื่องกับ Mac Studio 2 เครื่องมาผสมกัน จะได้ความเร็ว inference ใกล้เคียงกับ M5 Ultra 2 เครื่องหรือเปล่า
ชวนให้คิดว่านี่ไม่ใช่โมเดลเดียวกับที่เพิ่งชนะ การแข่งขันวาดนาฬิกาแบบเรียลไทม์ ไม่นานมานี้หรือเปล่า

โมเดล Kimi K2 1T รันได้บน M3 Ultra 512GB จำนวน 2 เครื่อง

เนื้อหาโพสต์บน Twitter

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News