- มีกรณีที่ โมเดล Kimi K2 1T ทำงานบน ชิป M3 Ultra สองตัวที่มีหน่วยความจำ 512GB
- ในโพสต์บน Twitter มีการกล่าวถึง สภาพแวดล้อมการรันและการจัดฮาร์ดแวร์ ของโมเดลดังกล่าว
- จุดที่น่าสนใจคือมีการรัน โมเดลขนาด 1T บนฮาร์ดแวร์ Mac เชิงพาณิชย์
- เป็นตัวอย่างที่แสดงให้เห็นถึงความเป็นไปได้ของ งานคำนวณ AI ประสิทธิภาพสูงบน Apple Silicon
- เป็นความพยายามเชิงเทคนิคที่ชี้ให้เห็นถึง การขยายขีดจำกัดของการรันโมเดลภาษาขนาดใหญ่แบบโลคัล
เนื้อหาโพสต์บน Twitter
- โพสต์ระบุชัดว่า โมเดล Kimi K2 1T ถูกนำไปรันบน M3 Ultra สองเครื่อง (แต่ละเครื่องมีหน่วยความจำ 512GB)
- ไม่มีการกล่าวถึง ตัวเลขประสิทธิภาพเพิ่มเติมหรือผลลัพธ์อื่น ๆ
- นอกเหนือจากทวีตดังกล่าว ไม่มีการให้บริบทเพิ่มเติมหรือรายละเอียดทางเทคนิคเชิงลึก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มันอาจไม่ฉลาดกว่า Opus 4.5 หรือ 5.2-Pro แต่สไตล์การเขียนมีเอกลักษณ์มาก และมี น้ำเสียงตรงไปตรงมา เหมือนคุยกับคนจริง ๆ
ถ้าใช้เขียนข้อความสั้น ๆ แบบอีเมล มันถือว่าอยู่ในระดับดีที่สุดเท่าที่มีตอนนี้ และไม่ลังเลที่จะชี้ข้อผิดพลาดหรือแก้คำพูดเหลวไหลระหว่างสนทนา
ให้ความรู้สึกว่าได้รับการฝึกมาแตกต่างจากโมเดลอื่นอย่างสิ้นเชิง จึงมีประโยชน์กับงาน editing มากกว่าวิเคราะห์ข้อมูลอย่างชัดเจน
เพราะแบบนี้เลยจ่ายค่าสมาชิก Kimi ใช้งานจริง
มันมี ความฉลาดทางอารมณ์ (emotional intelligence) สูงมาก อ่านนัยและเจตนาของข้อความได้ดี และยังช่วยปรับประโยคโดยคำนึงถึงบริบททางสังคมด้วย
ไม่รู้ว่า Moonshot ฝึกมันมายังไง แต่จุดนี้น่าสนใจมากจริง ๆ
มันได้อันดับ 1 ในการวัดความฉลาดทางอารมณ์บน EQ-bench ซึ่งตรงกับประสบการณ์ที่ฉันรู้สึกเป๊ะ
การได้เห็นแชตบอตพูดประมาณว่า “กรุณาแสดงตัวอย่างที่ทำซ้ำได้” เป็นประสบการณ์ที่แปลกดี
อ้างอิงไว้ด้วยว่าใน Kagi ก็ใช้ Kimi K2 ได้
เลยสงสัยว่า Kimi K2 แม่นในเรื่องนี้แค่ไหน
สุดท้ายก็อดคิดไม่ได้ว่าแก่นสำคัญของโมเดลคือ instruction following ไม่ใช่หรือ
ด้วยท่าทีที่ ไม่ประจบเกินไป มันจึงมีประโยชน์สำหรับใช้ตรวจสอบตรรกะ
โมเดล ChatGPT รุ่นก่อน ๆ มักชมทุกอย่างไปหมด แต่ Kimi ถ้าขอให้วิจารณ์ มันพร้อมจัดหนักจนเหมือนตั้งคำถามได้ทั้งสติปัญญาและบรรพบุรุษของคุณ
โมเดลนั้นก็มีบุคลิกแบบไม่ประจบเลยเหมือน Kimi
ลิงก์ทางการของ Apple
และยังลดเพิ่มได้อีก 10% ด้วยบัตรของขวัญ
เคยได้ยินเรื่องการรองรับ RDNA แต่ไม่รู้ว่ามันต้องพึ่งฮาร์ดแวร์เฉพาะไหม (เช่น ConnectX หรือ Apple Thunderbolt) หรือใช้ 10G NIC ทั่วไปก็ได้
แต่ vLLM ก็รองรับ multi-node cluster บน Ethernet ทั่วไปด้วย
ถ้าใช้คอนเท็กซ์ยาว ๆ อาจต้องรอคำตอบเป็นนาที
อีกไม่กี่ปีก็น่าจะถูกกว่านี้มาก
อย่าเชื่อแค่คำว่า “ใช้งานได้” เพราะความเร็วในการประมวลผลเมื่ออยู่ในสถานการณ์คอนเท็กซ์ยาวนั้นต่างกันลิบลับ
ใช้เงินเท่ากันสามารถซื้อ การใช้งานคลาวด์ ได้มากกว่ามาก
แถมเราไม่ได้รันมัน 24/7 อยู่แล้ว เลยยิ่งไม่คุ้ม
โมเดลโอเพนซอร์ซเอาไปรันบนบริการ latency ต่ำมาก อย่าง Groq หรือ Cerebras สะดวกกว่ามาก
แม้จะทดสอบหลายโมเดลบน Cursor แต่ Deepseek v3.2 หรือ Kimi K2 ใช้งานได้ไม่ดีเพราะปัญหาเรื่องฟอร์แมต และยังมีโมเดลอื่น ๆ ที่ตกหล่นไป
โดยเฉพาะอยากรู้ benchmark ในสายที่ไม่ใช่เว็บ เช่น C++ หรือ Rust
ถ้าเอา Spark 2 เครื่องกับ Mac Studio 2 เครื่องมาผสมกัน จะได้ความเร็ว inference ใกล้เคียงกับ M5 Ultra 2 เครื่องหรือเปล่า