1 คะแนน โดย GN⁺ 2025-12-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีกรณีที่ โมเดล Kimi K2 1T ทำงานบน ชิป M3 Ultra สองตัวที่มีหน่วยความจำ 512GB
  • ในโพสต์บน Twitter มีการกล่าวถึง สภาพแวดล้อมการรันและการจัดฮาร์ดแวร์ ของโมเดลดังกล่าว
  • จุดที่น่าสนใจคือมีการรัน โมเดลขนาด 1T บนฮาร์ดแวร์ Mac เชิงพาณิชย์
  • เป็นตัวอย่างที่แสดงให้เห็นถึงความเป็นไปได้ของ งานคำนวณ AI ประสิทธิภาพสูงบน Apple Silicon
  • เป็นความพยายามเชิงเทคนิคที่ชี้ให้เห็นถึง การขยายขีดจำกัดของการรันโมเดลภาษาขนาดใหญ่แบบโลคัล

เนื้อหาโพสต์บน Twitter

  • โพสต์ระบุชัดว่า โมเดล Kimi K2 1T ถูกนำไปรันบน M3 Ultra สองเครื่อง (แต่ละเครื่องมีหน่วยความจำ 512GB)
  • ไม่มีการกล่าวถึง ตัวเลขประสิทธิภาพเพิ่มเติมหรือผลลัพธ์อื่น ๆ
  • นอกเหนือจากทวีตดังกล่าว ไม่มีการให้บริบทเพิ่มเติมหรือรายละเอียดทางเทคนิคเชิงลึก

1 ความคิดเห็น

 
GN⁺ 2025-12-15
ความคิดเห็นจาก Hacker News
  • Kimi K2 เป็นโมเดลที่ แปลกมาก
    มันอาจไม่ฉลาดกว่า Opus 4.5 หรือ 5.2-Pro แต่สไตล์การเขียนมีเอกลักษณ์มาก และมี น้ำเสียงตรงไปตรงมา เหมือนคุยกับคนจริง ๆ
    ถ้าใช้เขียนข้อความสั้น ๆ แบบอีเมล มันถือว่าอยู่ในระดับดีที่สุดเท่าที่มีตอนนี้ และไม่ลังเลที่จะชี้ข้อผิดพลาดหรือแก้คำพูดเหลวไหลระหว่างสนทนา
    ให้ความรู้สึกว่าได้รับการฝึกมาแตกต่างจากโมเดลอื่นอย่างสิ้นเชิง จึงมีประโยชน์กับงาน editing มากกว่าวิเคราะห์ข้อมูลอย่างชัดเจน
    เพราะแบบนี้เลยจ่ายค่าสมาชิก Kimi ใช้งานจริง
    • ฉันก็คิดเหมือนกัน ในการสื่อสารสั้น ๆ Kimi K2 เหนือกว่าตัวอื่นชัดเจน
      มันมี ความฉลาดทางอารมณ์ (emotional intelligence) สูงมาก อ่านนัยและเจตนาของข้อความได้ดี และยังช่วยปรับประโยคโดยคำนึงถึงบริบททางสังคมด้วย
      ไม่รู้ว่า Moonshot ฝึกมันมายังไง แต่จุดนี้น่าสนใจมากจริง ๆ
      มันได้อันดับ 1 ในการวัดความฉลาดทางอารมณ์บน EQ-bench ซึ่งตรงกับประสบการณ์ที่ฉันรู้สึกเป๊ะ
    • มันเป็นโมเดลเดียวที่ผ่าน การทดสอบ Clocks ซึ่งเป็น AI benchmark ที่ฉันชอบ ได้อย่างสม่ำเสมอ
    • มันเป็น โมเดลเดียว ที่กล้าบอกตรง ๆ ว่าฉันผิด
      การได้เห็นแชตบอตพูดประมาณว่า “กรุณาแสดงตัวอย่างที่ทำซ้ำได้” เป็นประสบการณ์ที่แปลกดี
      อ้างอิงไว้ด้วยว่าใน Kagi ก็ใช้ Kimi K2 ได้
    • Sonnet 4.5 ก็เถียงผู้ใช้กลับคล้ายกัน แต่ส่วนใหญ่เป็นความเข้าใจผิดที่เกิดจาก บริบทไม่พอ
      เลยสงสัยว่า Kimi K2 แม่นในเรื่องนี้แค่ไหน
      สุดท้ายก็อดคิดไม่ได้ว่าแก่นสำคัญของโมเดลคือ instruction following ไม่ใช่หรือ
    • ด้วยคุณสมบัติแบบนี้ คะแนน EQ-bench สูงก็ถือว่าไม่แปลก
  • Kimi K2 เป็นโมเดลที่น่าประทับใจจริง ๆ
    ด้วยท่าทีที่ ไม่ประจบเกินไป มันจึงมีประโยชน์สำหรับใช้ตรวจสอบตรรกะ
    โมเดล ChatGPT รุ่นก่อน ๆ มักชมทุกอย่างไปหมด แต่ Kimi ถ้าขอให้วิจารณ์ มันพร้อมจัดหนักจนเหมือนตั้งคำถามได้ทั้งสติปัญญาและบรรพบุรุษของคุณ
    • ถ้าขอ มันจะเข้า โหมด roast จริง ๆ ซึ่งช่วยให้มีสมาธิได้ดี
    • เคยมีครั้งหนึ่งเปิด Grok ในรถ Tesla แล้วระบบรู้จำเสียงทำงานพลาดจนเจอสถานการณ์น่าอึดอัด
      โมเดลนั้นก็มีบุคลิกแบบไม่ประจบเลยเหมือน Kimi
  • รุ่น M3 Ultra 512GB ราคา $9,499
    ลิงก์ทางการของ Apple
    • รุ่นรีเฟอร์บิชซื้อได้ในราคา $8,070 จากลิงก์นี้
      และยังลดเพิ่มได้อีก 10% ด้วยบัตรของขวัญ
  • สงสัยว่ามี เวอร์ชัน Linux ของชุดนี้ไหม
    เคยได้ยินเรื่องการรองรับ RDNA แต่ไม่รู้ว่ามันต้องพึ่งฮาร์ดแวร์เฉพาะไหม (เช่น ConnectX หรือ Apple Thunderbolt) หรือใช้ 10G NIC ทั่วไปก็ได้
    • ถ้าจะเอาประสิทธิภาพระดับ production จำเป็นต้องใช้ฮาร์ดแวร์ที่รองรับ RDNA
      แต่ vLLM ก็รองรับ multi-node cluster บน Ethernet ทั่วไปด้วย
  • เช่นเคย คำกล่าวอ้างเรื่องประสิทธิภาพ ที่ไม่ระบุความยาวบริบทหรือเงื่อนไข prefill มักทำให้เข้าใจผิด
    ถ้าใช้คอนเท็กซ์ยาว ๆ อาจต้องรอคำตอบเป็นนาที
  • อยากซื้อเครื่องแบบนี้สักสองสามเครื่องอยู่เหมือนกัน แต่พอนึกถึง ค่าเสื่อมราคา แล้วก็รู้สึกว่ายังเร็วไป
    อีกไม่กี่ปีก็น่าจะถูกกว่านี้มาก
    • ก่อนซื้อควรดู benchmark ความเร็ว จริงให้ดี
      อย่าเชื่อแค่คำว่า “ใช้งานได้” เพราะความเร็วในการประมวลผลเมื่ออยู่ในสถานการณ์คอนเท็กซ์ยาวนั้นต่างกันลิบลับ
    • ส่วนตัวคิดว่าการซื้อเครื่องแบบนี้ไม่คุ้มในเชิงเศรษฐศาสตร์
      ใช้เงินเท่ากันสามารถซื้อ การใช้งานคลาวด์ ได้มากกว่ามาก
      แถมเราไม่ได้รันมัน 24/7 อยู่แล้ว เลยยิ่งไม่คุ้ม
      โมเดลโอเพนซอร์ซเอาไปรันบนบริการ latency ต่ำมาก อย่าง Groq หรือ Cerebras สะดวกกว่ามาก
    • เหตุผลที่รันโมเดลในเครื่องคือเรื่อง ความเป็นส่วนตัว ไม่ใช่เรื่องต้นทุนหรือ latency
    • หวังว่าอัปเดตครั้งหน้าจะใช้ชิปตระกูล M5
    • น่าจะดีกว่าถ้ารอให้ ราคา RAM นิ่งก่อน
  • ช่วงนี้สงสัยว่า benchmark แบบไหนยังใช้วัดผลได้จริง
    แม้จะทดสอบหลายโมเดลบน Cursor แต่ Deepseek v3.2 หรือ Kimi K2 ใช้งานได้ไม่ดีเพราะปัญหาเรื่องฟอร์แมต และยังมีโมเดลอื่น ๆ ที่ตกหล่นไป
    โดยเฉพาะอยากรู้ benchmark ในสายที่ไม่ใช่เว็บ เช่น C++ หรือ Rust
  • ควรพูดด้วยว่าโมเดลนี้เป็นเวอร์ชัน quant 4bit ถึงอย่างนั้นก็ยังน่าประทับใจ
    • Kimi K2 ถูกออกแบบมาโดยตั้งเป้า ปรับให้เหมาะกับ 4bit ตั้งแต่แรก
    • ถ้าจำนวนพารามิเตอร์อยู่ระดับล้านล้าน ก็มองได้ว่า การ quantize เป็นเงื่อนไขตั้งต้นอยู่แล้ว
  • สงสัยว่า token pre-fill acceleration ของ Exo Labs จะรันบน DGX Spark ได้ไหม
    ถ้าเอา Spark 2 เครื่องกับ Mac Studio 2 เครื่องมาผสมกัน จะได้ความเร็ว inference ใกล้เคียงกับ M5 Ultra 2 เครื่องหรือเปล่า
  • ชวนให้คิดว่านี่ไม่ใช่โมเดลเดียวกับที่เพิ่งชนะ การแข่งขันวาดนาฬิกาแบบเรียลไทม์ ไม่นานมานี้หรือเปล่า