• Apple เปิดตัว โมเดล AI แบบ vision-language (AFN, Apple Foundation Models) และ Foundation Models framework (API) สำหรับนักพัฒนา ใหม่ พร้อมยกระดับทั้ง ประสิทธิภาพและความคุ้มค่าของโมเดลทั้งบนอุปกรณ์และบนคลาวด์ อย่างมาก
  • โมเดล AFM บนอุปกรณ์ ใช้ทรานส์ฟอร์เมอร์ 3B พารามิเตอร์ และวิชันทรานส์ฟอร์เมอร์ 300M พารามิเตอร์ รองรับ อินพุตข้อความและภาพ รวมถึงความสามารถด้านหลายภาษาและวิชัน ส่วนโมเดลฝั่งเซิร์ฟเวอร์ใช้สถาปัตยกรรม MoE แบบปรับแต่งเอง
  • มอบความสามารถเด่นอย่าง การทำโมเดลให้เบา (quantization และ LoRA), รองรับ 15 ภาษา, การทำความเข้าใจภาพ, การใช้เครื่องมือ และการเข้าถึงสำหรับนักพัฒนาที่ดีขึ้น
  • โมเดลบนอุปกรณ์ แสดงจุดแข็งเหนือโมเดลคู่แข่งในด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ แต่ โมเดลฝั่งเซิร์ฟเวอร์ยังมีประสิทธิภาพด้อยกว่าโมเดลล่าสุดอย่าง GPT-4o
  • กำลังมีการจับตา การเปลี่ยนทิศทางกลยุทธ์ AI ของ Apple และอิทธิพลภายในระบบนิเวศ iOS ท่ามกลางประเด็นถกเถียงล่าสุดเรื่องงานวิจัยของ Apple และความล่าช้าในการอัปเกรด Siri AI

Apple Foundation Models (AFM) อัปเดตครั้งใหญ่

  • Apple อัปเกรดทั้ง โมเดล AI แบบ on-device (ติดตั้งบนมือถือ) และแบบโฮสต์บนเซิร์ฟเวอร์ (AFM) โดย ความเร็ว ประสิทธิภาพ และสมรรถนะดีขึ้นอย่างมาก
  • มีการเปิดให้ใช้ API สำหรับนักพัฒนา (Foundation Models framework) ใหม่ ทำให้สามารถ เรียกใช้ AI บนอุปกรณ์ ได้บนอุปกรณ์ที่เปิดใช้งานฟีเจอร์ Apple Intelligence

สถาปัตยกรรมและความสามารถหลัก

  • อินพุต/เอาต์พุต: ข้อความ, ภาพ (อินพุตได้สูงสุด 65,000 โทเค็น), เอาต์พุตเป็นข้อความ
  • สถาปัตยกรรม:
    • AFM-on-Device: ทรานส์ฟอร์เมอร์ 3 พันล้านพารามิเตอร์, วิชันทรานส์ฟอร์เมอร์ 300 ล้านพารามิเตอร์
    • AFM-Server: ทรานส์ฟอร์เมอร์ Mixture-of-Experts (MoE) แบบปรับแต่งเอง (ไม่เปิดเผยจำนวนพารามิเตอร์), วิชันทรานส์ฟอร์เมอร์ 1 พันล้านพารามิเตอร์
  • ประสิทธิภาพ: เด่นด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ
  • การใช้งาน: AFM-on-Device ใช้งานได้ผ่าน Foundation Models framework ส่วน AFM-Server ยังไม่เปิดให้ใช้งานสาธารณะ
  • รองรับ 15 ภาษา และรองรับการใช้เครื่องมือ
  • ข้อมูลที่ไม่เปิดเผย: จำนวนพารามิเตอร์ของโมเดลฝั่งเซิร์ฟเวอร์, ขีดจำกัดโทเค็น, รายละเอียดชุดข้อมูลฝึก ฯลฯ ยังไม่ถูกเปิดเผย

จุดต่างเชิงเทคนิคและการปรับแต่งให้เหมาะสม

  • Quantization:
    • โมเดลบนอุปกรณ์บีบอัดน้ำหนักส่วนใหญ่เหลือ 2 บิต และเลเยอร์ embedding เหลือ 4 บิต (ใช้การฝึกแบบรับรู้ quantization)
    • โมเดลฝั่งเซิร์ฟเวอร์ใช้ ASTC (การบีบอัดสำหรับกราฟิก) โดยบีบอัดได้เฉลี่ย 3.56 บิต (embedding 4 บิต)
  • ใช้ LoRA adapter เพื่อชดเชยประสิทธิภาพที่ลดลงจากการบีบอัด และปรับให้เหมาะกับงานเฉพาะ เช่น การสรุป การแก้ไขข้อความ และการถาม-ตอบ
  • สถาปัตยกรรม MoE แบบปรับแต่งเอง ช่วยลด communication overhead ระหว่างฮาร์ดแวร์ให้ต่ำที่สุด จึงเพิ่มประสิทธิภาพได้

การประเมินประสิทธิภาพ

  • โมเดลบนอุปกรณ์: เหนือกว่าโมเดลคู่แข่งอย่าง Qwen2.5-VL-3B ในด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ
  • โมเดลฝั่งเซิร์ฟเวอร์: บางครั้งนำหน้า Qwen3-23B เล็กน้อย แต่ ยังตามหลังโมเดลล่าสุดอย่าง GPT-4o

ประเด็นถกเถียงล่าสุดและการเปลี่ยนแปลงของกลยุทธ์ AI

  • เมื่อไม่นานมานี้ Apple ก่อให้เกิดกระแสถกเถียงจาก งานวิจัยที่ทดลองข้อจำกัดด้านการให้เหตุผลของโมเดล AI รุ่นล่าสุด 5 รุ่น และไม่นานก็มีงานวิจัยโต้แย้งตามออกมา
  • การอัปเกรด Siri AI ถูกเลื่อนออกไปอย่างไม่มีกำหนด และยังมีการยื่นฟ้องแบบกลุ่มเกี่ยวกับการที่ iPhone รุ่นใหม่มีฟีเจอร์ AI ไม่เพียงพอ
  • ท่ามกลางสถานการณ์ที่ฝั่ง Google/Android กำลังนำหน้าอย่างรวดเร็วในการแข่งขัน AI Apple กำลังปรับกลยุทธ์ AI ผ่าน Foundation Models และสิ่งที่เกี่ยวข้อง

แนวโน้มและผลกระทบในอนาคต

  • iOS มีแนวโน้มสูงที่จะใช้อำนาจจากการเป็นโมเดลที่ติดตั้งมาโดยค่าเริ่มต้น ส่งอิทธิพลมหาศาลต่อระบบนิเวศนักพัฒนาแอป
  • ด้วย ข้อจำกัดด้านหน่วยความจำและขนาดโมเดล คาดว่านักพัฒนาแอปจะหันมาใช้โมเดลที่ Apple จัดหาให้เพิ่มขึ้นมาก แทนการ bundle โมเดล AI เข้าไปเองโดยตรง
  • กำลังมีการจับตาว่ากลยุทธ์การทำ AI ให้เป็นแพลตฟอร์มของ Apple จะช่วยเร่ง นวัตกรรมแอปและการขยายการใช้งาน AI บนอุปกรณ์ หรือไม่

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น