- Apple เปิดตัว โมเดล AI แบบ vision-language (AFN, Apple Foundation Models) และ Foundation Models framework (API) สำหรับนักพัฒนา ใหม่ พร้อมยกระดับทั้ง ประสิทธิภาพและความคุ้มค่าของโมเดลทั้งบนอุปกรณ์และบนคลาวด์ อย่างมาก
- โมเดล AFM บนอุปกรณ์ ใช้ทรานส์ฟอร์เมอร์ 3B พารามิเตอร์ และวิชันทรานส์ฟอร์เมอร์ 300M พารามิเตอร์ รองรับ อินพุตข้อความและภาพ รวมถึงความสามารถด้านหลายภาษาและวิชัน ส่วนโมเดลฝั่งเซิร์ฟเวอร์ใช้สถาปัตยกรรม MoE แบบปรับแต่งเอง
- มอบความสามารถเด่นอย่าง การทำโมเดลให้เบา (quantization และ LoRA), รองรับ 15 ภาษา, การทำความเข้าใจภาพ, การใช้เครื่องมือ และการเข้าถึงสำหรับนักพัฒนาที่ดีขึ้น
- โมเดลบนอุปกรณ์ แสดงจุดแข็งเหนือโมเดลคู่แข่งในด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ แต่ โมเดลฝั่งเซิร์ฟเวอร์ยังมีประสิทธิภาพด้อยกว่าโมเดลล่าสุดอย่าง GPT-4o
- กำลังมีการจับตา การเปลี่ยนทิศทางกลยุทธ์ AI ของ Apple และอิทธิพลภายในระบบนิเวศ iOS ท่ามกลางประเด็นถกเถียงล่าสุดเรื่องงานวิจัยของ Apple และความล่าช้าในการอัปเกรด Siri AI
Apple Foundation Models (AFM) อัปเดตครั้งใหญ่
- Apple อัปเกรดทั้ง โมเดล AI แบบ on-device (ติดตั้งบนมือถือ) และแบบโฮสต์บนเซิร์ฟเวอร์ (AFM) โดย ความเร็ว ประสิทธิภาพ และสมรรถนะดีขึ้นอย่างมาก
- มีการเปิดให้ใช้ API สำหรับนักพัฒนา (Foundation Models framework) ใหม่ ทำให้สามารถ เรียกใช้ AI บนอุปกรณ์ ได้บนอุปกรณ์ที่เปิดใช้งานฟีเจอร์ Apple Intelligence
สถาปัตยกรรมและความสามารถหลัก
- อินพุต/เอาต์พุต: ข้อความ, ภาพ (อินพุตได้สูงสุด 65,000 โทเค็น), เอาต์พุตเป็นข้อความ
- สถาปัตยกรรม:
- AFM-on-Device: ทรานส์ฟอร์เมอร์ 3 พันล้านพารามิเตอร์, วิชันทรานส์ฟอร์เมอร์ 300 ล้านพารามิเตอร์
- AFM-Server: ทรานส์ฟอร์เมอร์ Mixture-of-Experts (MoE) แบบปรับแต่งเอง (ไม่เปิดเผยจำนวนพารามิเตอร์), วิชันทรานส์ฟอร์เมอร์ 1 พันล้านพารามิเตอร์
- ประสิทธิภาพ: เด่นด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ
- การใช้งาน: AFM-on-Device ใช้งานได้ผ่าน Foundation Models framework ส่วน AFM-Server ยังไม่เปิดให้ใช้งานสาธารณะ
- รองรับ 15 ภาษา และรองรับการใช้เครื่องมือ
- ข้อมูลที่ไม่เปิดเผย: จำนวนพารามิเตอร์ของโมเดลฝั่งเซิร์ฟเวอร์, ขีดจำกัดโทเค็น, รายละเอียดชุดข้อมูลฝึก ฯลฯ ยังไม่ถูกเปิดเผย
จุดต่างเชิงเทคนิคและการปรับแต่งให้เหมาะสม
- Quantization:
- โมเดลบนอุปกรณ์บีบอัดน้ำหนักส่วนใหญ่เหลือ 2 บิต และเลเยอร์ embedding เหลือ 4 บิต (ใช้การฝึกแบบรับรู้ quantization)
- โมเดลฝั่งเซิร์ฟเวอร์ใช้ ASTC (การบีบอัดสำหรับกราฟิก) โดยบีบอัดได้เฉลี่ย 3.56 บิต (embedding 4 บิต)
- ใช้ LoRA adapter เพื่อชดเชยประสิทธิภาพที่ลดลงจากการบีบอัด และปรับให้เหมาะกับงานเฉพาะ เช่น การสรุป การแก้ไขข้อความ และการถาม-ตอบ
- สถาปัตยกรรม MoE แบบปรับแต่งเอง ช่วยลด communication overhead ระหว่างฮาร์ดแวร์ให้ต่ำที่สุด จึงเพิ่มประสิทธิภาพได้
การประเมินประสิทธิภาพ
- โมเดลบนอุปกรณ์: เหนือกว่าโมเดลคู่แข่งอย่าง Qwen2.5-VL-3B ในด้านภาษาอังกฤษนอกสหรัฐและการทำความเข้าใจภาพ
- โมเดลฝั่งเซิร์ฟเวอร์: บางครั้งนำหน้า Qwen3-23B เล็กน้อย แต่ ยังตามหลังโมเดลล่าสุดอย่าง GPT-4o
ประเด็นถกเถียงล่าสุดและการเปลี่ยนแปลงของกลยุทธ์ AI
- เมื่อไม่นานมานี้ Apple ก่อให้เกิดกระแสถกเถียงจาก งานวิจัยที่ทดลองข้อจำกัดด้านการให้เหตุผลของโมเดล AI รุ่นล่าสุด 5 รุ่น และไม่นานก็มีงานวิจัยโต้แย้งตามออกมา
- การอัปเกรด Siri AI ถูกเลื่อนออกไปอย่างไม่มีกำหนด และยังมีการยื่นฟ้องแบบกลุ่มเกี่ยวกับการที่ iPhone รุ่นใหม่มีฟีเจอร์ AI ไม่เพียงพอ
- ท่ามกลางสถานการณ์ที่ฝั่ง Google/Android กำลังนำหน้าอย่างรวดเร็วในการแข่งขัน AI Apple กำลังปรับกลยุทธ์ AI ผ่าน Foundation Models และสิ่งที่เกี่ยวข้อง
แนวโน้มและผลกระทบในอนาคต
- iOS มีแนวโน้มสูงที่จะใช้อำนาจจากการเป็นโมเดลที่ติดตั้งมาโดยค่าเริ่มต้น ส่งอิทธิพลมหาศาลต่อระบบนิเวศนักพัฒนาแอป
- ด้วย ข้อจำกัดด้านหน่วยความจำและขนาดโมเดล คาดว่านักพัฒนาแอปจะหันมาใช้โมเดลที่ Apple จัดหาให้เพิ่มขึ้นมาก แทนการ bundle โมเดล AI เข้าไปเองโดยตรง
- กำลังมีการจับตาว่ากลยุทธ์การทำ AI ให้เป็นแพลตฟอร์มของ Apple จะช่วยเร่ง นวัตกรรมแอปและการขยายการใช้งาน AI บนอุปกรณ์ หรือไม่
ยังไม่มีความคิดเห็น