แนะนำโมเดลพื้นฐานแบบออนดีไวซ์และแบบเซิร์ฟเวอร์ใหม่ของ Apple
(machinelearning.apple.com)- ในงาน WWDC 2024 ได้ประกาศ Apple Intelligence ซึ่งเป็นระบบ personal intelligence ที่ผสานรวมอย่างลึกซึ้งใน iOS 18, iPadOS 18 และ macOS Sequoia
- Apple Intelligence ประกอบด้วยโมเดลกำเนิดหลายตัวที่ออกแบบมาสำหรับงานประจำวันของผู้ใช้ และสามารถปรับตัวให้เข้ากับกิจกรรมปัจจุบันได้ทันที
- โมเดลพื้นฐานที่ฝังมาในระบบได้รับการ fine-tune เพื่อประสบการณ์ผู้ใช้ เช่น การเขียน/ปรับปรุงเอกสาร การสรุป/จัดลำดับความสำคัญการแจ้งเตือน การสร้างภาพสนุกๆ สำหรับการสนทนา และการทำให้การโต้ตอบข้ามแอปง่ายขึ้น
- มี 2 โมเดล ได้แก่ โมเดลภาษาแบบออนดีไวซ์ขนาดประมาณ 3 พันล้านพารามิเตอร์ และโมเดลภาษาแบบเซิร์ฟเวอร์ที่ใหญ่กว่าซึ่งให้บริการผ่าน Private Cloud Compute โดยถูกสร้างและปรับใช้เพื่อทำงานเฉพาะทางได้อย่างมีประสิทธิภาพ แม่นยำ และมีความรับผิดชอบ
- ทั้งสองเป็นส่วนหนึ่งของตระกูลโมเดลกำเนิดที่ Apple สร้างขึ้นในวงกว้างกว่า ซึ่งรวมถึงโมเดลโค้ดดิ้งสำหรับสร้าง intelligence ใน Xcode และ diffusion model ที่ช่วยด้านการแสดงออกเชิงภาพในแอป Messages เป็นต้น
มุ่งเน้นการพัฒนา AI อย่างมีความรับผิดชอบ
- Apple Intelligence ถูกออกแบบให้สอดคล้องกับคุณค่าหลักในทุกขั้นตอน และสร้างบนพื้นฐานของนวัตกรรมด้านความเป็นส่วนตัวที่ก้าวล้ำ
- Apple ได้กำหนดหลักการ AI อย่างมีความรับผิดชอบเพื่อชี้นำการพัฒนาเครื่องมือ AI และโมเดลเบื้องหลัง:
- เสริมพลังให้ผู้ใช้ด้วยเครื่องมืออัจฉริยะ
- เป็นตัวแทนของผู้ใช้
- ออกแบบอย่างรอบคอบ
- ปกป้องความเป็นส่วนตัว
- หลักการเหล่านี้สะท้อนอยู่ทั่วทั้งสถาปัตยกรรมที่ทำให้ Apple Intelligence เป็นไปได้
Pre-Training
- โมเดลพื้นฐานถูกฝึกด้วยเฟรมเวิร์ก AXLearn ของ Apple ที่เปิดซอร์สในปี 2023
- สร้างบน JAX และ XLA ทำให้ฝึกได้อย่างมีประสิทธิภาพและขยายสเกลได้บนฮาร์ดแวร์และแพลตฟอร์มคลาวด์ที่หลากหลาย
- ใช้ชุดเทคนิคการทำงานแบบขนานที่รองรับการสเกลการฝึกในหลายมิติ เช่น ข้อมูล โมเดล และความยาวลำดับ
- ฝึกโมเดลด้วยข้อมูลที่มีไลเซนส์และข้อมูลสาธารณะ โดยผู้เผยแพร่เว็บสามารถเลือกไม่ให้ใช้คอนเทนต์เว็บในการฝึก Apple Intelligence ได้ผ่านการควบคุมการใช้ข้อมูล
- ไม่ใช้ข้อมูลส่วนบุคคลหรือปฏิสัมพันธ์ของผู้ใช้โดยเด็ดขาด มีการกรองเพื่อลบ PII กรองคอนเทนต์คุณภาพต่ำ และใช้ตัวจำแนกแบบอิงโมเดลเพื่อระบุเอกสารคุณภาพสูง
Post-Training
- ยืนยันแล้วว่าคุณภาพข้อมูลเป็นปัจจัยสำคัญต่อความสำเร็จของโมเดล จึงใช้กลยุทธ์ข้อมูลแบบไฮบริด
- พัฒนาอัลกอริทึม rejection sampling fine-tuning ผ่าน committee of teachers และอัลกอริทึม RLHF ที่ใช้ mirror descent policy optimization และ leave-one-out advantage estimator
- อัลกอริทึมทั้งสองนี้ช่วยยกระดับคุณภาพการทำตามคำสั่งของโมเดลได้อย่างมาก
Optimization
- นอกเหนือจากการพัฒนาโมเดลกำเนิดประสิทธิภาพสูงแล้ว ยังใช้เทคนิคนวัตกรรมหลากหลายเพื่อปรับความเร็วและประสิทธิภาพให้เหมาะกับทั้งออนดีไวซ์และ private cloud
- ทั้งโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ต่างใช้ grouped-query attention
- ใช้ตาราง embedding ของ vocabulary ขาเข้าและขาออกร่วมกันเพื่อลดความต้องการหน่วยความจำและต้นทุนการอนุมาน
- โมเดลออนดีไวซ์ใช้ขนาด vocabulary 49K ส่วนโมเดลเซิร์ฟเวอร์ใช้ขนาด vocabulary 100K โดยรวมภาษาเพิ่มเติมและ technical token
- สำหรับการอนุมานบนออนดีไวซ์ มีการใช้ low-bit palettization โดยพัฒนาเฟรมเวิร์ก LoRA adapter ใหม่ที่ผสานกลยุทธ์การตั้งค่าแบบผสม 2-bit และ 4-bit (เฉลี่ย 3.5 บิตต่อน้ำหนักหนึ่งค่า) เพื่อให้ได้ความแม่นยำเทียบเท่าโมเดลที่ไม่ถูกบีบอัด
- ใช้เครื่องมือ Talaria เพื่อช่วยชี้นำการเลือก bitrate สำหรับแต่ละงานได้ดียิ่งขึ้น
- ใช้ activation และ embedding quantization พร้อมพัฒนาวิธีอัปเดต KV cache ที่มีประสิทธิภาพ
- ชุดการปรับแต่งนี้ทำให้บน iPhone 15 Pro มี time-to-first-token latency ราว 0.6ms ต่อ prompt token และความเร็วการสร้าง 30 token ต่อวินาที
Model Adaptation
- โมเดลพื้นฐานถูก fine-tune สำหรับกิจกรรมประจำวันของผู้ใช้ และสามารถปรับความเชี่ยวชาญของตนเองแบบไดนามิกให้ตรงกับงานที่กำลังทำอยู่
- ใช้ adapter ซึ่งเป็นโมดูลโครงข่ายประสาทขนาดเล็กที่สามารถเชื่อมเข้ากับหลายเลเยอร์ของโมเดลที่ผ่าน pre-training เพื่อ fine-tune สำหรับงานเฉพาะ
- มีการ fine-tune เฉพาะเลเยอร์ adapter เท่านั้น ทำให้พารามิเตอร์ดั้งเดิมของโมเดลฐานที่ผ่าน pre-training ไม่เปลี่ยนแปลง ความรู้ทั่วไปยังคงอยู่ และเลเยอร์ adapter ถูกปรับแต่งเพื่อรองรับงานเฉพาะ
Performance and Evaluation
- มุ่งเน้นการมอบโมเดลกำเนิดที่ช่วยให้ผู้ใช้สื่อสาร ทำงาน แสดงออก และจัดการสิ่งต่างๆ ได้บนผลิตภัณฑ์ Apple ทั้งหมด
- ในการวัด benchmark ของโมเดล จะให้ความสำคัญกับการประเมินโดยมนุษย์ ซึ่งพบว่ามีความสัมพันธ์สูงกับประสบการณ์ผู้ใช้
- มีการประเมินประสิทธิภาพทั้งในส่วน adapter รายฟีเจอร์และตัวโมเดลพื้นฐาน
ตัวอย่างการประเมิน summary adapter:
- เนื่องจากข้อกำหนดของผลิตภัณฑ์สำหรับการสรุปอีเมลและการแจ้งเตือนมีความแตกต่างกันอย่างละเอียดแต่สำคัญ จึงมีการ fine-tune LoRA adapter บนโมเดลที่ผ่านการ palettize เพื่อให้ตรงตามความต้องการเฉพาะเหล่านี้
- ข้อมูลฝึกอ้างอิงจากสรุปสังเคราะห์ที่สร้างโดยโมเดลเซิร์ฟเวอร์ขนาดใหญ่กว่า ซึ่งผ่านการกรองด้วยกลยุทธ์ rejection sampling เพื่อคงไว้เฉพาะสรุปคุณภาพสูง
- ประเมินสรุปรายผลิตภัณฑ์โดยใช้ชุดคำตอบ 750 ชุดที่สุ่มตัวอย่างมาอย่างรอบคอบตามกรณีใช้งาน
- ชุดข้อมูลประเมินเน้นอินพุตที่หลากหลายซึ่งฟีเจอร์ของผลิตภัณฑ์มีแนวโน้มต้องเจอในสภาพ production รวมถึงการผสมแบบมีชั้นของเอกสารเดี่ยวและเอกสารซ้อนที่มีชนิดคอนเทนต์และความยาวหลากหลาย
- การประเมินประสิทธิภาพบนชุดข้อมูลที่เป็นตัวแทนกรณีใช้งานจริงในฐานะฟีเจอร์ของผลิตภัณฑ์เป็นสิ่งสำคัญ
- พบว่าโมเดลที่มี adapter สร้างสรุปได้ดีกว่าโมเดลที่เทียบเคียงกัน
Human Satisfaction Score on Summarization Feature Benchmark
- จากตารางข้อมูล โมเดลออนดีไวซ์+adapter ของ Apple มีสัดส่วนความพึงพอใจระดับดีสูงกว่าและสัดส่วนความพึงพอใจระดับแย่ต่ำกว่าโมเดล Phi-3-mini ในการสรุปอีเมลและการแจ้งเตือน แสดงว่าโมเดลที่มี adapter สร้างสรุปได้ดีกว่า
- โมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple ประเมินความสามารถทั่วไปด้วยชุดประเมินแบบครอบคลุมที่ประกอบด้วยพรอมป์ตจริงซึ่งมีระดับความยากหลากหลาย เมื่อนำไปเทียบกับโมเดลโอเพนซอร์สและเชิงพาณิชย์ที่มีขนาดใกล้เคียงกัน พบว่า:
- โมเดลออนดีไวซ์ (~3 พันล้านพารามิเตอร์) มีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่าอย่าง Phi-3-mini, Mistral-7B และ Gemma-7B
- โมเดลเซิร์ฟเวอร์มีประสิทธิภาพทัดเทียมกับ DBRX-Instruct, Mixtral-8x22B และ GPT-3.5-Turbo ขณะเดียวกันก็มีประสิทธิภาพสูงมาก
- ใช้ชุด adversarial prompt ที่หลากหลายเพื่อทดสอบประสิทธิภาพของโมเดลในด้านคอนเทนต์อันตราย หัวข้ออ่อนไหว และความถูกต้องตามข้อเท็จจริง ทั้งโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์มีความทนทานเมื่อเผชิญกับ adversarial prompt และมีอัตราการละเมิดต่ำกว่าโมเดลโอเพนซอร์สและเชิงพาณิชย์
- เมื่อใช้ benchmark IFEval เพื่อเปรียบเทียบความสามารถในการทำตามคำสั่งกับโมเดลขนาดใกล้เคียงกัน พบว่าโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple ปฏิบัติตามคำสั่งที่ละเอียดได้ดีกว่าโมเดลโอเพนซอร์สและเชิงพาณิชย์ในระดับเดียวกัน
- ยังมีการประเมินความสามารถด้านการเขียนของโมเดลบน benchmark ภายในสำหรับการสรุปและการเขียน ซึ่งประกอบด้วยคำสั่งการเขียนที่หลากหลาย
Writing Benchmarks
- จากตารางข้อมูล โมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple แสดงประสิทธิภาพที่ดีและสามารถแข่งขันได้ในการสรุปและการเขียนเมื่อเทียบกับโมเดลที่นำมาเปรียบเทียบ
บทสรุป
- โมเดลพื้นฐานและ adapter ของ Apple ที่เปิดตัวใน WWDC24 เป็นรากฐานของ Apple Intelligence ซึ่งเป็นระบบ personal intelligence แบบใหม่ที่ผสานรวมอย่างลึกซึ้งใน iPhone, iPad และ Mac เพื่อมอบความสามารถอันทรงพลังครอบคลุมภาษา ภาพ การกระทำ และบริบทส่วนบุคคล
- ถูกสร้างขึ้นเพื่อช่วยให้ผู้ใช้ทำกิจกรรมประจำวันบนผลิตภัณฑ์ Apple ได้ดีขึ้น โดยพัฒนาอย่างมีความรับผิดชอบในทุกขั้นตอนและขับเคลื่อนด้วยคุณค่าหลักของ Apple
- จะมีการแบ่งปันข้อมูลเพิ่มเติมเกี่ยวกับตระกูลโมเดลกำเนิดในวงกว้างกว่านี้ ซึ่งรวมถึงโมเดลภาษา diffusion และโมเดลโค้ดดิ้ง ในเร็วๆ นี้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การใช้ Adapter: ปรับจูนโมเดลให้เหมาะกับงานเฉพาะโดยใช้ adapter ซึ่งเป็นโมดูลโครงข่ายประสาทขนาดเล็กที่สามารถเสียบเข้ากับเลเยอร์ต่าง ๆ ของโมเดลที่ผ่านการพรีเทรนแล้ว วิธีนี้ช่วยให้นักพัฒนาแอปใช้โมเดลที่ปรับให้เหมาะกับฮาร์ดแวร์แต่ละรุ่นได้
ความคาดหวัง: แม้ยังไม่มีการประกาศรองรับการฝึกโดยบุคคลที่สาม แต่ก็คาดว่าน่าจะอยู่ในแผน ความยากของ ML แบบโลคัล+เป็นส่วนตัวคือการทำอย่างไรไม่ให้แต่ละแอปต้องใช้เวทจำนวนมาก
โอกาสของ Apple: Apple มีโอกาสที่จะจัดหาโมเดลที่ปรับให้เหมาะกับชิปแต่ละตัว และให้ adapter สำหรับกรณีใช้งานใหม่ ๆ ที่ต้องใช้เวทเพียงไม่กี่ MB ซึ่งคล้ายกับการทำให้แอปเบาลงของโมเดล
ประสบการณ์นักพัฒนา: แม้โมเดลพื้นฐานจะยังไม่ล้ำสมัยที่สุด แต่ประสบการณ์นักพัฒนานั้นยอดเยี่ยมและทำซ้ำได้ ฝั่งเซิร์ฟเวอร์นั้นง่ายกว่ามาก และคาดว่าโลคัล+เป็นส่วนตัวจะครอบคลุมกรณีใช้งานจำนวนมาก
บทบาทของ adapter: ใช้ adapter เพื่อปรับจูนโมเดลให้เหมาะกับงานเฉพาะ จัดการหน่วยความจำอย่างมีประสิทธิภาพ และรับประกันการตอบสนองของระบบปฏิบัติการ พารามิเตอร์ของ adapter แสดงด้วย 16 บิต และสำหรับโมเดลที่มีพารามิเตอร์ราว 300 ล้านตัว จะต้องใช้หน่วยความจำประมาณ 10MB
คล้ายกับ LoRAs: แนวทางนี้ฟังดูคล้ายกับ LoRAs
ตารางเปรียบเทียบ: กลางบทความมีตารางเปรียบเทียบกับโมเดลที่เกี่ยวข้องอื่น ๆ โมเดลฝั่งเซิร์ฟเวอร์ดีกว่า GPT-3.5 แต่ด้อยกว่า GPT-4 อย่างไรก็ตาม กราฟ "การประเมินโดยมนุษย์ด้านความเป็นอันตรายของผลลัพธ์" น่าสนใจเป็นพิเศษ
ความระมัดระวังของโมเดล: ทำให้โมเดลระมัดระวังมากขึ้นด้วยการทำให้ GPT เป็น "ระดับ 3" และทำให้ชัดเจนว่า "นี่คือสิ่งที่ ChatGPT พูด" โดยใช้โมเดลของ OpenAI
ความคาดหวังต่อการใช้โมเดลเซิร์ฟเวอร์: เนื้อหาในสองหน้านี้ยอดเยี่ยมมาก และอยากลองใช้โมเดลฝั่งเซิร์ฟเวอร์เพื่อสร้างคลาวด์ที่ปรับให้เหมาะกับ Apple stack
คาดหวังเรื่องหน่วยความจำที่เพิ่มขึ้น: คาดว่า Apple จะเพิ่มหน่วยความจำพื้นฐานของ Mac ทุกเครื่องให้เกิน 8GB อยากให้ 16GB M4 เป็นค่าเริ่มต้น แต่ Apple อาจให้ 12GB และเก็บค่าใช้จ่ายเพิ่มสำหรับตัวเลือก 16GB
ความเป็นส่วนตัวของข้อมูล: Apple ควรชี้แจงให้ชัดเจนว่าส่งอะไรไปยังบริการของบุคคลที่สาม และควรมีตัวเลือกให้ผู้ใช้ opt out ได้หากต้องการ การรัน inference บนอุปกรณ์กับการส่งข้อมูลผ่าน API ของ OpenAI นั้นเป็นคนละเรื่องกัน
ชอบชื่อโดเมน: ชอบที่ใช้ machinelearning.apple.com
ผลลัพธ์การปรับให้เหมาะสม: การใช้เวท 3.5B โดยไม่สูญเสียคุณภาพถือเป็นผลลัพธ์การปรับให้เหมาะสมที่ล้ำสมัย
การประเมินความเป็นอันตรายของผลลัพธ์: เห็นได้ว่า Mistral-7B ทำได้ดีที่สุดในบรรดาโมเดลขนาดเล็กในการลดการปฏิเสธแบบ false positive
ผลกระทบต่ออายุแบตเตอรี่: สงสัยว่าโมเดลเหล่านี้จะส่งผลต่ออายุแบตเตอรี่อย่างไร จากการลองใช้แอป PrivateLLM บน iPhone 15 Pro พบว่าหลังใช้งานไม่กี่นาที แบตเตอรี่ลดลงอย่างรวดเร็ว