4 คะแนน โดย GN⁺ 2024-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในงาน WWDC 2024 ได้ประกาศ Apple Intelligence ซึ่งเป็นระบบ personal intelligence ที่ผสานรวมอย่างลึกซึ้งใน iOS 18, iPadOS 18 และ macOS Sequoia
  • Apple Intelligence ประกอบด้วยโมเดลกำเนิดหลายตัวที่ออกแบบมาสำหรับงานประจำวันของผู้ใช้ และสามารถปรับตัวให้เข้ากับกิจกรรมปัจจุบันได้ทันที
  • โมเดลพื้นฐานที่ฝังมาในระบบได้รับการ fine-tune เพื่อประสบการณ์ผู้ใช้ เช่น การเขียน/ปรับปรุงเอกสาร การสรุป/จัดลำดับความสำคัญการแจ้งเตือน การสร้างภาพสนุกๆ สำหรับการสนทนา และการทำให้การโต้ตอบข้ามแอปง่ายขึ้น
  • มี 2 โมเดล ได้แก่ โมเดลภาษาแบบออนดีไวซ์ขนาดประมาณ 3 พันล้านพารามิเตอร์ และโมเดลภาษาแบบเซิร์ฟเวอร์ที่ใหญ่กว่าซึ่งให้บริการผ่าน Private Cloud Compute โดยถูกสร้างและปรับใช้เพื่อทำงานเฉพาะทางได้อย่างมีประสิทธิภาพ แม่นยำ และมีความรับผิดชอบ
  • ทั้งสองเป็นส่วนหนึ่งของตระกูลโมเดลกำเนิดที่ Apple สร้างขึ้นในวงกว้างกว่า ซึ่งรวมถึงโมเดลโค้ดดิ้งสำหรับสร้าง intelligence ใน Xcode และ diffusion model ที่ช่วยด้านการแสดงออกเชิงภาพในแอป Messages เป็นต้น

มุ่งเน้นการพัฒนา AI อย่างมีความรับผิดชอบ

  • Apple Intelligence ถูกออกแบบให้สอดคล้องกับคุณค่าหลักในทุกขั้นตอน และสร้างบนพื้นฐานของนวัตกรรมด้านความเป็นส่วนตัวที่ก้าวล้ำ
  • Apple ได้กำหนดหลักการ AI อย่างมีความรับผิดชอบเพื่อชี้นำการพัฒนาเครื่องมือ AI และโมเดลเบื้องหลัง:
    1. เสริมพลังให้ผู้ใช้ด้วยเครื่องมืออัจฉริยะ
    2. เป็นตัวแทนของผู้ใช้
    3. ออกแบบอย่างรอบคอบ
    4. ปกป้องความเป็นส่วนตัว
  • หลักการเหล่านี้สะท้อนอยู่ทั่วทั้งสถาปัตยกรรมที่ทำให้ Apple Intelligence เป็นไปได้

Pre-Training

  • โมเดลพื้นฐานถูกฝึกด้วยเฟรมเวิร์ก AXLearn ของ Apple ที่เปิดซอร์สในปี 2023
  • สร้างบน JAX และ XLA ทำให้ฝึกได้อย่างมีประสิทธิภาพและขยายสเกลได้บนฮาร์ดแวร์และแพลตฟอร์มคลาวด์ที่หลากหลาย
  • ใช้ชุดเทคนิคการทำงานแบบขนานที่รองรับการสเกลการฝึกในหลายมิติ เช่น ข้อมูล โมเดล และความยาวลำดับ
  • ฝึกโมเดลด้วยข้อมูลที่มีไลเซนส์และข้อมูลสาธารณะ โดยผู้เผยแพร่เว็บสามารถเลือกไม่ให้ใช้คอนเทนต์เว็บในการฝึก Apple Intelligence ได้ผ่านการควบคุมการใช้ข้อมูล
  • ไม่ใช้ข้อมูลส่วนบุคคลหรือปฏิสัมพันธ์ของผู้ใช้โดยเด็ดขาด มีการกรองเพื่อลบ PII กรองคอนเทนต์คุณภาพต่ำ และใช้ตัวจำแนกแบบอิงโมเดลเพื่อระบุเอกสารคุณภาพสูง

Post-Training

  • ยืนยันแล้วว่าคุณภาพข้อมูลเป็นปัจจัยสำคัญต่อความสำเร็จของโมเดล จึงใช้กลยุทธ์ข้อมูลแบบไฮบริด
  • พัฒนาอัลกอริทึม rejection sampling fine-tuning ผ่าน committee of teachers และอัลกอริทึม RLHF ที่ใช้ mirror descent policy optimization และ leave-one-out advantage estimator
  • อัลกอริทึมทั้งสองนี้ช่วยยกระดับคุณภาพการทำตามคำสั่งของโมเดลได้อย่างมาก

Optimization

  • นอกเหนือจากการพัฒนาโมเดลกำเนิดประสิทธิภาพสูงแล้ว ยังใช้เทคนิคนวัตกรรมหลากหลายเพื่อปรับความเร็วและประสิทธิภาพให้เหมาะกับทั้งออนดีไวซ์และ private cloud
  • ทั้งโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ต่างใช้ grouped-query attention
  • ใช้ตาราง embedding ของ vocabulary ขาเข้าและขาออกร่วมกันเพื่อลดความต้องการหน่วยความจำและต้นทุนการอนุมาน
  • โมเดลออนดีไวซ์ใช้ขนาด vocabulary 49K ส่วนโมเดลเซิร์ฟเวอร์ใช้ขนาด vocabulary 100K โดยรวมภาษาเพิ่มเติมและ technical token
  • สำหรับการอนุมานบนออนดีไวซ์ มีการใช้ low-bit palettization โดยพัฒนาเฟรมเวิร์ก LoRA adapter ใหม่ที่ผสานกลยุทธ์การตั้งค่าแบบผสม 2-bit และ 4-bit (เฉลี่ย 3.5 บิตต่อน้ำหนักหนึ่งค่า) เพื่อให้ได้ความแม่นยำเทียบเท่าโมเดลที่ไม่ถูกบีบอัด
  • ใช้เครื่องมือ Talaria เพื่อช่วยชี้นำการเลือก bitrate สำหรับแต่ละงานได้ดียิ่งขึ้น
  • ใช้ activation และ embedding quantization พร้อมพัฒนาวิธีอัปเดต KV cache ที่มีประสิทธิภาพ
  • ชุดการปรับแต่งนี้ทำให้บน iPhone 15 Pro มี time-to-first-token latency ราว 0.6ms ต่อ prompt token และความเร็วการสร้าง 30 token ต่อวินาที

Model Adaptation

  • โมเดลพื้นฐานถูก fine-tune สำหรับกิจกรรมประจำวันของผู้ใช้ และสามารถปรับความเชี่ยวชาญของตนเองแบบไดนามิกให้ตรงกับงานที่กำลังทำอยู่
  • ใช้ adapter ซึ่งเป็นโมดูลโครงข่ายประสาทขนาดเล็กที่สามารถเชื่อมเข้ากับหลายเลเยอร์ของโมเดลที่ผ่าน pre-training เพื่อ fine-tune สำหรับงานเฉพาะ
  • มีการ fine-tune เฉพาะเลเยอร์ adapter เท่านั้น ทำให้พารามิเตอร์ดั้งเดิมของโมเดลฐานที่ผ่าน pre-training ไม่เปลี่ยนแปลง ความรู้ทั่วไปยังคงอยู่ และเลเยอร์ adapter ถูกปรับแต่งเพื่อรองรับงานเฉพาะ

Performance and Evaluation

  • มุ่งเน้นการมอบโมเดลกำเนิดที่ช่วยให้ผู้ใช้สื่อสาร ทำงาน แสดงออก และจัดการสิ่งต่างๆ ได้บนผลิตภัณฑ์ Apple ทั้งหมด
  • ในการวัด benchmark ของโมเดล จะให้ความสำคัญกับการประเมินโดยมนุษย์ ซึ่งพบว่ามีความสัมพันธ์สูงกับประสบการณ์ผู้ใช้
  • มีการประเมินประสิทธิภาพทั้งในส่วน adapter รายฟีเจอร์และตัวโมเดลพื้นฐาน

ตัวอย่างการประเมิน summary adapter:

  • เนื่องจากข้อกำหนดของผลิตภัณฑ์สำหรับการสรุปอีเมลและการแจ้งเตือนมีความแตกต่างกันอย่างละเอียดแต่สำคัญ จึงมีการ fine-tune LoRA adapter บนโมเดลที่ผ่านการ palettize เพื่อให้ตรงตามความต้องการเฉพาะเหล่านี้
  • ข้อมูลฝึกอ้างอิงจากสรุปสังเคราะห์ที่สร้างโดยโมเดลเซิร์ฟเวอร์ขนาดใหญ่กว่า ซึ่งผ่านการกรองด้วยกลยุทธ์ rejection sampling เพื่อคงไว้เฉพาะสรุปคุณภาพสูง
  • ประเมินสรุปรายผลิตภัณฑ์โดยใช้ชุดคำตอบ 750 ชุดที่สุ่มตัวอย่างมาอย่างรอบคอบตามกรณีใช้งาน
  • ชุดข้อมูลประเมินเน้นอินพุตที่หลากหลายซึ่งฟีเจอร์ของผลิตภัณฑ์มีแนวโน้มต้องเจอในสภาพ production รวมถึงการผสมแบบมีชั้นของเอกสารเดี่ยวและเอกสารซ้อนที่มีชนิดคอนเทนต์และความยาวหลากหลาย
  • การประเมินประสิทธิภาพบนชุดข้อมูลที่เป็นตัวแทนกรณีใช้งานจริงในฐานะฟีเจอร์ของผลิตภัณฑ์เป็นสิ่งสำคัญ
  • พบว่าโมเดลที่มี adapter สร้างสรุปได้ดีกว่าโมเดลที่เทียบเคียงกัน

Human Satisfaction Score on Summarization Feature Benchmark

  • จากตารางข้อมูล โมเดลออนดีไวซ์+adapter ของ Apple มีสัดส่วนความพึงพอใจระดับดีสูงกว่าและสัดส่วนความพึงพอใจระดับแย่ต่ำกว่าโมเดล Phi-3-mini ในการสรุปอีเมลและการแจ้งเตือน แสดงว่าโมเดลที่มี adapter สร้างสรุปได้ดีกว่า
  • โมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple ประเมินความสามารถทั่วไปด้วยชุดประเมินแบบครอบคลุมที่ประกอบด้วยพรอมป์ตจริงซึ่งมีระดับความยากหลากหลาย เมื่อนำไปเทียบกับโมเดลโอเพนซอร์สและเชิงพาณิชย์ที่มีขนาดใกล้เคียงกัน พบว่า:
    • โมเดลออนดีไวซ์ (~3 พันล้านพารามิเตอร์) มีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่าอย่าง Phi-3-mini, Mistral-7B และ Gemma-7B
    • โมเดลเซิร์ฟเวอร์มีประสิทธิภาพทัดเทียมกับ DBRX-Instruct, Mixtral-8x22B และ GPT-3.5-Turbo ขณะเดียวกันก็มีประสิทธิภาพสูงมาก
  • ใช้ชุด adversarial prompt ที่หลากหลายเพื่อทดสอบประสิทธิภาพของโมเดลในด้านคอนเทนต์อันตราย หัวข้ออ่อนไหว และความถูกต้องตามข้อเท็จจริง ทั้งโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์มีความทนทานเมื่อเผชิญกับ adversarial prompt และมีอัตราการละเมิดต่ำกว่าโมเดลโอเพนซอร์สและเชิงพาณิชย์
  • เมื่อใช้ benchmark IFEval เพื่อเปรียบเทียบความสามารถในการทำตามคำสั่งกับโมเดลขนาดใกล้เคียงกัน พบว่าโมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple ปฏิบัติตามคำสั่งที่ละเอียดได้ดีกว่าโมเดลโอเพนซอร์สและเชิงพาณิชย์ในระดับเดียวกัน
  • ยังมีการประเมินความสามารถด้านการเขียนของโมเดลบน benchmark ภายในสำหรับการสรุปและการเขียน ซึ่งประกอบด้วยคำสั่งการเขียนที่หลากหลาย

Writing Benchmarks

  • จากตารางข้อมูล โมเดลออนดีไวซ์และโมเดลเซิร์ฟเวอร์ของ Apple แสดงประสิทธิภาพที่ดีและสามารถแข่งขันได้ในการสรุปและการเขียนเมื่อเทียบกับโมเดลที่นำมาเปรียบเทียบ

บทสรุป

  • โมเดลพื้นฐานและ adapter ของ Apple ที่เปิดตัวใน WWDC24 เป็นรากฐานของ Apple Intelligence ซึ่งเป็นระบบ personal intelligence แบบใหม่ที่ผสานรวมอย่างลึกซึ้งใน iPhone, iPad และ Mac เพื่อมอบความสามารถอันทรงพลังครอบคลุมภาษา ภาพ การกระทำ และบริบทส่วนบุคคล
  • ถูกสร้างขึ้นเพื่อช่วยให้ผู้ใช้ทำกิจกรรมประจำวันบนผลิตภัณฑ์ Apple ได้ดีขึ้น โดยพัฒนาอย่างมีความรับผิดชอบในทุกขั้นตอนและขับเคลื่อนด้วยคุณค่าหลักของ Apple
  • จะมีการแบ่งปันข้อมูลเพิ่มเติมเกี่ยวกับตระกูลโมเดลกำเนิดในวงกว้างกว่านี้ ซึ่งรวมถึงโมเดลภาษา diffusion และโมเดลโค้ดดิ้ง ในเร็วๆ นี้

1 ความคิดเห็น

 
GN⁺ 2024-06-11
ความคิดเห็นจาก Hacker News
  • การใช้ Adapter: ปรับจูนโมเดลให้เหมาะกับงานเฉพาะโดยใช้ adapter ซึ่งเป็นโมดูลโครงข่ายประสาทขนาดเล็กที่สามารถเสียบเข้ากับเลเยอร์ต่าง ๆ ของโมเดลที่ผ่านการพรีเทรนแล้ว วิธีนี้ช่วยให้นักพัฒนาแอปใช้โมเดลที่ปรับให้เหมาะกับฮาร์ดแวร์แต่ละรุ่นได้

  • ความคาดหวัง: แม้ยังไม่มีการประกาศรองรับการฝึกโดยบุคคลที่สาม แต่ก็คาดว่าน่าจะอยู่ในแผน ความยากของ ML แบบโลคัล+เป็นส่วนตัวคือการทำอย่างไรไม่ให้แต่ละแอปต้องใช้เวทจำนวนมาก

  • โอกาสของ Apple: Apple มีโอกาสที่จะจัดหาโมเดลที่ปรับให้เหมาะกับชิปแต่ละตัว และให้ adapter สำหรับกรณีใช้งานใหม่ ๆ ที่ต้องใช้เวทเพียงไม่กี่ MB ซึ่งคล้ายกับการทำให้แอปเบาลงของโมเดล

  • ประสบการณ์นักพัฒนา: แม้โมเดลพื้นฐานจะยังไม่ล้ำสมัยที่สุด แต่ประสบการณ์นักพัฒนานั้นยอดเยี่ยมและทำซ้ำได้ ฝั่งเซิร์ฟเวอร์นั้นง่ายกว่ามาก และคาดว่าโลคัล+เป็นส่วนตัวจะครอบคลุมกรณีใช้งานจำนวนมาก

  • บทบาทของ adapter: ใช้ adapter เพื่อปรับจูนโมเดลให้เหมาะกับงานเฉพาะ จัดการหน่วยความจำอย่างมีประสิทธิภาพ และรับประกันการตอบสนองของระบบปฏิบัติการ พารามิเตอร์ของ adapter แสดงด้วย 16 บิต และสำหรับโมเดลที่มีพารามิเตอร์ราว 300 ล้านตัว จะต้องใช้หน่วยความจำประมาณ 10MB

  • คล้ายกับ LoRAs: แนวทางนี้ฟังดูคล้ายกับ LoRAs

  • ตารางเปรียบเทียบ: กลางบทความมีตารางเปรียบเทียบกับโมเดลที่เกี่ยวข้องอื่น ๆ โมเดลฝั่งเซิร์ฟเวอร์ดีกว่า GPT-3.5 แต่ด้อยกว่า GPT-4 อย่างไรก็ตาม กราฟ "การประเมินโดยมนุษย์ด้านความเป็นอันตรายของผลลัพธ์" น่าสนใจเป็นพิเศษ

  • ความระมัดระวังของโมเดล: ทำให้โมเดลระมัดระวังมากขึ้นด้วยการทำให้ GPT เป็น "ระดับ 3" และทำให้ชัดเจนว่า "นี่คือสิ่งที่ ChatGPT พูด" โดยใช้โมเดลของ OpenAI

  • ความคาดหวังต่อการใช้โมเดลเซิร์ฟเวอร์: เนื้อหาในสองหน้านี้ยอดเยี่ยมมาก และอยากลองใช้โมเดลฝั่งเซิร์ฟเวอร์เพื่อสร้างคลาวด์ที่ปรับให้เหมาะกับ Apple stack

  • คาดหวังเรื่องหน่วยความจำที่เพิ่มขึ้น: คาดว่า Apple จะเพิ่มหน่วยความจำพื้นฐานของ Mac ทุกเครื่องให้เกิน 8GB อยากให้ 16GB M4 เป็นค่าเริ่มต้น แต่ Apple อาจให้ 12GB และเก็บค่าใช้จ่ายเพิ่มสำหรับตัวเลือก 16GB

  • ความเป็นส่วนตัวของข้อมูล: Apple ควรชี้แจงให้ชัดเจนว่าส่งอะไรไปยังบริการของบุคคลที่สาม และควรมีตัวเลือกให้ผู้ใช้ opt out ได้หากต้องการ การรัน inference บนอุปกรณ์กับการส่งข้อมูลผ่าน API ของ OpenAI นั้นเป็นคนละเรื่องกัน

  • ชอบชื่อโดเมน: ชอบที่ใช้ machinelearning.apple.com

  • ผลลัพธ์การปรับให้เหมาะสม: การใช้เวท 3.5B โดยไม่สูญเสียคุณภาพถือเป็นผลลัพธ์การปรับให้เหมาะสมที่ล้ำสมัย

  • การประเมินความเป็นอันตรายของผลลัพธ์: เห็นได้ว่า Mistral-7B ทำได้ดีที่สุดในบรรดาโมเดลขนาดเล็กในการลดการปฏิเสธแบบ false positive

  • ผลกระทบต่ออายุแบตเตอรี่: สงสัยว่าโมเดลเหล่านี้จะส่งผลต่ออายุแบตเตอรี่อย่างไร จากการลองใช้แอป PrivateLLM บน iPhone 15 Pro พบว่าหลังใช้งานไม่กี่นาที แบตเตอรี่ลดลงอย่างรวดเร็ว