เฟรมเวิร์ก Apple Core AI

(developer.apple.com)

2 คะแนน โดย GN⁺ 2026-06-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Core AI คือเฟรมเวิร์กใหม่สำหรับรัน ปรับแต่ง และนำโมเดล AI ไปใช้งานภายในแอปบน Apple silicon
ใช้ CPU, GPU และ Neural Engine และสามารถผนวกการอนุมานของ .aimodel เข้ากับแอปได้ผ่าน Swift API
มีทูลเชนสำหรับแปลงโมเดล PyTorch เป็นโมเดล Core AI รวมถึงการบีบอัด ดีบัก และพรีคอมไพล์
โมเดลขนาดใหญ่ต้องทำ specialization ก่อนรัน จึงสำคัญต่อการออกแบบขั้นตอนดาวน์โหลด แคช และการใช้งานครั้งแรก
ยังแนะนำโฟลว์การปรับแต่ง on-device vision, language และ state caching ด้วยตัวอย่าง SAM 3, Qwen และ Transformer

บทบาทของ Core AI

Core AI คือชุดเทคโนโลยีใหม่สำหรับ การรัน AI บนอุปกรณ์ ครอบคลุมทั่วทั้งแพลตฟอร์มของ Apple
- รองรับ iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, watchOS 27.0+ Beta
- ให้โครงสร้างสำหรับรัน AI inference ประสิทธิภาพสูงในแอป โดยไม่ต้องส่งข้อมูลผู้ใช้ออกนอกอุปกรณ์
Core AI ไม่ใช่แค่ API สำหรับรันโมเดล แต่ครอบคลุมตั้งแต่การเตรียมโมเดลจนถึงการผนวกเข้ากับแอป
- มีทั้งการปรับแต่งโมเดล การแปลงจาก PyTorch การสร้าง .aimodel การดีบัก การโปรไฟล์ใน Xcode และการพรีคอมไพล์
- โมเดลที่ไม่ใช่โครงข่ายประสาท เช่น decision tree หรือโมเดล tabular feature engineering ยังเป็นขอบเขตของ Core ML

โฟลว์การพัฒนา: จาก PyTorch สู่แอป Swift

Core AI เชื่อม เวิร์กโฟลว์ของ PyTorch เดิมเข้ากับขั้นตอนการนำขึ้นใช้งานบน Apple silicon
- ใช้ torch.export แปลงโมเดล PyTorch เป็น exported program
- ใช้ TorchConverter ของ Core AI PyTorch Extensions เพื่อสร้าง .aimodel
- ใช้ Core AI Optimization สำหรับการบีบอัดและปรับแต่งให้เหมาะกับ Apple silicon
ในแอป Swift สามารถใช้ API ใหม่ของ Core AI Framework เพื่อโหลดโมเดลและรัน inference
- AIModel ใช้โหลดไฟล์ .aimodel และตรวจสอบฟังก์ชัน inference
- InferenceFunction คือกราฟการคำนวณเดี่ยวที่พร้อมรัน
- NDArray คือชนิดข้อมูลสำหรับเก็บข้อมูลอินพุตและเอาต์พุตแบบหลายมิติ
- โครงสร้างคือป้อนอินพุต NDArray ผ่านการเรียก run แล้วรับผลการอนุมานกลับมา
ใน Xcode สามารถตรวจดูไฟล์ .aimodel ได้โดยตรง
- ตรวจสอบขนาดโมเดล การกระจายตัวของโอเปอเรชัน เมทาดาทา และฟังก์ชันซิกเนเจอร์ได้
- มิติของ dynamic shape จะแสดงเป็น ?

การปรับประสิทธิภาพ: state, cache, memory layout

ในโครงสร้างอย่างโมเดล Transformer ที่ลำดับอินพุตยาวขึ้นเรื่อย ๆ เวลา inference อาจเพิ่มขึ้นตามเวลา
- ในตัวอย่าง Snake เมื่อให้ Snake ทั้งสองตัวรันด้วยโมเดล AI เกมจะช้าลงเรื่อย ๆ เมื่อเวลาผ่านไป
- สามารถเห็นได้ใน Core AI Instruments ว่าช่วง inference ใช้เวลานานขึ้นต่อเนื่อง
Core AI รองรับการใช้ state เพื่อสร้างโครงสร้างอย่าง key/value cache
- state เป็นทั้งอินพุตของโมเดล และถูกอ่านพร้อมอัปเดตแบบ in-place ระหว่าง inference
- เก็บ key/value ของขั้นก่อนหน้าไว้ในแคชโดยไม่ต้องคำนวณซ้ำ
- ทำให้ไม่ต้องป้อนประวัติเกมทั้งหมดกลับเข้าไปทุกครั้ง
ฝั่ง Swift สามารถส่งคอลเลกชัน mutable view ผ่านอาร์กิวเมนต์ states ของ InferenceFunction.run
- โมเดลที่อัปเดตแล้วสามารถรักษาความเร็วให้คงที่ได้แม้เวลาผ่านไป
- ใน Instruments ก็เห็นว่าความหน่วงของ inference เพิ่มช้าลงมาก
Core AI ยังมีฟีเจอร์ควบคุมหน่วยความจำเพื่อลดโอเวอร์เฮดใน inference loop
- ตรวจสอบ memory layout ที่เหมาะสมที่สุดของ NDArray และจัดสรรตามโครงสร้างนั้นได้
- สามารถจัดสรรค่าเอาต์พุตล่วงหน้าเพื่อหลีกเลี่ยงการสร้างเอาต์พุตใหม่ระหว่าง inference
- ใช้ asynchronous values เพื่อ pipeline ฟังก์ชัน inference หลายตัวได้

การนำโมเดลไปใช้งาน: ดาวน์โหลด, specialization, พรีคอมไพล์

โมเดล Core AI เป็น representation ต้นทางที่รันได้บนอุปกรณ์ Apple ทุกเครื่อง แต่ก่อนรันจริงต้องทำ specialization ตามอุปกรณ์
- ตอนโหลดโมเดล ระบบจะตรวจสอบก่อนว่ามีผลลัพธ์จาก specialization อยู่ในแคชแล้วหรือไม่
- ถ้าไม่มี จะสร้าง execution artifact ที่เหมาะกับอุปกรณ์และเวอร์ชัน OS นั้น
โมเดลขนาดใหญ่อาจใช้เวลานานในการทำ specialization จึงสำคัญที่ไม่ควรแทรกไว้กลางการโต้ตอบของผู้ใช้
- ในตัวอย่าง SAM 3 ตอนรันครั้งแรกจะมีทั้งการโหลดโมเดลและ specialization ขนาดใหญ่ ทำให้ spinner แสดงอยู่นาน
- เสนอให้ดาวน์โหลดโมเดลผ่าน Background Assets เฉพาะเมื่อผู้ใช้เลือกลองใช้จากหน้าที่แนะนำฟีเจอร์
สามารถใช้คำสั่ง coreai-build เพื่อคอมไพล์บางส่วนล่วงหน้าบนเครื่องพัฒนาได้
- สร้าง compiled model สำหรับสถาปัตยกรรมอุปกรณ์ที่ระบุ
- แม้ยังต้องทำ specialization บนอุปกรณ์ผู้ใช้ แต่ปริมาณงานที่เหลือจะลดลง ทำให้เวลาเตรียมพร้อมสั้นลง
สามารถควบคุม model cache แบบโปรแกรมได้ด้วย AIModelCache
- ลบรายการที่ไม่จำเป็น
- ควบคุมนโยบายการเก็บรายการ
- แชร์แคชระหว่างหลายแอปใน app group เดียวกัน

การปรับแต่งโมเดลและการดีบัก

Core AI Optimization มีความสามารถด้านการบีบอัดและ quantization ของโมเดล
- รองรับการบีบอัดน้ำหนักแบบ INT4, INT8, FP4, FP8
- มี API สำหรับ quantization ที่ใช้ calibration data หรือ quantization aware training
ในตัวอย่าง SAM 3 แอสเซ็ต baseline แบบ 32 บิตมีขนาดเกิน 3GB และหลังบีบอัดเป็น 4 บิตเหลือราว 430MB
- เมื่อบีบอัดอย่างหนักกับทุกเลเยอร์ กลับตรวจไม่พบดอกไม้ที่ถูกบังอยู่หนึ่งดอก
- ดูจากเอาต์พุตอย่างเดียวจะระบุได้ยากว่าเลเยอร์ไหนเป็นปัญหา
Core AI Debugger ใช้เปรียบเทียบค่าภายในของโมเดลที่แปลงแล้วกับโมเดล PyTorch ต้นฉบับ
- แสดงโครงสร้างโมเดลเป็นกราฟ
- ตรวจดูค่า tensor ระหว่างทางได้
- ไล่ย้อนกลับไปถึงบรรทัดที่เจาะจงในซอร์สโค้ด Python ได้
- ไฮไลต์โอเปอเรชันที่มีความต่างสูงตามเกณฑ์ PSNR
ในการเปรียบเทียบ SAM 3 จุด sync point ที่มี PSNR ต่ำส่วนใหญ่เกิดใน detector decoder
- detector block มีเพียง 4% ของพารามิเตอร์ทั้งหมด จึงได้ประโยชน์จากการบีบอัดไม่มาก
- เมื่อยกเว้น detector ออกจากเป้าหมายการทำ quantization ก็สามารถตรวจพบดอกไม้ทั้งหมดได้อีกครั้งและได้คุณภาพกลับสู่ baseline

Core AI Models และ API ระดับสูง

รีโพซิทอรี Core AI Models มีโมเดลยอดนิยมและ export recipe ที่นำไปแปลงและปรับแต่งให้เหมาะกับแอปได้
- สามารถหาโมเดลตระกูล SAM 3 และ Qwen แล้วแปลงเป็นโมเดล Core AI ได้
- Swift package มี abstraction สำหรับขั้นตอน pre-processing และ post-processing ของแต่ละโมเดล
โมเดล segmentation อย่าง SAM 3 สามารถใช้งานผ่าน CoreAIImageSegmenter
- แยกวัตถุด้วย text prompt
- ดึง mask ผ่าน Swift API ได้โดยไม่ต้องจัดการ raw tensor shape โดยตรง
โมเดลภาษาอย่าง Qwen สามารถโหลดผ่าน CoreAILanguageModel
- มี abstraction สำหรับ asset loading, engine creation และ tokenizer setup
- ใช้งานเชื่อมกับ LanguageModelSession ของ FoundationModels ได้
- รองรับทั้งการตอบกลับแบบสตรีมและ structured output บนพื้นฐาน @Generable

จุดที่นักพัฒนาควรจับตา

Core AI มีขอบเขตกว้างกว่า “API สำหรับรันโมเดลในแอป” โดยเป็น ระบบการนำ AI บนอุปกรณ์ไปใช้งานจริง
- ครอบคลุมโฟลว์แปลงโมเดล PyTorch เป็น .aimodel สำหรับ Apple silicon
- มี API สำหรับรันโมเดลในแอป Swift อย่างปลอดภัยและมีประสิทธิภาพ
- รองรับการวิเคราะห์ประสิทธิภาพและความแม่นยำผ่าน Xcode, Instruments และ Debugger
ในการออกแบบแอป ขั้นตอน การเตรียมพร้อม ส่งผลต่อประสบการณ์ผู้ใช้มากกว่าตัวโมเดลเอง
- ต้องตัดสินใจว่าจะ bundle โมเดลมากับแอปหรือรับผ่าน Background Assets
- ต้องออกแบบว่าจะนำเสนอการดาวน์โหลดและ specialization ในการรันครั้งแรกอย่างไร
- นโยบายแคชและกลยุทธ์พรีคอมไพล์เชื่อมโยงโดยตรงกับการใช้งานโมเดลขนาดใหญ่
Core AI นำเสนอโฟลว์การพัฒนาสำหรับใช้งานโมเดล vision, language และโมเดลตระกูล Transformer แบบ on-device บนแพลตฟอร์ม Apple
- ใช้ตัวอย่าง SAM 3 อธิบายโฟลว์การบีบอัด แยกส่วน และดีบักของโมเดล segmentation
- ใช้ตัวอย่าง Qwen อธิบายการเชื่อมโมเดลภาษาคัสตอมเข้ากับ Foundation Models API
- ใช้ตัวอย่าง Snake Transformer อธิบายการปรับแต่ง key/value cache ด้วย state

ลิงก์อ้างอิง

Apple Core AI Documentation: https://developer.apple.com/documentation/coreai/
WWDC26: พบกับ Core AI: https://www.youtube.com/watch?v=XJFfCVW1UZ0
WWDC26: ผนวกโมเดล AI บนอุปกรณ์เข้ากับแอปด้วย Core AI: https://www.youtube.com/watch?v=gl5lD2gEhb0
WWDC26: เจาะลึกการสร้างและปรับแต่งโมเดล Core AI: https://www.youtube.com/watch?v=MdlyLT_y3i0

1 ความคิดเห็น

GN⁺ 2026-06-10

ความเห็นจาก Hacker News

ค่อนข้างคาดหวังกับอัปเดต Foundation Models แบบ on-device ที่กำลังจะมา: https://developer.apple.com/documentation/updates/foundation...
ตอนนี้ยังมีข้อมูลไม่มากนัก
แต่ก็อาจมีอคติได้ เพราะกำลังดูแล https://github.com/Arthur-Ficial/apfel อยู่
- สงสัยว่าได้เห็นการเพิ่มเครื่องมือ fm แล้วหรือยัง มีการพูดถึงใน Platforms State of the Union
  พอรันแล้วจะได้ผลลัพธ์แบบนี้: https://gist.github.com/robgough/7893602895e7580117475076198...
- เห็นด้วย แนวคิดที่นำโมเดล on-device ซึ่งใช้ได้ทั้งระดับระบบและข้ามทั้งแพลตฟอร์ม เข้ามาเป็น ส่วนแกนหลักของ OS API นั้นน่าสนใจมาก
  ปกติแล้วจะชอบฝั่งที่ซอฟต์แวร์แยกเป็นชิ้นๆ มากกว่า แต่ในกรณีของ Apple ก็มีฟีเจอร์ที่ให้มากับระบบหลายอย่างที่ชอบ
  สิ่งที่ดึงดูดเป็นพิเศษคือซอฟต์แวร์จะรู้ว่า “แพลตฟอร์มนี้มีโมเดลนี้อยู่” และนำไปใช้กับงาน generative AI เล็กๆ ไปจนถึงงานที่ใหญ่ขึ้นเรื่อยๆ ได้
- Apfel ดูมีประโยชน์ดี ได้ลองเล่นกับ Apple Foundation Models มาเกือบ 1 ปีแล้ว และน่าจะใช้กับแอปพลิเคชันแบบ embedded ได้
  ก็กำลังเจาะลึกเครื่องมือเขียนโค้ดแบบ local agent มากขึ้นเช่นกัน โดยเริ่มจาก little-coder --model ollama/gemma4:12b-it-qat
  ยังทำหนังสือเล่มเล็กแจกฟรีไว้เล่มหนึ่งเพื่อช่วยประหยัดเวลาตั้งค่าไปได้ไม่กี่นาที: https://leanpub.com/read/local-coding-agents
  ค่อนข้างไม่พอใจกับกระแสโหมการเติบโตของ AI ที่ยึด hyperscaler เป็นศูนย์กลาง โดยเฉพาะต้นทุนด้านสิ่งแวดล้อมและต้นทุนทางสังคมของดาต้าเซ็นเตอร์ ดังนั้นจึงสนับสนุนทุกความพยายามที่ผลักดัน AI แบบ local และ private
- แปลกใจที่ Apple ดูเหมือนจะไม่ได้เลือกใส่ OpenAPI-compatible endpoint ให้กับ Core AI อย่างน้อยก็ในฐานะเครื่องมือทดสอบ
  ตอนนี้ที่มีการรองรับ MCP แล้ว ก็อยากฟังเพิ่มเกี่ยวกับ กลยุทธ์ containerization/seatbelt ด้วย
  ยังไม่เห็นข่าวว่ามีการใช้ Darwin อย่างไรภายในระบบคอนเทนเนอร์ของ Apple
  Apfel เป็นโปรเจกต์ที่ยอดเยี่ยม และเป็นเหตุผลเดียวที่ทำให้อยากอัปเกรดเป็น Tahoe
วิดีโอ WWDC 2026 Core AI
Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/
นี่ดูเหมือนเป็นวิธีใหม่ในการแปลงโมเดล PyTorch ไปเป็นฟอร์แมตที่รันได้ทั้งบน CPU, GPU และ Apple Neural Engine (ANE) [0]
เลยสงสัยว่ามันจะมาแทนที่ API เดิมอย่าง Core ML ไปทั้งหมดหรือไม่ [1]
[0]: https://apple.github.io/coreai-optimization/
[1]: https://developer.apple.com/documentation/coreml/
- ใช่ ตามเอกสารของ Core AI ถ้าแอปใช้โมเดลประเภทที่ไม่ใช่ neural network เช่น decision tree หรือใช้วิศวกรรมฟีเจอร์แบบตาราง ก็ระบุให้ไปใช้ Core ML
- ค่อนข้างน่าสนใจ แต่ก็สงสัยว่าในแง่ ประสิทธิภาพ แล้วจะออกมาเป็นอย่างไรเมื่อเทียบกับวิธีเดิมๆ อย่างเช่นโหลดโมเดลที่ปรับแต่งสำหรับ Metal ไปใช้ใน llama.cpp
  unsloth เป็นตัวอย่างที่ดีของการทำงานลักษณะนี้แบบ “batteries included”
- ดูเหมือนจะตั้งใจมาแทน Core ML แต่ตอนนี้ความสัมพันธ์ระหว่าง Core AI, Core ML, MLX และ coremltools กลับยิ่งชวนสับสน
  Apple ควรอธิบายให้ดีกว่านี้ว่าแต่ละอย่างมีข้อดีข้อเสียอะไร และมีความเท่าเทียมกันด้านความสามารถแค่ไหน
- เนื่องจากต้องใช้ OS 27 ขึ้นไป ดังนั้น Core ML ก็ยังมีประโยชน์อยู่เพราะเรื่อง การรองรับย้อนหลัง
มีการบอกว่าจะให้แอปที่มียอดดาวน์โหลดต่ำกว่า 2 ล้านครั้งเข้าถึงโมเดลระดับเซิร์ฟเวอร์ได้ฟรี พร้อมการรับประกัน ความเป็นส่วนตัว แบบเดียวกัน
หวังว่าเมื่อเวลาผ่านไปจะขยายไปยังทุกแอปได้ แม้จะมีข้อจำกัดด้านฮาร์ดแวร์/ต้นทุน แต่ดูเหมือนนักพัฒนารายใหญ่ก็น่าจะจ่ายค่าใช้งานได้
https://developer.apple.com/private-cloud-compute/
- จากที่มีการพูดถึง Apple Intelligence Extensions ดูเหมือนว่าในระยะสั้นคงยังไม่ขยายมากนัก แต่จะเปิดทางให้นักพัฒนาผสานระบบกับ ผู้ให้บริการรายอื่น ที่ผู้ใช้มีบัญชีอยู่แทน
อนาคตของ AI ชัดเจนว่าเป็นแบบ รันในเครื่อง และช่วงหลังก็ถูกอธิบายว่าเป็น “โทเค็นไม่จำกัด”
M1 MacBook Pro ก็ทำแบบนั้นได้ และ RTX 3090 ก็ทำได้เช่นกัน
ไม่จำเป็นต้องจ่ายหลายร้อยดอลลาร์ทุกเดือน และคนอื่น ๆ ก็เช่นกัน
- ในยุค 1980 อนาคตของคอมพิวติ้งก็ดูชัดเจนว่าเป็นแบบโลคัลเช่นกัน ไม่ว่าจะเป็นคอมพิวเตอร์ตามบ้าน, PC, Mac, เซิร์ฟเวอร์ในออฟฟิศ (Novell และต่อมาคือ Windows NT ที่มีการแชร์ดิสก์)
  แต่พอผ่านไป 40 ปี เรากลับย้อนมาสู่ โครงสร้างพื้นฐานแบบรวมศูนย์ ที่ใกล้เคียงกับสมาร์ทเทอร์มินัลยุคใหม่
  อนาคตของ AI ก็น่าจะไหลไปในทิศทางนั้นในท้ายที่สุด อาจแกว่งไปมาระหว่างโลคัลกับรวมศูนย์
  เพียงแต่ถ้าผู้คนสามารถหาเงินได้จากการขายสิ่งที่รันในเครื่องได้ การรวมศูนย์ก็ดูเหมือนจะสร้างอำนาจที่มากกว่าและเงินที่มากกว่า
- “โทเค็นไม่จำกัด” ที่จำกัดไว้ที่ 10 โทเค็นต่อวินาที เท่ากับ 26 ล้านโทเค็น ต่อเดือน
- เงินที่แท้จริงอยู่ที่การเขียนโค้ดรอบตัวโมเดลเพื่อทำให้มันมีประสิทธิภาพกับงานเฉพาะทาง
  ผู้ใช้ทั่วไปต้องการโมเดลแบบอเนกประสงค์ ดังนั้นแอปแชต AI จะยังคงอยู่ต่อไป
  โปรแกรมส่วนใหญ่จะได้ประโยชน์จาก AI แบบเฉพาะทางที่รันในเครื่องได้ และ จำนวนโปรแกรมมีมากกว่าจำนวนผู้ใช้อย่างมาก
ดูเหมือนว่า Apple กำลังทำงานฝั่ง activation values อยู่ด้วย เท่าที่ทราบคือ w4a8, w4a16
ถ้าทำได้จริง และนั่นก็เป็นสมมติฐานใหญ่ เมื่อพิจารณาจากการเข้าถึงตลาดของ Apple มันอาจกำหนดแนวทางของการฝึกและให้บริการโมเดลที่มีพารามิเตอร์ต่ำกว่า 1 แสนล้านได้อย่างมาก
การใช้งานหลักจะเป็นแบบ on-device และส่วนใหญ่น่าจะเป็นบน macOS มากกว่า iOS
ยังไม่เห็นที่ไหนพูดถึงเรื่องนี้มากนัก แต่ การอนุมานแบบกระจายระหว่าง Mac น่าสนใจดี มีทั้ง JACCL บน Thunderbolt 5, mlx_lm.server ที่เข้ากันได้กับ OpenAI และการรันแบบเอเจนต์บน Mac
Apple แยก MLX (การนำเข้าน้ำหนักโดยตรง) ออกจาก Foundation Models / Core AI
นี่คือเหตุผลที่บริษัท AI ต่างรีบเข้าตลาดหุ้น
ภายในปลายปีหน้า AI ส่วนใหญ่จะ รันบนอุปกรณ์โดยตรง
พวกเขาไม่มีคูเมืองป้องกันธุรกิจ แตะขีดจำกัดของการสเกลแล้ว และสิ่งที่ดูเหมือนเวทมนตร์ส่วนใหญ่ก็สามารถกลั่นเป็นโมเดลที่เล็กกว่าได้ ซึ่งพวกเขาเองก็รู้เรื่องนั้น
- โมเดลระดับ 30B ของ Qwen ใช้งานได้จริงแล้วถ้ามีเครื่องที่มี แบนด์วิดท์หน่วยความจำ พอจะรันได้ที่ 30~90 โทเค็นต่อวินาที
  การที่ Qwen หยุดปล่อยโมเดลระดับ 120B นั้นมีนัยสำคัญมาก
  ภายใน 10 ปีข้างหน้า หรืออาจภายใน 3 ปี จะมีใครสักคนปล่อยโมเดลระดับ 256B ที่เทียบชั้น Opus 4.5 และรันในเครื่องได้
  ตอนนี้วิศวกรของเรากำลังจ่ายค่าโทเค็น Opus ราว 800 ดอลลาร์ต่อเดือน และด้วยอัตรานั้น ระยะเวลาคืนทุนของ local LLM อยู่ที่ประมาณ 10 เดือน
- ไม่แน่ใจว่าเราไปถึง ขีดจำกัดของการสเกล จริงหรือยัง
  น่าเสียดายที่โมเดลที่ใหญ่กว่าก็ยังดูเหมือนเป็นโมเดลที่ดีกว่าอยู่ดี
- ในสายงานโค้ดดิ้ง ดูเหมือนว่าจะมีการขายโมเดล 35B, 70B, 150B แบบจ่ายล่วงหน้าหลายร้อยถึงหลายพันดอลลาร์ แล้วให้การอัปเดตที่ฝึกจากเอกสารและรีโพซิทอรีโค้ดใหม่ ๆ ทุกเดือนหรือทุกสองเดือนเป็นเวลา 1 ปี
- ไชโย อำนาจผูกขาดแบบบีบคอของพวกเขาถูกปลดแล้ว ขอให้การปฏิวัติจงเจริญ!
- ฉันแค่อยากได้โมเดลเล็กมากตัวหนึ่งที่รันบนอุปกรณ์ได้ เช่น แค่รู้ว่าในการเติมคำอัตโนมัติฉันอยากพิมพ์ “I'll be right back” ไม่ใช่ “I'll be right Brian” ก็พอ
  ตอนนี้นี่คือ คำขอ AI อันดับหนึ่ง ของฉันเลย ได้โปรด Apple
สงสัยว่าบน Linux มีอะไรแบบนี้หรือเปล่า
เช่น ถ้าเป็นนักพัฒนาแอปพลิเคชัน จะสามารถสมมติได้ไหมว่าเมื่อเคอร์เนลเป็นเวอร์ชันที่สูงกว่าระดับหนึ่ง จะมีอะไรอย่าง GNU Core AI อยู่
- บนแพลตฟอร์มที่ไม่ใช่ Apple โดยทั่วไปต้องใส่ใจกับ เฟรมเวิร์ก AI ตามจำนวนผู้ผลิตซิลิคอนที่ต้องรองรับบวกเพิ่มอีกอย่างน้อย 2 ตัว
  ตอนนี้ Apple เองก็ดูเหมือนจะอยู่ในสภาพนั้นแล้วระหว่าง Core ML, MLX และ Core AI
  ยังไม่เห็นสัญญาณว่าปัญหาการแตกกระจายของเฟรมเวิร์กจะหายไปในเร็ววัน
  NVIDIA อยากให้ทุกคนทำทั้งการฝึกและการอนุมานด้วย CUDA และพยายามปฏิเสธว่า NPU มีประโยชน์
  ผู้ผลิต NPU แต่ละรายต่างก็มีสถาปัตยกรรมของตัวเอง และมีเฟรมเวิร์กแยกต่างหากที่ปรับตามข้อจำกัดที่สืบทอดมาจากฮาร์ดแวร์ซึ่งออกแบบมาตั้งแต่ก่อนยุค LLM ส่วนใหญ่ก็มีอีกเฟรมเวิร์กหนึ่งที่มุ่งเป้าไปที่ GPU ด้วย
  ผู้ผลิตระบบปฏิบัติการเองก็มักมีเฟรมเวิร์กอีกหนึ่งหรือสองตัวที่อยากให้ใช้แทนเฟรมเวิร์กเฉพาะฮาร์ดแวร์
- ในทางปฏิบัติ llama.cpp ทำหน้าที่นี้อยู่ จะลิงก์เข้าไปใช้หรือใช้ network API ก็ได้
- ไม่มี แต่ Red Hat และ IBM กำลังทำอะไรทำนองนั้นสำหรับดิสโทรของตัวเอง
- มี onnxruntime, llama.cpp และถ้าจะเจาะจงกว่านั้นคือ ggml ส่วน iree.dev ก็กำลังพยายามอยู่
สงสัยว่านี่หมายความว่าสามารถรันอะไรก็ได้ที่ต้องการบน ANE หรือไม่
ครั้งล่าสุดที่ลอง ดูเหมือนจะใช้ได้เฉพาะกับ ฟีเจอร์ของ Apple ฝั่ง first-party อย่าง Face ID
- ถ้าแปลงโมเดลเป็น Core ML ก็ทำแบบนั้นได้อยู่แล้ว
  สิ่งที่ใช้ ANE ไม่ได้เลยคือ MLX
- ทำแบบนั้นบน Core ML มาหลายปีแล้ว

เฟรมเวิร์ก Apple Core AI

บทบาทของ Core AI

โฟลว์การพัฒนา: จาก PyTorch สู่แอป Swift

การปรับประสิทธิภาพ: state, cache, memory layout

การนำโมเดลไปใช้งาน: ดาวน์โหลด, specialization, พรีคอมไพล์

การปรับแต่งโมเดลและการดีบัก

Core AI Models และ API ระดับสูง

จุดที่นักพัฒนาควรจับตา

ลิงก์อ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News