Apple Intelligence สำหรับ iPhone, iPad และ Mac
(apple.com)- Apple เปิดตัว Apple Intelligence ที่ผสานโมเดลเชิงสร้างสรรค์เข้ากับบริบทส่วนบุคคล นำการสร้างภาษาและภาพ รวมถึงการทำงานข้ามแอป เข้ามาเป็นประสบการณ์พื้นฐานบน iPhone, iPad และ Mac
- iOS 18, iPadOS 18 และ macOS Sequoia ผสาน Writing Tools, การจัดลำดับความสำคัญและสรุปใน Mail, สรุปการแจ้งเตือน และฟีเจอร์บันทึกเสียง·ถอดเสียง·สรุปใน Notes และ Phone
- ด้านภาพขยายไปสู่ Image Playground, Genmoji, การค้นหา·Clean Up·Memories ใน Photos และใช้งานได้ในแอปของ Apple รวมถึงแอป third-party ที่นำ API ไปใช้
- Siri ถูกขยายให้รองรับการป้อนข้อความ การรับรู้หน้าจอ งานหลายร้อยอย่างทั้งในและนอกแอป การตอบคำถามวิธีใช้อุปกรณ์ และการประมวลผลคำขอจากข้อมูลบนอุปกรณ์
- การปกป้องความเป็นส่วนตัวมีแกนหลักคือการประมวลผลบนอุปกรณ์และ Private Cloud Compute ส่วน ChatGPT จะเชื่อมกับ Siri และ Writing Tools บนพื้นฐาน GPT-4o หลังได้รับอนุญาตจากผู้ใช้ และเบต้าจะเปิดให้ใช้ภาษาอังกฤษแบบสหรัฐฯ ในฤดูใบไม้ร่วงนี้
โครงสร้างพื้นฐานของ Apple Intelligence
- Apple Intelligence คือ ระบบความอัจฉริยะส่วนบุคคล สำหรับ iPhone, iPad และ Mac ที่ผสานความสามารถของโมเดลเชิงสร้างสรรค์เข้ากับบริบทส่วนบุคคลของผู้ใช้
- ผสานอย่างลึกซึ้งใน iOS 18, iPadOS 18 และ macOS Sequoia และใช้ประโยชน์จาก Apple silicon เพื่อทำงานต่อไปนี้
- เข้าใจและสร้างภาษาและภาพ
- ทำงานข้ามแอป
- ทำให้งานประจำวันเรียบง่ายขึ้นและเร็วขึ้นโดยอาศัยบริบทส่วนบุคคล
- สำหรับคำขอที่ซับซ้อนกว่า Private Cloud Compute จะปรับกำลังประมวลผลที่จำเป็นระหว่างการประมวลผลบนอุปกรณ์กับโมเดลบนเซิร์ฟเวอร์ที่ใช้ Apple silicon
ความเข้าใจภาษาและเครื่องมือช่วยเขียน
- Writing Tools ที่อยู่ทั่วทั้งระบบใช้ได้ใน iOS 18, iPadOS 18 และ macOS Sequoia กับแทบทุกตำแหน่งที่เขียนได้ เช่น Mail, Notes, Pages และแอป third-party
- ฟีเจอร์ช่วยเขียนมุ่งเน้นการขัดเกลาร่างให้เหมาะกับวัตถุประสงค์และรูปแบบของงานเขียน
- Rewrite: เสนอข้อความที่เขียนไว้หลายเวอร์ชัน และปรับโทนให้เหมาะกับกลุ่มเป้าหมายและงาน
- Proofread: ตรวจไวยากรณ์ การเลือกคำ และโครงสร้างประโยค พร้อมให้ข้อเสนอแนะการแก้ไขและคำอธิบาย
- Summarize: สรุปข้อความที่เลือกเป็นย่อหน้า bullet สำคัญ ตาราง หรือรายการ
- Mail เพิ่ม Priority Messages ที่แสดงอีเมลด่วนไว้ด้านบนของกล่องขาเข้า
- ดูสรุปได้โดยไม่ต้องเปิดอีเมล
- เธรดยาวสามารถแตะครั้งเดียวเพื่อดูรายละเอียดที่เกี่ยวข้องได้
- Smart Reply แนะนำคำตอบอย่างรวดเร็ว และช่วยระบุคำถามในอีเมลเพื่อให้ตอบได้ครบถ้วน
- การแจ้งเตือนมี Priority Notifications และฟีเจอร์สรุป ช่วยลดข้อมูลที่ต้องพิจารณาบนหน้าจอล็อก
- แสดงการแจ้งเตือนสำคัญไว้ด้านบนของสแต็ก
- แสดงสาระสำคัญของการแจ้งเตือนที่ยาวหรือการแจ้งเตือนที่สะสมอยู่บนหน้าจอล็อก
- Focus ใหม่ชื่อ Reduce Interruptions จะแสดงเฉพาะการแจ้งเตือนที่อาจต้องได้รับความสนใจทันที
- ในแอป Notes และ Phone สามารถ บันทึก·ถอดเสียง·สรุป เสียงได้
- เมื่อเริ่มบันทึกระหว่างการโทร ระบบจะแจ้งผู้เข้าร่วมโดยอัตโนมัติ
- เมื่อจบสาย Apple Intelligence จะสรุปสาระสำคัญ
การสร้างภาพและฟีเจอร์การแสดงออก
- Image Playground เป็นฟีเจอร์ที่ให้ผู้ใช้สร้างภาพได้ภายในไม่กี่วินาที และมี 3 สไตล์คือ Animation, Illustration และ Sketch
- ใช้งานได้ทันทีภายในแอปอย่าง Messages และมีให้เป็นแอปแยกด้วย
- ภาพทั้งหมดสร้างบนอุปกรณ์
- เลือกแนวคิดจากหมวดหมู่ต่าง ๆ เช่น ธีม ชุด เครื่องประดับ และสถานที่ได้
- ป้อนคำอธิบายเพื่อกำหนดภาพได้
- ใส่บุคคลจากคลังรูปภาพส่วนตัวลงในภาพได้
- ใน Messages จะแสดงแนวคิดแนะนำแบบปรับให้เหมาะกับบทสนทนา
- เช่น ในแชตกลุ่มที่วางแผนไปเดินป่า ระบบจะแนะนำแนวคิดที่เกี่ยวข้องกับเพื่อน จุดหมาย และกิจกรรม
- ใน Notes สามารถใช้ Image Playground ผ่าน Image Wand ในชุดเครื่องมือ Apple Pencil ได้
- เปลี่ยนสเก็ตช์คร่าว ๆ ให้เป็นภาพได้
- หากเลือกพื้นที่ว่าง ระบบสามารถสร้างภาพโดยใช้บริบทรอบข้างได้
- Image Playground มีให้ใน Keynote, Freeform และ Pages ด้วย และใช้ได้ในแอป third-party ที่นำ Image Playground API ใหม่ไปใช้
Genmoji และฟีเจอร์ Photos
- Genmoji เป็นฟีเจอร์สร้างภาพในรูปแบบอีโมจิใหม่ด้วยการป้อนคำอธิบาย
- เมื่อป้อนคำอธิบาย ระบบจะแสดง Genmoji และตัวเลือกเพิ่มเติม
- สร้าง Genmoji ของเพื่อนหรือครอบครัวจากรูปภาพได้
- เพิ่มแบบ inline ในข้อความ หรือแชร์เป็นสติกเกอร์และปฏิกิริยา Tapback ได้
- การค้นหาใน Photos รองรับภาษาธรรมชาติ ทำให้ค้นหาฉากเฉพาะได้ตรงขึ้น
- ค้นหารูปเฉพาะอย่าง “Maya skateboarding in a tie-dye shirt” ได้
- การค้นหาวิดีโอสามารถหาช่วงเวลาที่เฉพาะเจาะจงในคลิป และข้ามไปยังช่วงที่เกี่ยวข้องได้ทันที
- เครื่องมือใหม่ Clean Up ระบุและลบสิ่งรบกวนในพื้นหลังของรูปภาพ
- ออกแบบมาเพื่อไม่ให้เปลี่ยนวัตถุหลักโดยไม่ตั้งใจ
- ใน Memories เมื่อผู้ใช้ป้อนคำอธิบาย Apple Intelligence จะเลือกรูปภาพและวิดีโอ สร้างโครงเรื่องที่มีบทตามธีม และจัดเรียงเป็นภาพยนตร์
- มีคำแนะนำเพลงจาก Apple Music ที่เหมาะกับความทรงจำนั้นด้วย
- รูปภาพและวิดีโอของผู้ใช้จะคงความเป็นส่วนตัวบนอุปกรณ์ และไม่ถูกแชร์กับ Apple หรือบุคคลอื่น
การเปลี่ยนแปลงของ Siri
- Siri ผสานเข้ากับประสบการณ์ระบบอย่างลึกซึ้งยิ่งขึ้นบนพื้นฐานของ Apple Intelligence
- ความสามารถในการเข้าใจภาษาดีขึ้น ทำให้ตามบทสนทนาได้แม้ผู้ใช้พูดติดขัด และรักษาบริบทระหว่างคำขอได้
- ผู้ใช้สามารถ พิมพ์หา Siri ได้ และสลับระหว่างข้อความกับเสียงตามสถานการณ์ได้
- เมื่อเปิดใช้งาน Siri จะแสดงดีไซน์เอฟเฟกต์แสงใหม่ที่โอบรอบขอบหน้าจอ
- สามารถตอบคำถามหลายพันข้อเกี่ยวกับวิธีใช้ iPhone, iPad และ Mac ได้ด้วย
- การตั้งเวลาส่งอีเมลในแอป Mail
- จัดการคำถามอย่างการสลับจาก Light Mode เป็น Dark Mode
- ด้วย การรับรู้หน้าจอ Siri สามารถทำงานที่เชื่อมโยงกับข้อมูลบนหน้าจอปัจจุบันได้
- เพิ่มที่อยู่ใหม่ที่ได้รับใน Messages ลงในการ์ดรายชื่อได้
- ทำงานใหม่ได้หลายร้อยอย่างทั้งในและนอกแอปของ Apple และแอป third-party
- เรียกบทความเฉพาะจาก Reading List
- จัดการคำขออย่างส่งรูปบาร์บีคิววันเสาร์ให้บุคคลที่ระบุ
- จัดการคำขอแบบปรับให้เหมาะกับบุคคลโดยอาศัยข้อมูลบนอุปกรณ์ของผู้ใช้ได้
- ค้นหาและเล่นพอดแคสต์ที่ได้รับแนะนำ แม้ผู้ใช้จะจำไม่ได้ว่าเห็นในข้อความหรืออีเมล
- ค้นหาข้อมูลเที่ยวบินและเทียบกับการติดตามเที่ยวบินแบบเรียลไทม์เพื่อบอกเวลาเดินทางถึง
การปกป้องความเป็นส่วนตัวและ Private Cloud Compute
- Apple Intelligence ตั้งอยู่บนโครงสร้างที่เข้าใจบริบทส่วนบุคคลไปพร้อมกับปกป้องข้อมูลส่วนบุคคลของผู้ใช้
- โมเดลจำนวนมากทำงานทั้งหมด บนอุปกรณ์
- สำหรับคำขอซับซ้อนที่ต้องใช้กำลังประมวลผลมากขึ้น จะใช้ Private Cloud Compute
- รันโมเดลเซิร์ฟเวอร์ขนาดใหญ่บนเซิร์ฟเวอร์ที่ใช้ Apple silicon
- ออกแบบมาเพื่อไม่ให้ข้อมูลถูกจัดเก็บหรือเปิดเผย
- ผู้เชี่ยวชาญอิสระสามารถตรวจสอบโค้ดที่รันบนเซิร์ฟเวอร์ Apple silicon เพื่อยืนยันการปกป้องความเป็นส่วนตัวได้
- Private Cloud Compute รับประกันด้วยการเข้ารหัสว่า iPhone, iPad และ Mac จะสื่อสารเฉพาะกับเซิร์ฟเวอร์ที่รันซอฟต์แวร์ซึ่งบันทึกต่อสาธารณะและตรวจสอบได้เท่านั้น
การผสาน ChatGPT
- Apple ผสานการเข้าถึง ChatGPT เข้ากับประสบการณ์ iOS 18, iPadOS 18 และ macOS Sequoia
- ผู้ใช้สามารถใช้ความเชี่ยวชาญ ความเข้าใจภาพ และความเข้าใจเอกสารของ ChatGPT ได้โดยไม่ต้องย้ายไปยังเครื่องมือแยกต่างหาก
- Siri สามารถใช้ ChatGPT ได้เมื่อเป็นประโยชน์
- จะขออนุญาตผู้ใช้ก่อนส่งคำถาม เอกสาร หรือรูปภาพไปยัง ChatGPT
- หลังได้รับอนุญาต Siri จะแสดงคำตอบโดยตรง
- ChatGPT มีให้ใน Writing Tools ทั่วทั้งระบบด้วย
- สร้างคอนเทนต์ที่กำลังเขียนผ่าน Compose ได้
- ใช้เครื่องมือภาพของ ChatGPT เพื่อสร้างภาพหลากหลายสไตล์มาประกอบงานเขียนได้
- การใช้งาน ChatGPT มีมาตรการปกป้องความเป็นส่วนตัวรวมอยู่ด้วย
- ซ่อนที่อยู่ IP
- OpenAI ไม่จัดเก็บคำขอ
- หากผู้ใช้เชื่อมบัญชี จะใช้นโยบายการใช้ข้อมูลของ ChatGPT
- การผสาน ChatGPT จะมาใน iOS 18, iPadOS 18 และ macOS Sequoia ช่วงปลายปีนี้ และใช้ GPT-4o เป็นพื้นฐาน
- เข้าถึงได้ฟรีโดยไม่ต้องสร้างบัญชี
- สมาชิก ChatGPT สามารถเชื่อมบัญชีเพื่อใช้ฟีเจอร์แบบชำระเงินได้
กำหนดการให้บริการและอุปกรณ์ที่รองรับ
- Apple Intelligence ให้บริการแก่ผู้ใช้ฟรี
- จะเปิดให้ใช้เป็นเบต้าของ iOS 18, iPadOS 18, macOS Sequoia ในฤดูใบไม้ร่วงนี้ โดยภาษาเริ่มต้นคือ ภาษาอังกฤษแบบสหรัฐฯ
- ฟีเจอร์บางส่วน แพลตฟอร์มซอฟต์แวร์ และภาษาเพิ่มเติมจะทยอยให้บริการในปีถัดไป
- อุปกรณ์ที่รองรับมีดังนี้
- iPhone 15 Pro
- iPhone 15 Pro Max
- iPad และ Mac ที่ใช้ชิป M1 ขึ้นไป
- ต้องตั้งค่าภาษา Siri และภาษาอุปกรณ์เป็นภาษาอังกฤษแบบสหรัฐฯ จึงจะใช้งานได้
- ดูข้อมูลเพิ่มเติมได้ที่ apple.com/apple-intelligence
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฟีเจอร์ AI ส่วนบุคคล ที่ Apple แสดงให้ดูวันนี้น่าประทับใจจริง ๆ
มันแสดงให้เห็นว่าพลังที่แท้จริงของ AI สำหรับผู้บริโภคอยู่กับเจ้าของแพลตฟอร์มที่กุมชีวิตดิจิทัลส่วนใหญ่ของเราอยู่แล้ว ไม่ว่าจะเป็นข้อความ อีเมล รูปภาพ แอปต่าง ๆ นั่นคือ Apple หรือ Google และ Microsoft ในด้านงาน/ชีวิตประจำวัน
วิธีที่ Siri ใช้บริบทจากอีเมลและข้อความเพื่อทำงานอย่างปฏิทิน การจอง และการตรวจสอบเที่ยวบิน ดูมีประโยชน์มาก ผมคิดอยู่แล้วว่าสักวันความสามารถแบบผู้ช่วยอัจฉริยะส่วนบุคคลจะมาถึง แต่ไม่คิดว่า Apple จะบุกหนักขนาดนี้ และผลจากการดึงผู้คนเข้าสู่ ecosystem ก็ชัดเจนมาก
จุดที่คำนึงถึง private cloud, การผสานรวม ChatGPT, playground สำหรับสร้างภาพ และ Genmoji ก็ดีเช่นกัน และดูเหมือนอาจเป็นฟีเจอร์ “สำหรับพวกเราทุกคน” อย่างที่ Craig พูดได้จริง อย่างไรก็ตาม การสร้างภาพบุคคลจริงนั้นเข้าใกล้ uncanny valley มากเกินไป ถ้าได้รับภาพอวยพรวันเกิดที่ดูเย็นชาและเหมือนไม่ใส่ใจแบบนั้น คงไม่ได้รู้สึกดีใจเท่าไร
การบรรจบกันของ AI น่าจะเผยให้เห็นข้อบกพร่องเชิงองค์กรอย่างโจ่งแจ้งกว่าการเปลี่ยนผ่านทางเทคโนโลยีก่อน ๆ มาก ไม่มีใครอยากได้ generative AI ที่ใช้ได้เฉพาะใน Gmail หรือ AI อีกตัวที่ใช้ได้เฉพาะใน Messages แต่ต้องการฟีเจอร์ระดับแพลตฟอร์มที่ทำงานได้ทุกที่ที่มีการเขียนข้อความ
ตอนนี้ยังไม่แน่ใจนักว่า Google หรือ Microsoft ในเชิงองค์กรจะสามารถมอบสิ่งนั้นได้หรือไม่
private computing ก็ดูสำคัญมาก นอกเหนือจากกรณีใช้งานที่ชัดเจนอย่างการประมวลผลหนัก ๆ บนเซิร์ฟเวอร์คลาวด์แล้ว มันอาจเป็นเส้นทางไปสู่ personal code interpreter หรือก็คือการทำ scripting จริงจังบน iOS และในระยะยาวอาจเปิดทางให้พัฒนาซอฟต์แวร์บน iPadOS ได้
การที่ Apple ใช้ชิปของตัวเองในเซิร์ฟเวอร์ด้วยก็สำคัญเช่นกัน คำถามที่ถูกต้องไม่ใช่ “เพียงพอหรือยัง” แต่คือ Apple จะทำอะไรเพื่อยกระดับทั้งฝั่งนักพัฒนาและฮาร์ดแวร์ให้ไปถึง ระดับ NVIDIA
ดูเหมือนผู้คนยังไม่เข้าใจภาพใหญ่ตรงนี้ เพราะเอาแต่มองว่า Apple ต้องกระโดดลงไปแข่งโมเดลล้ำสมัยเท่านั้น ตอนนี้จึงเข้าใจแล้วว่าทำไมถึงมีพาดหัวข่าวว่า Nadella กังวลเรื่องพาร์ตเนอร์ชิประหว่าง Apple กับ OpenAI
คำถามที่สำคัญที่สุดคือความน่าเชื่อถือ มันจะทำงานได้ถูกต้องทุกครั้งหรือไม่ หรือมีโอกาสเข้าใจเนื้อหาผิดอย่างรุนแรงจนทำให้ผู้ใช้ที่ไว้ใจและมอบหมายงานให้ต้องตกที่นั่งลำบากหรือเปล่า นี่คือประเด็นหลัก
https://www.theguardian.com/us-news/2024/apr/16/house-fisa-g...
นอกจากการปรับปรุงการค้นหาและ Siri แล้ว ผมยังไม่แน่ใจว่าฟีเจอร์สร้างเนื้อหาที่ Apple เสนอไว้ตรงนี้จะมีประโยชน์แค่ไหน
ถ้าใช้เวลาหนึ่งชั่วโมงวาดรูปเพื่อส่งให้ใครสักคนในวันเกิด คุณค่าจำนวนมากที่ผู้รับรู้สึกไม่ได้อยู่ที่คุณภาพของรูป แต่อยู่ที่การลงแรงและใช้เวลาสร้าง ผลงานเฉพาะตัว เพื่อคนคนนั้นเท่านั้น ความต่างของความพึงพอใจระหว่างการใช้ของที่ทำเองกับของที่ซื้อมาก็คล้ายกัน
ภาพ AI ที่ Tania สร้างได้ในไม่กี่วินาทีอาจสนุกในตอนแรก แต่ไม่นานก็คงกลายเป็นสแปมที่ถมหน้าจอแชต และดูจะไม่ได้เพิ่มคุณค่าอะไรเลย การแต่งนิทานก่อนนอนที่มีลูกเป็นตัวเอกให้ลูกเองก็เช่นกัน
ในโลกที่สามารถมีอะไรก็ได้ คุณค่าของทุกอย่างจะกลายเป็น 0
เมื่อวานระหว่างขับรถไปซื้อบูร์ริโต ผมบอกประเด็นสำคัญอย่างละเอียดให้ gpt-4o ฟัง รวมถึงบทนำทั้งหมดของเรื่อง แล้วขอให้เล่าการผจญภัยครั้งใหม่จากบริบทนั้น ผลลัพธ์ออกมาดีมาก ผมเห็นปฏิกิริยาของลูกผ่านกระจก และมันไม่ได้ทำลายสิ่งที่เราสร้างสะสมกันมาเลย ตรงกันข้าม มันให้ไอเดียใหม่ ๆ ที่ผมจะเอาไปใช้เวลาเล่าเองได้
ถ้าพึ่ง generative AI โดยไม่มีส่วนร่วมส่วนตัวหรือความคิดสร้างสรรค์ของตัวเอง ก็คงไม่ได้ผลลัพธ์ที่น่าสนใจ แต่ถ้าวาง generative AI ลงบนสิ่งที่เราสร้างและต่อยอดมาอย่างต่อเนื่อง ผลลัพธ์อาจยอดเยี่ยมมาก
ในแง่นี้ generative AI ดูเหมือนเป็นเครื่องมืออีกชิ้นหนึ่งที่ยิ่งฝึกก็ยิ่งใช้ได้ดี เหมือนกับเดิมมีแค่เปียโนหรือออร์แกน แล้วได้ ซินธิไซเซอร์ เพิ่มเข้ามา
ทุกวันนี้ก็ไม่มีอะไรห้ามไม่ให้ส่งการ์ดเขียนมือ และแน่นอนว่าผู้รับจะซาบซึ้งมากกว่า แต่ผู้คนก็ยังขอบคุณข้อความเช่นกัน โดยเฉพาะเมื่ออยู่ไกลกันหรือไม่ได้มีความสัมพันธ์ลึกซึ้งมาก
ยิ่งการให้ของขวัญทำได้ง่ายขึ้น บริบทก็จะยิ่งสำคัญขึ้น
น่าสนใจว่า AI spam โดยเฉพาะอีโมจิและสติกเกอร์แบบปรับแต่งเฉพาะ จะถูกนำกลับมาใช้ซ้ำ หรือจะถูกหว่านทิ้งเหมือน พลาสติกใช้ครั้งเดียว
เดโมให้ความรู้สึกเหมือนภาพของ AI ที่เราเคยจินตนาการไว้ก่อน ChatGPT จะออกมา เป็นวิธีโต้ตอบที่ปรับให้เข้ากับแต่ละคน เข้าใจบริบท และผสานรวมลึกกับทั้งระบบ
คำอธิบายที่ว่าระบบพยายามรักษาคำขอให้เป็นส่วนตัวมากที่สุด แม้ต้องจัดการงาน AI ที่ต้องใช้เซิร์ฟเวอร์ ก็ฟังดูดี ถ้าเป็นซอฟต์แวร์เซิร์ฟเวอร์ที่รันบนฮาร์ดแวร์ของ Apple และตรวจสอบได้ ก็น่าจะเกือบเป็นทางเลือกที่ดีที่สุดสำหรับงานแบบนั้น และถ้าเป็นโอเพนซอร์สได้ก็ยิ่งดี
เดโมที่ Siri เข้าใจบริบทของ “แม่” จากเนื้อหาอีเมลที่แม่ส่งมา คือภาพแบบที่เราเคยจินตนาการไว้ในโลก AI จริง ๆ ความสามารถ AI ล้วน ๆ ของตัวโมเดลเองมีโอกาสสูงที่จะกลายเป็นสิ่งทั่วไปได้สักวัน และตอนนี้สิ่งสำคัญคือ การผสานรวมฮาร์ดแวร์กับทั้งระบบ ที่นำโมเดลนั้นมาใช้
ประสบการณ์หลังเปิดให้ใช้จริงเป็นอีกเรื่องหนึ่ง แต่แค่วิสัยทัศน์ก็น่าประทับใจแล้ว และ Apple ก็แสดงให้เห็นอีกครั้งว่าเข้าใจประสบการณ์ผู้ใช้ นัยของการประกาศนี้อาจใหญ่กว่าที่เห็นภายนอกมาก และโดยเฉพาะอย่างยิ่งน่าคาดหวังว่าจะช่วยให้ผู้สูงอายุใช้งานคอมพิวเตอร์ได้ง่ายขึ้น
เดโมที่ AI “ทำได้สารพัดอย่าง” ทำให้ออกมาดูเท่ได้ง่าย แต่ถ้าในโลกจริงพังบ่อย ๆ สุดท้ายก็จะกลายเป็น Siri ในปัจจุบัน ต้องจำโฆษณานี้เมื่อ 12 ปีก่อนเอาไว้: https://www.youtube.com/watch?v=sw1iwC7Zh24
หลายอย่างที่สัญญาไว้ตอนนั้น ทุกวันนี้ก็ยังยากที่จะไว้ใจให้ Siri ทำได้
Apple จัด อินเทอร์เฟซกราฟิก เฉพาะตามวัตถุประสงค์ให้ฟีเจอร์ AI ได้ค่อนข้างดี และน่าจะน่าสนใจที่จะได้เห็นว่ามันจะลึกขึ้นต่อไปอย่างไร
เราจะเริ่มอยากให้มันเข้าใจชีวิตของเรา และอุปกรณ์ทุกชิ้นต้องสร้างบริบทของเราได้จึงจะตอบอีเวนต์หรือคำถามต่าง ๆ ได้ จนอาจนำไปสู่ความคิดอย่าง “ถ้าอยากให้ Siri รู้ด้วยว่าฉันดูโปรแกรมอะไรอยู่ ต้องซื้อ Apple TV แทน Chromecast ไหม”
ราคา iPhone ก็เพิ่มขึ้นเรื่อย ๆ และเมื่อเข้าไปลึกในระบบนิเวศนี้แล้ว การประมวลผลประสิทธิภาพสูงอาจรู้สึกแทบเหมือนการรีดไถ เพราะการออกจากโลกของ Apple จะกลายเป็นเรื่องแทบเป็นไปไม่ได้
คู่แข่งก็ไม่มีระบบที่ผสานรวมกันแบบนี้ ดังนั้นคงยากที่จะผสานรวมทุกอย่างให้อยู่ในระดับเดียวกัน
ในมุมแบรนดิ้ง ถือว่าสมบูรณ์แบบ สิ่งที่ “ดูเล็ก” เหมือนตัวอักษรในชื่อบริษัท อาจส่งผลใหญ่หลวงได้ในอีกหลายทศวรรษ
สามารถพาไปสู่ AI == Apple Intelligence ได้ และประโยคท้าย “AI for the rest of us” ก็จับจังหวะช่วงเวลานี้ได้ดี พร้อมทั้งดูเหมือนบอกใบ้ว่า Apple จะมุ่งหน้าไปทางไหน
Apple น่าจะสั่งสมความเชี่ยวชาญในการรองรับสเกลมหาศาลของผู้ใช้ทั่วไปมากขึ้น ที่ใช้เพื่อสร้างภาพสร้างสรรค์หรือตลก ๆ อีโมจิ งานข้อความ และการยกระดับคุณภาพชีวิต แม้จะไม่ได้ยืนอยู่แนวหน้าของเทคโนโลยี AI ใหม่แล้วผสานเข้ากับฟีเจอร์ผู้ใช้ทันที แต่เพื่อรองรับสเกลเฉพาะตัวแบบนี้ ก็จำเป็นต้องเข้าใกล้แนวหน้าของเทคโนโลยีเดียวกัน
WWDC ครั้งนี้น่าประทับใจ และที่ไม่มีข่าว Mac Studio, Mac Pro, M3 Ultra, M4 Ultra, M3/M4 Extreme ก็ทำให้น่าสงสัย ผมคาดว่าพวกเขาจะใช้ M2 Ultra ของตัวเองและอื่น ๆ เป็นความจุการประมวลผลบนคลาวด์ พอมีการเอ่ยถึงจริง ๆ ก็เลยน่าสนใจ และอยากรู้ว่าจะมีรายละเอียดฝั่งนี้ออกมาเพิ่มเติมไหม
ด้านหนึ่งเหมือนกำลังบอกว่า “สิ่งนี้เป็นของเรา” แต่อีกด้านหนึ่งก็เท่ากับวางแบรนด์ที่อยู่นอกการควบคุมทับลงไป หวังว่าคนจะไม่ย่อเรียกว่า ApI ไม่อย่างนั้นผลค้นหา API จะปนเปื้อน
ผมยังสงสัยอยู่จนกว่าจะได้เห็นมันทำงานจริง
ด้านหนึ่ง Apple มีผลงานที่ดีด้านการคุ้มครองความเป็นส่วนตัวและการประมวลผลบนอุปกรณ์ แต่การประกาศครั้งนี้มีส่วนที่คลุมเครือมากเกินไป ไม่ชัดเจนว่าใช้เกณฑ์อะไรตัดสินให้รันบนคลาวด์ โมเดลส่วนตัวถูกใช้ข้ามอุปกรณ์หลายเครื่องอย่างไร นั่นหมายความว่ามันย้ายขึ้นคลาวด์ชั่วคราวหรือไม่ และในโหมดผู้ใช้รับเชิญจะแตกต่างอย่างไร
แม้แต่ถ้อยคำว่า “OpenAI ไม่เก็บคำขอ” ก็ให้ความรู้สึกคลุมเครือโดยเจตนา ผมคาดหวังแนวทางอย่าง federated learning ที่ใช้อุปกรณ์ Apple หลายเครื่องร่วมกันเพื่อประมวลผลคำขอ แต่สุดท้ายดูเหมือนมีดโกนของอ็อกคัมจะชนะ คงต้องรอดูต่อไป
ในเบต้าเราจะได้เห็นว่าสิ่งที่ Apple พูดถูกนำไปใช้งานจริงอย่างไร แต่ผมจะอยู่ห่างจากเบต้าไว้ แม้จะน่าเสียดายนิดหน่อย แต่ตอนนี้ความคลุมเครือกำลังเป็นประโยชน์ต่อ Apple การ สัญญาน้อยแล้วส่งมอบมากกว่า ย่อมดีกว่าสัญญาเกินจริงแล้วส่งมอบต่ำกว่าที่คาด
ถ้าเข้าใจถูก น่าจะมีอยู่สามแบบ: 1) AI บนอุปกรณ์, 2) AI ที่ใช้เซิร์ฟเวอร์ของ Apple, 3) AI ที่ใช้บริการ ChatGPT/OpenAI หรือบริการอื่นในอนาคต
แบบที่ 1 ดูเหมือนจะเปลี่ยนไปใช้แบบที่ 2 หากตัดสินว่าต้องใช้พลังประมวลผลเพิ่มเติม ส่วนแบบที่ 3 จะถูกเรียกใช้เฉพาะเมื่อผู้ใช้อนุญาตอย่างชัดเจนเท่านั้น
อย่างที่ชี้ไว้ด้านล่าง จะมีการเพิ่มผู้ให้บริการรายอื่นในภายหลังด้วย
ถ้ารองรับเซิร์ฟเวอร์ใด ๆ ที่มี API มาตรฐานแบบง่าย ๆ ได้ก็คงดี จะได้รัน Llama 3 ที่โฮสต์เอง หรืออะไรบางอย่างที่จะออกมาในอีก 6–12 เดือนข้างหน้า
เหมือนใช้เวลาต้องการค้นหาสถิติกีฬา ข้อมูลต่าง ๆ หรือภาพยนตร์กับข้อมูลของมัน
เท่าที่ผมรู้ แบบที่ 1 อาจเปลี่ยนไปเป็นแบบที่ 2 ได้เมื่อรัฐบาลร้องขอข้อมูลส่วนบุคคล หรือเมื่อโมเดลโฆษณาของ Apple ต้องการรายละเอียดที่อ่อนไหวเพื่อทำ personalization
อย่างที่พูดไว้ในเธรดอื่น ผมค่อนข้างหงุดหงิดที่มี การสร้างภาพ ใส่เข้ามา และมันได้รับความสนใจมากขนาดนั้น
ผมกังวลเรื่องความน่าเชื่อถือ เพราะถ้าผู้คนเชื่อข้อมูลสำคัญโดยไม่ตรวจสอบแหล่งที่มา เช่น เรื่องเที่ยวบิน ก็อาจนำไปสู่สถานการณ์แย่ ๆ ได้
ถึงอย่างนั้น ความสมบูรณ์ของฟีเจอร์และประโยชน์ใช้จริงก็น่าสนใจ อาจไม่ใช่ส่วนที่หวือหวาที่สุด แต่สิ่งที่แสดงให้ดูเป็นของที่ใช้ได้จริง การที่ ChatGPT เป็นตัวเลือกทุกครั้งที่ Siri เห็นว่าเป็นประโยชน์ก็ดีด้วย
คำถามใหญ่ที่สุดคือจะปิดองค์ประกอบออนไลน์ได้ไหม และถ้าประมวลผลในเครื่องไม่ได้จะเกิดอะไรขึ้น คำอธิบายว่าเซิร์ฟเวอร์ใช้ชิปเดียวกันทำให้สงสัยด้วยว่าโมเดลรันในเครื่องไม่ได้จริง ๆ หรือเป็นเพราะบริบท
ยังไม่ชัดด้วยว่าเป็นระดับทั้งฟีเจอร์หรือเป็นบางคำขอ และอาจหมายความว่าเมื่อเวลาผ่านไป ระดับการประมวลผลในเครื่องกับบนคลาวด์จะแตกต่างกันไปตามฮาร์ดแวร์
เห็นได้ว่ามีสิ่งหนึ่งที่หายไป คือไม่มี สไตล์ภาพเหมือนจริง
ดูเป็นการเลือกที่ดี ผมไม่ได้ชอบนักที่ทุกอย่างถูกทำให้เป็นการ์ตูนเพื่อเพิ่มมีมและอีโมจิ แต่ก็อย่างน้อยมันก็ชัดเจนว่าเป็นสิ่งแต่งขึ้น และมุ่งไปทาง “ความสนุก” เด็ก ๆ ก็น่าจะชอบ ผู้ใหญ่ก็อาจชอบด้วย
ยังไงผู้คนก็ยังสร้างสิ่งที่ไม่เหมาะสมอย่างมากได้อยู่ดี จึงน่าจะมีข้อถกเถียง แต่ระดับความเสี่ยงลดลง
ดังนั้นจึงตรวจสอบได้เร็วว่าคำตอบถูกต้องหรือไม่ มันใกล้เคียงกับการค้นหาเชิงความหมาย แต่เป็นการอธิบายผลลัพธ์ด้วยข้อความที่ยืดหยุ่นกว่า
Apple เพิ่มเซิร์ฟเวอร์เข้ามาแบบแก้ขัดเพราะความจำเป็น แต่สภาวะในอุดมคติน่าจะเป็นวันที่อุปกรณ์ทุกชิ้นที่ตนขายสามารถรันทุกอย่างในเครื่องได้เป็นระยะเวลานานพอ แล้วจึงปิดเซิร์ฟเวอร์
สิ่งนี้อาจไม่มีวันมาถึงเลยก็ได้ โมเดลภาษาขนาดใหญ่ล้มเหลวอย่างรวดเร็วเมื่อยิ่งห่างจากภาษาที่มีทรัพยากรอุดมสมบูรณ์
อันนี้ดูเจ๋งจริง ๆ
เขาบอกว่าโมเดลสามารถขยายไปยัง private cloud compute ที่ใช้ Apple Silicon ได้ และอุปกรณ์ของผู้ใช้จะตรวจสอบการรัน “publicly verifiable software” เพื่อป้องกันการนำข้อมูลไปใช้ในทางที่ผิด
สงสัยว่าโค้ดฝั่งเซิร์ฟเวอร์จะเป็นโอเพนซอร์สหรือไม่ ถ้าใช่ก็น่าประหลาดใจในทางบวก อยากรู้ว่าจะพัฒนาไปทางไหนต่อ
ถ้าทำงานได้ตามที่โฆษณาไว้ ก็คงถึงขั้น “หุบปากแล้วเอาเงินฉันไป” เลย Siri ดูเหมือนจะได้เป็นสิ่งที่ควรจะเป็นมาตั้งแต่แรกเสียที และก็สงสัยด้วยว่าเขาจะวางมันบนแคตตาล็อก Shortcuts Actions เพื่อขยายขอบเขตงานที่ทำได้ตั้งแต่ช่วงแรกหรือไม่
ฟีเจอร์สร้างภาพและอีโมจิที่ผสานกับ Apple Photos และส่วนอื่น ๆ ของระบบก็ดูเจ๋งมากเช่นกัน ดูเหมือนว่า Mac/iPad ต้องเป็น M1 ขึ้นไป ส่วน iPhone ต้องเป็น 15 Pro
การผสานบริการใช้โมเดลที่มีอยู่ และให้ความรู้สึกเหมือนขยาย API ที่สืบต่อมาจาก AppleScript ไปสู่โมเดลภาษาขนาดใหญ่หรือระบบตระกูล Stable Diffusion เพียงแต่ดูเหมือนว่าด้วยแรงผลักดันด้านเกมและคลาวด์ เขาอยากดัน M4 ให้เร็วที่สุดเท่าที่จะทำได้
วิธีคือเมื่อโมเดลบนอุปกรณ์ตัดสินว่า “อันนี้ ChatGPT น่าจะตอบได้ดีกว่า” ก็จะถามผู้ใช้ว่าจะใช้หรือไม่ จากคำอธิบายดูเหมือนเป็นโครงสร้างที่สามารถเสียบโมเดลอื่น ๆ เพิ่มได้เมื่อเวลาผ่านไป
โดยเฉพาะ ChatGPT 4o ใช้ได้ฟรีโดยไม่ต้องสร้างบัญชี OpenAI
โดยทั่วไปนี่หมายความว่าไคลเอนต์สามารถตรวจสอบโค้ดที่กำลังรันบนเซิร์ฟเวอร์ได้ด้วยวิธีเข้ารหัสหรือเปล่า? ถ้าใช่ นอกเหนือจากกรณีใช้งานนี้ก็ยังน่าสนใจและมีประโยชน์อย่างมาก
ยังไม่ชัดว่าใน “private cloud compute” นั้นคำนวณอะไรแน่
ส่วนที่ถามว่า “ขอใช้ ChatGPT กับงานนี้ได้ไหม?” รู้สึกแข็งทื่อมากและไม่ค่อยสมกับเป็น Apple
แม้จะเป็นสำนวนเก่า แต่ถ้าเป็น Steve Jobs คงพลิกตัวในหลุมศพไปแล้ว พูดตามตรง ผมสับสนว่าทำไมต้องมีสิ่งนั้น
หรือว่า Apple ยังทำการผสานรวมให้สอดคล้องกันมากพอไม่ได้? ถ้าอย่างนั้นแปลว่าส่วนที่เหลือไม่ได้อิงกับ ChatGPT ใช่ไหม? ต่างกันอย่างไร? จากมุมมองผู้ใช้แล้วค่อนข้างชวนสับสน
การเป็นอันดับหนึ่งด้าน AI บนอุปกรณ์คือโอกาสทางตลาดมหาศาล การพยายามทำทุกอย่างเองนั้นโง่พอ ๆ กับการออก Safari โดยไม่มีดีลพาร์ตเนอร์กับหน้าแรกของ Google Search
Apple สามารถโฟกัสกับจุดแข็งของตัวเอง คือการประมวลผลบนอุปกรณ์และการหลอมรวม AI เข้ากับประสบการณ์ผู้ใช้ทั่วทั้งแพลตฟอร์ม โดยไม่กระทบความเป็นส่วนตัวได้ และในส่วนที่ต้องส่งข้อมูลออกไปเพื่อใช้เซิร์ฟเวอร์ฟาร์มภายนอกขนาดใหญ่กับการเข้าถึงอินเทอร์เน็ต เช่น คำค้นหาแบบ AI ก็ใช้ผู้นำตลาดได้
ถ้าระบบไม่ได้บอกว่า “จะโทรหาเพื่อนเพื่อเอาคำตอบ” ก็หมายความว่ามันเป็นแบบโลคัล 100% หรืออย่างแย่ที่สุดก็ยังอยู่ใน Apple Intelligence ที่ตรวจสอบได้ว่าเป็นส่วนตัวอย่างสมบูรณ์
ถ้าถามสูตรขนมปังกล้วย จะส่งไป ChatGPT ก็โอเค แต่ถ้าเป็นข้อมูลส่วนตัวมากกว่านั้นอาจไม่ควรส่ง
ให้เฉพาะเจาะจงกว่านั้น คำตอบของคำถามว่า “OpenAI เห็นข้อมูลส่วนตัวหรือคำถามของฉันไหม?” คือ “ทุกอย่างจะถูกประมวลผลบน iPhone หรือ Private Compute เว้นแต่คุณจะอนุญาตให้สนทนากับ OpenAI”
ตรงกันข้าม ถ้าไม่มีพรอมป์ยืนยันนั้นมาคั่นจังหวะและทำให้ชัดเจนว่าเมื่อใดที่ดึงผลลัพธ์จาก ChatGPT มา ผมคงลังเลที่จะใช้ฟีเจอร์ AI ใหม่ ๆ
อันนี้ดูเจ๋งจริง ๆ
Apple บอกว่าโมเดลสามารถขยายไปยัง private cloud compute ที่ใช้ Apple Silicon ได้ และอุปกรณ์ของผู้ใช้จะตรวจสอบว่ามีการรัน “publicly verifiable software” เพื่อป้องกันการใช้ข้อมูลในทางที่ผิด
สงสัยว่าโค้ดฝั่งเซิร์ฟเวอร์จะเป็นโอเพนซอร์สหรือเปล่า ถ้าใช่ก็คงเป็นเรื่องน่าประหลาดใจในทางบวก อยากรู้ว่าจะพัฒนาต่อไปอย่างไร
ถ้ามันทำงานได้ตามที่โฆษณาไว้ ก็คงเข้าขั้น “หุบปากแล้วเอาเงินฉันไป” เลย Siri ดูเหมือนจะได้เป็นอย่างที่ควรเป็นมาตั้งแต่แรกในที่สุด และก็สงสัยว่า Apple จะวางมันไว้บนแคตตาล็อก Shortcuts Actions เพื่อขยายขอบเขตงานที่ทำได้ตั้งแต่ช่วงแรก ๆ หรือไม่
ฟีเจอร์สร้างภาพและอีโมจิที่ผสานเข้ากับ Apple Photos และส่วนอื่น ๆ ของระบบก็ดูเจ๋งมากเช่นกัน ดูเหมือนว่า Mac/iPad ต้องเป็น M1 ขึ้นไป ส่วน iPhone ต้องเป็น 15 Pro