- อินเทอร์เฟซแบบข้อความที่เกิดขึ้นหลัง ChatGPT นั้นทรงพลัง แต่ ใช้งานได้ไม่เป็นธรรมชาติเท่า GUI แบบดั้งเดิม
- UI ในอนาคตกำลังพัฒนาไปสู่รูปแบบที่ให้ “การโต้ตอบที่สอดคล้องกับบริบท” แทนแชต, การค้นหาอัจฉริยะ, การจัดระเบียบอัตโนมัติ, และ ฟีดแบ็กทันที
- ตัวอย่าง: เมนูคลิกขวาที่ขับเคลื่อนด้วย AI, ช่องค้นหาภาษาธรรมชาติ, command bar, การจัดระเบียบเลเยอร์ด้วย AI ของ Figma, คำแนะนำแบบเรียลไทม์ของ Grammarly เป็นต้น
- มีความพยายามในการคาดการณ์ว่า “ผู้ใช้จะทำอะไรต่อไป” เพื่อเสนอแนะโดยอัตโนมัติ หรือแม้แต่ ให้ LLM สร้าง UI เองแบบเรียลไทม์
- ซอฟต์แวร์แบบดั้งเดิมจะค่อย ๆ ให้ความรู้สึกล้าสมัย และมีแนวโน้มสูงที่ผลิตภัณฑ์ซึ่งอิงกับแพตเทิร์นใหม่จะเข้ามาแทนที่ผลิตภัณฑ์เดิม
แชตคือการย้อนกลับไปสู่เทอร์มินัล
- การแชตกับ LLM นั้น ทรงพลังและยืดหยุ่น และยังเขียนโปรแกรมได้ง่าย
- แต่ก็ ไม่เป็นธรรมชาติและควบคุมได้ลำบาก คล้ายกับเทอร์มินัลยุคเก่าที่อาจ ดูน่ากลัวสำหรับผู้เริ่มต้น
> แชตมีประโยชน์ในฐานะอินเทอร์เฟซสำหรับดีบัก แต่ ไม่ควรเป็น UX หลัก
UI แบบเอกสารเป็นศูนย์กลาง + แชตเสริม
- กำลังมีการแพร่หลายของ UI แบบที่ เอกสารหรือโค้ดเป็นศูนย์กลาง และวางแชตเป็น เครื่องมือเสริม เช่น ChatGPT Canvas
- สามารถเห็นประสบการณ์คล้ายกันได้ใน Copilot in Excel, Cursor IDE เป็นต้น
เมนูคลิกขวาเชิงสร้างสรรค์
- ฟีเจอร์ AI สามารถวางไว้ใน context menu ได้อย่างเป็นธรรมชาติ
- ตัวอย่าง: Dia browser เสนอ คำสั่ง AI โดยตรง ตามตำแหน่งเคอร์เซอร์
- ในช่วงแรก เมนูอาจ ซับซ้อนเกินไป และจำเป็นต้องปรับให้กลั่นกรองขึ้นในอนาคต
การค้นหาภาษาธรรมชาติที่ใช้งานได้อย่างเป็นธรรมชาติ
- แทนที่จะค้นหา “air canada confirmation” ก็สามารถค้นหาเป็น “เที่ยวบินไปทำงานของฉันเมื่อไรนะ?” ได้
- ตัวอย่าง: การค้นหาอีเมลด้วยภาษาธรรมชาติของ Superhuman, การค้นหางานออกแบบพื้นฐานของ Figma
- UX ที่เคยบังคับให้ต้อง จำคีย์เวิร์ดที่แม่นยำ กำลังค่อย ๆ หายไป
พิมพ์แทนการเลือก: วิธีควบคุมที่เป็นมนุษย์มากกว่า
- UI เดิมสำหรับฟิลเตอร์ วันที่ สไตล์ ฯลฯ มักอิงกับการเลือกจากดรอปดาวน์
- ตอนนี้การพิมพ์ “วันพุธหน้า” ด้วยภาษาธรรมชาติ กลับดูเป็นธรรมชาติมากกว่า
- อินเทอร์เฟซแบบสั่งงานทันที ที่อิงกับ command bar (Command-K) และการเติมข้อความอัตโนมัติกำลังแพร่หลาย
ฟีดแบ็กแบบอินไลน์
- นอกจากการสะกดคำแล้ว ยังสามารถมี ฟีดแบ็ก AI แบบอินไลน์ เรื่องสไตล์ ข้ออ้างอิง ความจำเป็นของแหล่งที่มา ฯลฯ ได้อีกด้วย
- แนวคิด “writing daemon” ของ Maggie Appleton: ให้คำแนะนำแบบเรียลไทม์ผ่านคาแรกเตอร์ฟีดแบ็กที่มีบุคลิกหลากหลาย
ฟังก์ชันจัดระเบียบอัตโนมัติ
การสรุปและการดึงข้อมูล
- Apple Intelligence สามารถ สรุปข้อมูลสำคัญจากบทสนทนาทั่วไป ได้ (เช่น “นัดวันนี้ยกเลิก เลื่อนไปสัปดาห์หน้า”)
- ในยุคข้อมูลล้นเกิน ฟังก์ชันสรุปด้วย AI แบบไม่ต้องแชตที่ คัดเฉพาะสัญญาณสำคัญ กำลังกลายเป็นสิ่งจำเป็น
เสียง + มัลติโหมด
- อินเทอร์เฟซเสียงก็ไม่ควรหยุดอยู่แค่ บทสนทนาเชิงเส้น แบบเดียวกับแชต
- ตัวอย่าง: ชี้ปุ่มด้วยเมาส์พร้อมพูดว่า “โค้ดนี้อยู่ตรงไหน?” แล้วให้ LLM เปิดตำแหน่งของโค้ดนั้น
- ทำให้เกิด อินเทอร์เฟซมัลติโหมดที่เป็นธรรมชาติสำหรับมนุษย์ ซึ่งใช้ทั้ง การชี้ + การพูด ไปพร้อมกันได้
ข้อเสนอแนะ “สิ่งที่ควรทำต่อไป”: เป็นธรรมชาติเหมือนปุ่ม Tab
- เสนอการกระทำถัดไปตาม แพตเทิร์นการใช้งานของผู้ใช้
- ตัวอย่างคือคำแนะนำการพิมพ์ผิดของ Grammarly และแพตเทิร์นการเติมข้อความอัตโนมัติด้วย ปุ่ม Tab ของ Cursor
- ช่วยลดภาระของผู้ใช้ในงานที่ทำซ้ำ และ สนับสนุนให้โฟกัสกับความคิดสร้างสรรค์
ขั้นสุดท้าย: ให้ LLM สร้าง UI แบบเรียลไทม์
- การสร้างโค้ด UI แบบ bolt.new นั้นเกิดขึ้นจริงแล้ว
- ยิ่งไปกว่านั้น ยังเริ่มมีแนวโน้ม ให้สร้างตัว UI เองแบบเรียลไทม์ตามเป้าหมายเฉพาะของผู้ใช้
- ข้อเสีย: เรียนรู้การใช้งานได้ยาก และสถานะของ UI อาจแตกต่างกันไปในแต่ละผู้ใช้
- ในอดีต เมนูปรับตัวได้ของ Office XP (IntelliMenus) เป็นกรณีตัวอย่างของความล้มเหลว
- อย่างไรก็ตาม หาก LLM มีพลังมากพอ ก็ยังมีโอกาสที่จะกลายเป็น แพตเทิร์น UI มาตรฐานใหม่
ตอนนี้ถึงเวลาต้องลงมือสร้าง
- แพตเทิร์น UI ที่ขับเคลื่อนด้วย AI เหล่านี้กำลัง ค่อย ๆ ปรับโครงสร้างซอฟต์แวร์โดยรวมใหม่
- UX แบบดั้งเดิมจะ ดูตกยุคมากขึ้นเรื่อย ๆ และผลิตภัณฑ์ที่นำสิ่งเหล่านี้มาใช้ก่อนจะเป็นผู้ กำหนดความคาดหวังใหม่ของผู้ใช้
- เช่นเดียวกับยุคที่ GUI เข้ามาแทนเทอร์มินัล ตอนนี้ก็เป็นอีกครั้งที่ภูมิทัศน์ของ UX ซอฟต์แวร์กำลังพลิกโฉม
4 ความคิดเห็น
ผมก็คิดคล้ายกันครับ
ช่วงนี้ผมลองหาโปรแกรมสำหรับเปลี่ยนชื่อไฟล์แบบทีละหลายไฟล์ดู แต่โปรแกรมที่มีฟังก์ชันครบทุกอย่างนั้นมีเมนูเยอะมากจริง ๆ และวิธีใช้ก็ซับซ้อนมากด้วย สำหรับงานง่าย ๆ อย่าง "เติม '_' ต่อท้ายชื่อไฟล์ให้หน่อย" กลับต้องไปเรียนรู้วิธีใช้อีก.. ยิ่งทรงพลังมากเท่าไรก็ยิ่งประหลาดมากขึ้นเท่านั้น
เพราะงั้นผมเลยใช้ LLM สร้างขึ้นมาใหม่ โดยให้ LLM เป็นคนสร้างส่วนของโค้ดที่ใช้เปลี่ยนชื่อไฟล์จริง ๆ แบบนี้ก็สามารถตัด UI ที่ซับซ้อนทิ้งไปได้ทั้งหมด
หัวใจสำคัญคือ สุดท้ายแล้ว LLM ต้องสร้างโค้ดภายในและรันมันแบบเรียลไทม์
ซึ่งนี่เป็นจุดที่ต่างจากซอฟต์แวร์หรือแนวคิดเรื่อง UX แบบเดิมอย่างสิ้นเชิง
เมื่อก่อนลอจิกทั้งหมดถูกเตรียมไว้แล้ว และหัวใจของ UI คือการเชื่อมลอจิกนี้เข้ากับผู้ใช้ แต่ตอนนี้แม้แต่ลอจิกก็ยังยืดหยุ่นเปลี่ยนแปลงได้ ดังนั้น UI ก็ต้องมีหน้าที่ในการสร้างโค้ดที่ยืดหยุ่นแบบนี้ด้วย
แต่ก็คงแทนที่ทั้งหมดไม่ได้ครับ บางอย่าง UI แบบเดิมก็ยังใช้งานสะดวกกว่า
(ขอเพิ่มเพราะไม่มีการแก้ไข)
https://www.bulkrenameutility.co.uk/#mainscreen
ซอฟต์แวร์แบบเดิมข้างต้น เมื่อมีการนำ LLM มาใช้ ก็อาจเปลี่ยนเป็นแบบด้านล่างได้
https://localfile.io/ko/run/rename/
ถ้าจะให้วงการ UIUX เปลี่ยนโฉมไปจริงๆ ก็คงต้องมีความพยายามที่จะก้าวออกจากฟอร์มแฟกเตอร์อย่างโทรศัพท์มือถือหรือจอภาพด้วยเหมือนกัน
https://x.com/karpathy/status/1917920257257459899
น่าจะลองนำความเห็นของ Andrej Karpathy มาเปรียบเทียบกันดูด้วยครับ
ประสบการณ์ของการ "แชต" กับ LLM ให้ความรู้สึกเหมือนกำลังใช้คอมพิวเตอร์เทอร์มินัลในยุค 80 ตอนนั้น GUI (กราฟิกัลยูสเซอร์อินเทอร์เฟซ) ยังไม่ถูกประดิษฐ์ขึ้น แต่ผมคิดว่าบางคุณลักษณะของมันเราพอจะคาดเดาได้แล้ว
มันจะเป็นแบบภาพเป็นหลัก (เหมือน GUI ในอดีต) เพราะข้อมูลเชิงภาพ (รูปภาพ กราฟ แอนิเมชัน ฯลฯ — การมองแทนการอ่าน) เปรียบได้กับทางด่วน 10 เลนที่เข้าสู่สมอง การมองเห็นมีแบนด์วิดท์การรับข้อมูลสูงที่สุด และการประมวลผลของสมองราว 1 ใน 3 ถูกจัดสรรให้กับการประมวลผลภาพ
มันจะเป็นแบบสร้างขึ้นได้และเปลี่ยนไปตามเงื่อนไขของอินพุต กล่าวคือ GUI จะถูกสร้างแบบเรียลไทม์ให้สอดคล้องกับพรอมป์ต์ของผู้ใช้ และทุกองค์ประกอบจะถูกจัดวางขึ้นเพื่อจุดประสงค์เฉพาะหน้าในขณะนั้น
คำถามที่ยังเปิดกว้างมากกว่าคือระดับของความเป็น "procedural" ที่ปลายด้านหนึ่ง เราอาจจินตนาการถึงกรณีที่มี diffusion model ขนาดมหึมาตัวเดียวสร้างทั้งเอาต์พุตแคนวาสขึ้นมาพร้อมกันในครั้งเดียว ส่วนอีกด้านหนึ่งคือหน้าเพจที่เต็มไปด้วย React คอมโพเนนต์ (ที่ถูกสร้างแบบ procedural) (เช่น รูปภาพ กราฟ แอนิเมชัน ไดอะแกรม ฯลฯ) ผมคิดว่าน่าจะเป็นการผสมกันของทั้งสองแบบ แต่แบบหลังจะเป็นโครงหลัก
แต่สิ่งที่ผมกล้าพูดได้ตอนนี้คือ เมื่อขีดความสามารถเข้าใกล้อนันต์ GUI แบบแคนวาส 2D ที่ลื่นไหล ราวกับเวทมนตร์ และโต้ตอบได้ชั่วคราวแบบ ephemeral จะกลายเป็นรูปแบบสุดท้าย และผมคิดว่าสิ่งนี้กำลังเริ่มต้นขึ้นอย่างช้า ๆ แล้ว (เช่น code block/highlighting, LaTeX block, ตัวหนา/ตัวเอียง/ลิสต์/ตารางใน Markdown, อีโมจิ, และที่ทะเยอทะยานกว่านั้นคือแท็บ Artifacts, แผนภาพ Mermaid หรือแม้แต่แอปที่สมบูรณ์ยิ่งขึ้น) แน่นอนว่าตอนนี้ทุกอย่างยังอยู่ในระดับเริ่มต้นและหยาบมาก
Iron Man และในระดับหนึ่ง Star Trek/Minority Report ถือเป็นตัวอย่างที่ดีของ AI/UI ในวัฒนธรรมสมัยนิยมที่แสดงทิศทางนี้ได้