UI หลังแชต: ในยุค LLM ประสบการณ์ผู้ใช้ของซอฟต์แวร์แบบดั้งเดิมกำลังพังทลาย

(allenpike.com)

33 คะแนน โดย GN⁺ 2025-05-13 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

อินเทอร์เฟซแบบข้อความที่เกิดขึ้นหลัง ChatGPT นั้นทรงพลัง แต่ ใช้งานได้ไม่เป็นธรรมชาติเท่า GUI แบบดั้งเดิม
UI ในอนาคตกำลังพัฒนาไปสู่รูปแบบที่ให้ “การโต้ตอบที่สอดคล้องกับบริบท” แทนแชต, การค้นหาอัจฉริยะ, การจัดระเบียบอัตโนมัติ, และ ฟีดแบ็กทันที
- ตัวอย่าง: เมนูคลิกขวาที่ขับเคลื่อนด้วย AI, ช่องค้นหาภาษาธรรมชาติ, command bar, การจัดระเบียบเลเยอร์ด้วย AI ของ Figma, คำแนะนำแบบเรียลไทม์ของ Grammarly เป็นต้น
มีความพยายามในการคาดการณ์ว่า “ผู้ใช้จะทำอะไรต่อไป” เพื่อเสนอแนะโดยอัตโนมัติ หรือแม้แต่ ให้ LLM สร้าง UI เองแบบเรียลไทม์
ซอฟต์แวร์แบบดั้งเดิมจะค่อย ๆ ให้ความรู้สึกล้าสมัย และมีแนวโน้มสูงที่ผลิตภัณฑ์ซึ่งอิงกับแพตเทิร์นใหม่จะเข้ามาแทนที่ผลิตภัณฑ์เดิม

แชตคือการย้อนกลับไปสู่เทอร์มินัล

การแชตกับ LLM นั้น ทรงพลังและยืดหยุ่น และยังเขียนโปรแกรมได้ง่าย
แต่ก็ ไม่เป็นธรรมชาติและควบคุมได้ลำบาก คล้ายกับเทอร์มินัลยุคเก่าที่อาจ ดูน่ากลัวสำหรับผู้เริ่มต้น
> แชตมีประโยชน์ในฐานะอินเทอร์เฟซสำหรับดีบัก แต่ ไม่ควรเป็น UX หลัก

UI แบบเอกสารเป็นศูนย์กลาง + แชตเสริม

กำลังมีการแพร่หลายของ UI แบบที่ เอกสารหรือโค้ดเป็นศูนย์กลาง และวางแชตเป็น เครื่องมือเสริม เช่น ChatGPT Canvas
สามารถเห็นประสบการณ์คล้ายกันได้ใน Copilot in Excel, Cursor IDE เป็นต้น

เมนูคลิกขวาเชิงสร้างสรรค์

ฟีเจอร์ AI สามารถวางไว้ใน context menu ได้อย่างเป็นธรรมชาติ
ตัวอย่าง: Dia browser เสนอ คำสั่ง AI โดยตรง ตามตำแหน่งเคอร์เซอร์
ในช่วงแรก เมนูอาจ ซับซ้อนเกินไป และจำเป็นต้องปรับให้กลั่นกรองขึ้นในอนาคต

การค้นหาภาษาธรรมชาติที่ใช้งานได้อย่างเป็นธรรมชาติ

แทนที่จะค้นหา “air canada confirmation” ก็สามารถค้นหาเป็น “เที่ยวบินไปทำงานของฉันเมื่อไรนะ?” ได้
ตัวอย่าง: การค้นหาอีเมลด้วยภาษาธรรมชาติของ Superhuman, การค้นหางานออกแบบพื้นฐานของ Figma
UX ที่เคยบังคับให้ต้อง จำคีย์เวิร์ดที่แม่นยำ กำลังค่อย ๆ หายไป

พิมพ์แทนการเลือก: วิธีควบคุมที่เป็นมนุษย์มากกว่า

UI เดิมสำหรับฟิลเตอร์ วันที่ สไตล์ ฯลฯ มักอิงกับการเลือกจากดรอปดาวน์
ตอนนี้การพิมพ์ “วันพุธหน้า” ด้วยภาษาธรรมชาติ กลับดูเป็นธรรมชาติมากกว่า
อินเทอร์เฟซแบบสั่งงานทันที ที่อิงกับ command bar (Command-K) และการเติมข้อความอัตโนมัติกำลังแพร่หลาย

ฟีดแบ็กแบบอินไลน์

นอกจากการสะกดคำแล้ว ยังสามารถมี ฟีดแบ็ก AI แบบอินไลน์ เรื่องสไตล์ ข้ออ้างอิง ความจำเป็นของแหล่งที่มา ฯลฯ ได้อีกด้วย
แนวคิด “writing daemon” ของ Maggie Appleton: ให้คำแนะนำแบบเรียลไทม์ผ่านคาแรกเตอร์ฟีดแบ็กที่มีบุคลิกหลากหลาย

ฟังก์ชันจัดระเบียบอัตโนมัติ

เช่น การจัดระเบียบชื่อเลเยอร์ด้วย AI ของ Figma ก็สามารถ จัดโครงสร้างไฟล์ที่กระจัดกระจายโดยอัตโนมัติ ได้
แม้เป็นการจัดระเบียบที่ซับซ้อนกว่านั้น ก็ยัง นำไปใช้ได้อย่างเป็นธรรมชาติโดยไม่ต้องใช้แชต

การสรุปและการดึงข้อมูล

Apple Intelligence สามารถ สรุปข้อมูลสำคัญจากบทสนทนาทั่วไป ได้ (เช่น “นัดวันนี้ยกเลิก เลื่อนไปสัปดาห์หน้า”)
ในยุคข้อมูลล้นเกิน ฟังก์ชันสรุปด้วย AI แบบไม่ต้องแชตที่ คัดเฉพาะสัญญาณสำคัญ กำลังกลายเป็นสิ่งจำเป็น

เสียง + มัลติโหมด

อินเทอร์เฟซเสียงก็ไม่ควรหยุดอยู่แค่ บทสนทนาเชิงเส้น แบบเดียวกับแชต
ตัวอย่าง: ชี้ปุ่มด้วยเมาส์พร้อมพูดว่า “โค้ดนี้อยู่ตรงไหน?” แล้วให้ LLM เปิดตำแหน่งของโค้ดนั้น
ทำให้เกิด อินเทอร์เฟซมัลติโหมดที่เป็นธรรมชาติสำหรับมนุษย์ ซึ่งใช้ทั้ง การชี้ + การพูด ไปพร้อมกันได้

ข้อเสนอแนะ “สิ่งที่ควรทำต่อไป”: เป็นธรรมชาติเหมือนปุ่ม Tab

เสนอการกระทำถัดไปตาม แพตเทิร์นการใช้งานของผู้ใช้
ตัวอย่างคือคำแนะนำการพิมพ์ผิดของ Grammarly และแพตเทิร์นการเติมข้อความอัตโนมัติด้วย ปุ่ม Tab ของ Cursor
ช่วยลดภาระของผู้ใช้ในงานที่ทำซ้ำ และ สนับสนุนให้โฟกัสกับความคิดสร้างสรรค์

ขั้นสุดท้าย: ให้ LLM สร้าง UI แบบเรียลไทม์

การสร้างโค้ด UI แบบ bolt.new นั้นเกิดขึ้นจริงแล้ว
ยิ่งไปกว่านั้น ยังเริ่มมีแนวโน้ม ให้สร้างตัว UI เองแบบเรียลไทม์ตามเป้าหมายเฉพาะของผู้ใช้
ข้อเสีย: เรียนรู้การใช้งานได้ยาก และสถานะของ UI อาจแตกต่างกันไปในแต่ละผู้ใช้
- ในอดีต เมนูปรับตัวได้ของ Office XP (IntelliMenus) เป็นกรณีตัวอย่างของความล้มเหลว
อย่างไรก็ตาม หาก LLM มีพลังมากพอ ก็ยังมีโอกาสที่จะกลายเป็น แพตเทิร์น UI มาตรฐานใหม่

ตอนนี้ถึงเวลาต้องลงมือสร้าง

แพตเทิร์น UI ที่ขับเคลื่อนด้วย AI เหล่านี้กำลัง ค่อย ๆ ปรับโครงสร้างซอฟต์แวร์โดยรวมใหม่
UX แบบดั้งเดิมจะ ดูตกยุคมากขึ้นเรื่อย ๆ และผลิตภัณฑ์ที่นำสิ่งเหล่านี้มาใช้ก่อนจะเป็นผู้ กำหนดความคาดหวังใหม่ของผู้ใช้
เช่นเดียวกับยุคที่ GUI เข้ามาแทนเทอร์มินัล ตอนนี้ก็เป็นอีกครั้งที่ภูมิทัศน์ของ UX ซอฟต์แวร์กำลังพลิกโฉม

4 ความคิดเห็น

filekiwi 2025-05-13

ผมก็คิดคล้ายกันครับ
ช่วงนี้ผมลองหาโปรแกรมสำหรับเปลี่ยนชื่อไฟล์แบบทีละหลายไฟล์ดู แต่โปรแกรมที่มีฟังก์ชันครบทุกอย่างนั้นมีเมนูเยอะมากจริง ๆ และวิธีใช้ก็ซับซ้อนมากด้วย สำหรับงานง่าย ๆ อย่าง "เติม '_' ต่อท้ายชื่อไฟล์ให้หน่อย" กลับต้องไปเรียนรู้วิธีใช้อีก.. ยิ่งทรงพลังมากเท่าไรก็ยิ่งประหลาดมากขึ้นเท่านั้น
เพราะงั้นผมเลยใช้ LLM สร้างขึ้นมาใหม่ โดยให้ LLM เป็นคนสร้างส่วนของโค้ดที่ใช้เปลี่ยนชื่อไฟล์จริง ๆ แบบนี้ก็สามารถตัด UI ที่ซับซ้อนทิ้งไปได้ทั้งหมด
หัวใจสำคัญคือ สุดท้ายแล้ว LLM ต้องสร้างโค้ดภายในและรันมันแบบเรียลไทม์
ซึ่งนี่เป็นจุดที่ต่างจากซอฟต์แวร์หรือแนวคิดเรื่อง UX แบบเดิมอย่างสิ้นเชิง
เมื่อก่อนลอจิกทั้งหมดถูกเตรียมไว้แล้ว และหัวใจของ UI คือการเชื่อมลอจิกนี้เข้ากับผู้ใช้ แต่ตอนนี้แม้แต่ลอจิกก็ยังยืดหยุ่นเปลี่ยนแปลงได้ ดังนั้น UI ก็ต้องมีหน้าที่ในการสร้างโค้ดที่ยืดหยุ่นแบบนี้ด้วย
แต่ก็คงแทนที่ทั้งหมดไม่ได้ครับ บางอย่าง UI แบบเดิมก็ยังใช้งานสะดวกกว่า

filekiwi 2025-05-13

(ขอเพิ่มเพราะไม่มีการแก้ไข)
https://www.bulkrenameutility.co.uk/#mainscreen
ซอฟต์แวร์แบบเดิมข้างต้น เมื่อมีการนำ LLM มาใช้ ก็อาจเปลี่ยนเป็นแบบด้านล่างได้
https://localfile.io/ko/run/rename/

yangeok 2025-05-13

ถ้าจะให้วงการ UIUX เปลี่ยนโฉมไปจริงๆ ก็คงต้องมีความพยายามที่จะก้าวออกจากฟอร์มแฟกเตอร์อย่างโทรศัพท์มือถือหรือจอภาพด้วยเหมือนกัน

dongwon 2025-05-13

https://x.com/karpathy/status/1917920257257459899
น่าจะลองนำความเห็นของ Andrej Karpathy มาเปรียบเทียบกันดูด้วยครับ

ประสบการณ์ของการ "แชต" กับ LLM ให้ความรู้สึกเหมือนกำลังใช้คอมพิวเตอร์เทอร์มินัลในยุค 80 ตอนนั้น GUI (กราฟิกัลยูสเซอร์อินเทอร์เฟซ) ยังไม่ถูกประดิษฐ์ขึ้น แต่ผมคิดว่าบางคุณลักษณะของมันเราพอจะคาดเดาได้แล้ว

มันจะเป็นแบบภาพเป็นหลัก (เหมือน GUI ในอดีต) เพราะข้อมูลเชิงภาพ (รูปภาพ กราฟ แอนิเมชัน ฯลฯ — การมองแทนการอ่าน) เปรียบได้กับทางด่วน 10 เลนที่เข้าสู่สมอง การมองเห็นมีแบนด์วิดท์การรับข้อมูลสูงที่สุด และการประมวลผลของสมองราว 1 ใน 3 ถูกจัดสรรให้กับการประมวลผลภาพ

มันจะเป็นแบบสร้างขึ้นได้และเปลี่ยนไปตามเงื่อนไขของอินพุต กล่าวคือ GUI จะถูกสร้างแบบเรียลไทม์ให้สอดคล้องกับพรอมป์ต์ของผู้ใช้ และทุกองค์ประกอบจะถูกจัดวางขึ้นเพื่อจุดประสงค์เฉพาะหน้าในขณะนั้น

คำถามที่ยังเปิดกว้างมากกว่าคือระดับของความเป็น "procedural" ที่ปลายด้านหนึ่ง เราอาจจินตนาการถึงกรณีที่มี diffusion model ขนาดมหึมาตัวเดียวสร้างทั้งเอาต์พุตแคนวาสขึ้นมาพร้อมกันในครั้งเดียว ส่วนอีกด้านหนึ่งคือหน้าเพจที่เต็มไปด้วย React คอมโพเนนต์ (ที่ถูกสร้างแบบ procedural) (เช่น รูปภาพ กราฟ แอนิเมชัน ไดอะแกรม ฯลฯ) ผมคิดว่าน่าจะเป็นการผสมกันของทั้งสองแบบ แต่แบบหลังจะเป็นโครงหลัก

แต่สิ่งที่ผมกล้าพูดได้ตอนนี้คือ เมื่อขีดความสามารถเข้าใกล้อนันต์ GUI แบบแคนวาส 2D ที่ลื่นไหล ราวกับเวทมนตร์ และโต้ตอบได้ชั่วคราวแบบ ephemeral จะกลายเป็นรูปแบบสุดท้าย และผมคิดว่าสิ่งนี้กำลังเริ่มต้นขึ้นอย่างช้า ๆ แล้ว (เช่น code block/highlighting, LaTeX block, ตัวหนา/ตัวเอียง/ลิสต์/ตารางใน Markdown, อีโมจิ, และที่ทะเยอทะยานกว่านั้นคือแท็บ Artifacts, แผนภาพ Mermaid หรือแม้แต่แอปที่สมบูรณ์ยิ่งขึ้น) แน่นอนว่าตอนนี้ทุกอย่างยังอยู่ในระดับเริ่มต้นและหยาบมาก

Iron Man และในระดับหนึ่ง Star Trek/Minority Report ถือเป็นตัวอย่างที่ดีของ AI/UI ในวัฒนธรรมสมัยนิยมที่แสดงทิศทางนี้ได้