- นักออกแบบของ NotebookLM สรุปภาพรวมกระบวนการทั้งหมดตั้งแต่ช่วงทดลองไปจนถึงการเปิดตัว ในการออกแบบ ประสบการณ์ผู้ใช้หลักและระบบแบรนด์
- เป้าหมายของ NotebookLM คือการสร้าง โครงสร้าง 3 พาเนล และ ระบบพาเนลแบบตอบสนอง ที่เชื่อมการอ่าน การสนทนา และการสร้างไว้ในพื้นที่เดียว เพื่อแก้ปัญหา ภาระจากแท็บที่มากเกินไป (tab overwhelm)
- ได้จัดระเบียบการไหลของข้อมูลเป็น แบบจำลองทางความคิดที่ชัดเจน คือ Inputs → Chat → Outputs เพื่อสร้าง UX ที่ยึดตามบริบท ช่วยให้ผู้ใช้ไม่หลงตำแหน่งของตนเอง
- ฟีเจอร์อย่าง Audio Overviews ผสานปฏิสัมพันธ์แบบ AI-native เข้ากับเวิร์กโฟลว์การทำงานจริง พร้อมทั้งรวม การอ้างอิงแหล่งที่มาและรูปแบบการขัดจังหวะ (interrupt pattern)
- โดยสรุป ประเด็นสำคัญคือทีมขนาดเล็กที่คล่องตัวสามารถสร้าง กรอบการออกแบบผลิตภัณฑ์แบบ AI-first ที่ขยายต่อได้อย่างสม่ำเสมอ ตั้งแต่ อัตลักษณ์แบรนด์ไปจนถึงวิชวลแอสเซ็ต
Architecture
- โครงการนี้มุ่งรวม การอ่าน การสนทนา และการสร้าง เข้าด้วยกัน และถ่ายทอดกระบวนการที่สถาปัตยกรรม UI พัฒนาจากการทดลองไปสู่ ระบบระดับพร้อมเปิดตัว
- ภาพ UI Evolution แสดงให้เห็นพัฒนาการของอินเทอร์เฟซช่วงต้นที่ค่อย ๆ ลงตัวเป็น โครงสร้าง 3 พาเนล
- ตลอดการออกแบบให้ความสำคัญกับ ความสามารถในการขยายและการปรับตัว โดยใช้ หลักการกริด/พาเนล ที่ทำให้โครงสร้างไม่พังแม้จะเพิ่มเครื่องมือหรือโหมดใหม่
Early Prototype & Notes-driven UI
- มีการแนะนำแนวทางช่วงแรกที่วาง แชตแบบ exploratory overlay ทับบน แคนวาสที่ขับเคลื่อนด้วยโน้ต
- มีการทดลองซ้ำจำนวนมากเพื่อหา เลย์เอาต์ที่ลดภาระการรับรู้ โดยยังคงให้โน้ตและบทสนทนาอยู่ร่วมกันบนหน้าจอเดียว
- ผลลัพธ์คือ แชตถูกยกระดับจากเครื่องมือไปเป็นหนึ่งในแกนของมุมมอง และกลายเป็นแกนหลักของระบบพาเนลในเวลาต่อมา
3-Panel Structure
- โครงสร้างสุดท้ายคือ 3 พาเนลแบบ Source / Chat / Studio(Notes) โดยใช้พาเนลแบบตอบสนองที่ยังคง ไอคอนหลักไว้ได้แม้ในความกว้างขนาดเล็ก เพื่อคงการเข้าถึง
- พรีเซ็ตเลย์เอาต์อย่าง Standard และ Reading + Chat มอบการจัดวางที่เหมาะกับแต่ละสถานการณ์ เพื่อรองรับงานที่เน้น การอ้างอิงและการอ้างถึงแหล่งข้อมูล
- ความกว้างของพาเนลจะถูก ปรับใหม่แบบไดนามิก ตามโฟกัสของผู้ใช้ เพื่อลดแรงเสียดทานในการสลับระหว่างเครื่องมือ
Problem + Requirements
- ปัญหาหลักคือ ประสบการณ์ที่กระจัดกระจายจากการต้องสลับไปมาระหว่างหลายเครื่องมือ ซึ่งก่อให้เกิด tab overwhelm และจึงกำหนดความต้องการให้รวมทุกอย่างไว้ในพื้นที่เดียวเป็น อินพุต การสนทนา และผลลัพธ์
- ในฝั่งอินพุตมี Source list / Open Source(wide) ฝั่งเอาต์พุตมี Notes list / Open Note(wide) และตรงกลางวาง Chat กับ Citations
- การกระทำเชิงสร้างสรรค์ถูกออกแบบให้มี จุดเริ่มต้นหลายแบบ เพื่อให้ผู้ใช้ต่อเนื่องไปสู่ การสร้างผลลัพธ์ ได้ทันทีโดยไม่สะดุดจากกระแสงาน
Early Sketches
- แม้โครงสร้างปัจจุบันจะดูเหมือนชัดเจนในตัวเอง แต่จริง ๆ แล้วเป็นผลลัพธ์จาก การทำซ้ำอย่างนับครั้งไม่ถ้วน
- มีการแบ่งปัน บันทึกการสำรวจแนวคิด ว่าได้ค้นพบคำตอบสุดท้ายจาก การสเก็ตช์ลงบนกระดาษเช็ดปาก หลังจากกระดาษปลิวตกบนเครื่องบิน
- เป้าหมายคือการสร้างวิธีจัดบล็อกที่ตอบโจทย์ทั้ง แบบจำลองทางความคิดที่ชัดเจน และ UI ที่ใช้งานได้โดยไม่ล้นเกิน
Mental Model
- แบบจำลองทางความคิดนี้ยึดการไหลแบบ เชิงเส้นแต่ยืดหยุ่น คือ Inputs → Chat → Outputs เป็นแกนกลาง
- ผู้ใช้นำเอกสาร โน้ต และแหล่งอ้างอิงเข้ามา แล้วผ่านกระบวนการ ถาม จัดระเบียบ และสังเคราะห์ เพื่อสร้างผลลัพธ์ที่มีโครงสร้าง เช่น โน้ต คู่มือการเรียน และ Audio Overviews
- โมเดลนี้ช่วยทำให้ ความซับซ้อนของปฏิสัมพันธ์ AI รูปแบบใหม่ กลายเป็นสิ่งที่รับมือได้ผ่าน ความรู้สึกเรื่องตำแหน่งและลำดับขั้น
Solution • 3 Panel Structure รายละเอียด
- ระบบพาเนลแบบตอบสนอง สามารถ ปรับขนาดได้อย่างยืดหยุ่น ตามความต้องการของผู้ใช้ และยังคง การเข้าถึงแหล่งข้อมูลและโน้ต ได้แม้ในความกว้างขั้นต่ำ
- เลย์เอาต์ Standard ให้มุมมองพื้นฐานที่สมดุลระหว่างแหล่งข้อมูล แชต และโน้ต
- Reading + Chat เป็นรูปแบบที่เหมาะที่สุดสำหรับ การสร้างคำตอบที่อ้างอิงจากข้อความต้นทาง และช่วยเสริม ลำดับการแสดงหลักฐานประกอบ
Panel States
- สถานะของพาเนลเพิ่มประสิทธิภาพการใช้พื้นที่สูงสุดด้วย การคงไอคอนขององค์ประกอบสำคัญ และ การจัดโครงใหม่ตามระดับความกว้าง
- แม้เนื้อหาภายในพาเนลจะเปลี่ยนไป แต่ หลักการเชิงโครงสร้างยังคงเดิม ทำให้รองรับ การเพิ่มเครื่องมือและเวิร์กโฟลว์ใหม่ในอนาคต ได้อย่างยืดหยุ่น
- หลักการออกแบบนี้สรุปได้เป็น ความสามารถในการเติบโตและความยืดหยุ่นฟื้นตัว
Source Panel
- ทำหน้าที่เป็น ศูนย์กลางของแหล่งข้อมูลทั้งหมด (อินพุต) ที่ผู้ใช้ป้อนเข้ามา และเป็น จุดเริ่มต้น ของเส้นทางการทำงาน
- รองรับ การจัดระเบียบ การเปิดดู และการสลับแหล่งข้อมูล ได้อย่างรวดเร็ว พร้อมกระตุ้นการโต้ตอบกับ Chat ตรงกลาง
- แม้ในความกว้างขั้นต่ำก็ยัง คงสัญญาณภาพสำคัญไว้ เพื่อป้องกันการสูญเสียบริบท
Studio Panel
- เป็นพื้นที่ที่อินพุต ถูกแปลงเป็นผลลัพธ์ รับหน้าที่ด้าน การสร้าง การปรับแต่ง และการบันทึก
- ถูกออกแบบเป็น มุมมองแบบคอนเทนเนอร์ ที่รองรับผลลัพธ์หลายประเภท เช่น โน้ต รายงาน และคู่มือการเรียน
- ในรีลีสล่าสุดได้มีการยกตัวอย่างการขยายไปสู่ flashcards, quizzes, professional reports
Chat Panel
- เป็น แกนหลักของประสบการณ์ใช้งาน ที่มีอยู่เสมอ และจะ ปรับขนาดอัตโนมัติ ตามความจำเป็น
- มอบ ปฏิสัมพันธ์กับ AI ที่น่าเชื่อถือ ผ่านการออกแบบบทสนทนาที่เน้น การอ้างอิงแหล่งที่มาและการแสดงหลักฐาน
- แม้เครื่องมืออื่นจะขึ้นมาอยู่ด้านหน้า ก็ยัง รักษาบริบทของบทสนทนา ไว้เพื่อลดการสะดุดของโฟลว์ให้น้อยที่สุด
User Journey • Annotated Overview
- ภาพเส้นทางผู้ใช้แบบมีคำอธิบายประกอบ แสดงปฏิสัมพันธ์เป็นลำดับขั้นจาก การรวบรวมอินพุต → การทำความเข้าใจและจัดระเบียบผ่านบทสนทนา → การสร้างผลลัพธ์
- อธิบายว่าที่แต่ละขั้น การย้ายโฟกัสระหว่างพาเนล และ การเปลี่ยนสถานะ เชื่อมต่อกันอย่างเป็นธรรมชาติอย่างไร
- เป้าหมายคือการสร้าง ประสบการณ์แบบ end-to-end ที่ทำได้พร้อมกันทั้ง การคงบริบทและความเร็วในการทำงาน
Audio Overviews
- Audio Overviews นำ กระบวนทัศน์ปฏิสัมพันธ์ใหม่ อย่าง interrupt pattern เข้ามาตั้งแต่ช่วงไอเดีย การทำต้นแบบ ไปจนถึงการเปิดตัว
- คุณค่าของฟีเจอร์นี้อยู่ที่การเป็นเครื่องมือ สรุป/เรียนรู้แบบคลิกเดียว ที่ ยึดโยงกับแหล่งข้อมูล (grounded) และยังมีการเล่าเบื้องหลังว่าชื่อนี้ ผู้เขียนเป็นคนตั้งโดยบังเอิญ
- นี่เป็นกรณีตัวอย่างของ ความร่วมมือข้ามสายงานในทีมขนาดเล็ก ที่ทำให้เกิดวงจร ทดลองเร็วและปล่อยใช้งานเร็ว
Brand Identity
- มีการกำหนด อัตลักษณ์แบรนด์และระบบวิชวล อย่างรวดเร็วผ่านความร่วมมืออย่างใกล้ชิดกับ Google Labs และทีมแบรนด์ส่วนกลาง
- ได้วาง ภาษาการออกแบบ ที่ขยายต่อได้อย่างสม่ำเสมอ ครอบคลุมแอสเซ็ตหลายรูปแบบ เช่น สี ตัวอักษร ไอคอน และภาพประกอบ
- เน้นการ จัดแนว UX และ BI เพื่อให้ประสบการณ์ของผลิตภัณฑ์และ โทนของแบรนด์ สื่อสาร ข้อความเดียวกัน
Visual Assets
- ยกตัวอย่างการสร้างแอสเซ็ตแบบฟูลสแตกตั้งแต่ press kit ไปจนถึงวิชวลสำหรับการเปิดตัว
- แอสเซ็ตความละเอียดสูงอย่าง ภาพฮีโร่บนเว็บ แอนิเมชัน และคีย์วิชวล ช่วยให้สารสื่อชัดเจนขึ้นและขยายการเข้าถึง
- ยังช่วยการสื่อสารที่ขยายออกไปด้วยการรักษา ความสอดคล้องของข้อความ กับช่องทางภายนอกอย่าง Keyword blog
Key Takeaways from the Journey
- บทเรียนจาก ประสบการณ์การสร้าง Audio Overviews สรุปได้ว่าเป็นเรื่องของ การสร้างผลิตภัณฑ์ร่วมกับผู้ใช้ การเปิดเผยเร็วและทำซ้ำเร็ว และ การตอบสนองต่อความต้องการด้านการอ้างอิงแบบอินไลน์
- AI ต้องเป็นผลิตภัณฑ์ AI-native ที่แก้ปัญหาในแบบ Built-in และหัวใจสำคัญคือการออกแบบที่เชื่อมช่องว่างระหว่าง งานวิจัยกับโจทย์การใช้งานจริง
- UI แบบไดนามิกและรับรู้บริบท มีความสำคัญมาก และในช่วงเปลี่ยนผ่าน Chat ทำหน้าที่เป็นทั้ง สมอยึดเหนี่ยวที่คุ้นเคย และ สะพานไปสู่ประสบการณ์ใหม่
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โพสต์นี้ให้ความรู้สึกว่าถูกออกแบบซับซ้อนเกินไปแบบเดียวกับ NotebookLM ทั้งที่แก่นจริง ๆ เรียบง่ายมาก แค่ต้องการเลือกไฟล์แล้วคุยกับมันหรือขอสรุป แต่ของจริงกลับมีความหนาแน่นข้อมูลต่ำ มีการ์ด ปุ่ม เซกชัน และไอคอนมากเกินไปจนเข้าถึง UX หลักได้ยาก เดิมทีอยากฟังมุมมองของนักออกแบบ แต่กลับรู้สึกว่าองค์ประกอบภาพอย่างการบังคับเลื่อนหน้า แครูเซลภาพ และลำดับชั้นทางภาพที่ไม่จำเป็น กลับรบกวนประสบการณ์ใช้งานเสียมากกว่า ยอมรับว่ามันดูเท่ แต่เพราะ UI เลยโฟกัสที่แก่นของมันได้ยาก
ไม่ได้เป็นมุมมองเชิงลบเลย ตรงกันข้ามคือเข้าใจได้มาก ถ้าแค่อยากคุยกับไฟล์ Gemini, ChatGPT, Claude ก็ทำงานได้ดีอยู่แล้ว เป้าหมายของผลิตภัณฑ์เชิงทดลองนี้คือการลองคิดอย่างสร้างสรรค์ว่ามันจะกลายเป็นเครื่องมือที่ยึดโยงกับแหล่งข้อมูลจริงได้หรือไม่ เราลองหลายอย่างอย่างรวดเร็วตามความต้องการผู้ใช้ และต่อไปก็คงพัฒนาต่อบนพื้นฐานของฟีดแบ็กแบบนี้ ส่วนเว็บไซต์ของผมเองก็พยายามใช้องค์ประกอบภาพเพื่อสื่อกระบวนการตัดสินใจให้ดีขึ้น
น่าจะมีคำเยอรมันที่อธิบายปรากฏการณ์นี้ได้ดี คือการพยายามห่อหุ้มข้อเสียให้ดูเหมือนมีส่วนทำให้ประสบความสำเร็จ เห็นบ่อยในงานเปิดตัวของบิ๊กเทค ทั้งที่จริงคือสำเร็จได้ทั้ง ๆ ที่มีปัญหาเหล่านั้น แต่กลับเล่าเหมือนเป็นเรื่องน่าประทับใจ ซึ่งก็ตลกดี
มันมีความย้อนแย้งที่ต้องเลื่อนอ่านไม่รู้จบเพื่ออธิบายเลย์เอาต์ 3 พาเนลที่มีมาตั้งแต่ยุค 80
ดูเหมือนจะสะอาดตา แต่ประสบการณ์ใช้งานจริงของ NotebookLM ไม่ค่อยดีนัก ถึงอย่างนั้นบริการมันดีมากจนยังใช้ต่อไปได้ แต่ UI นี่แหละคือส่วนที่ชอบน้อยที่สุด
ตอนแรกก็คิดว่าจะอึดอัดได้สักแค่ไหนกันเชียว แต่พอเห็นการออกแบบที่จัดเต็มเกินไปแบบนี้จริง ๆ ก็กลับรู้สึกว่าน่าสนุกดี
เว็บไซต์นี้คือพอร์ตโฟลิโอของผม การได้เห็นความคิดเห็นจากหลายคนก็น่าสนใจดี การออกแบบเป็นสิ่งที่ตั้งอยู่บนการทำซ้ำและการพัฒนา NotebookLM เองก็จะเปลี่ยนแปลงต่อไปเรื่อย ๆ ผมรู้สึกว่าโชคดีมากที่ได้มีส่วนร่วมตั้งแต่ตอนที่ผลิตภัณฑ์นี้ยังอยู่ในระยะเริ่มต้น ในฐานะนักออกแบบ ผมพยายามคาดเดาอนาคตของเทคโนโลยีและสร้าง UI ให้สอดคล้องกับมัน ผมคิดว่าทีม Google labs เคลื่อนไหวได้เร็วและมองไปข้างหน้ามาก ตลอดปีครึ่งที่ผ่านมา เราฟังฟีดแบ็กจากผู้ใช้ ทำซ้ำ และค่อย ๆ ทำให้ผลิตภัณฑ์เติบโต มันเป็นประสบการณ์สุดยอดมากในการสร้างผลิตภัณฑ์ใหม่จาก 0 ไปสู่ 1 และผมก็ไม่เคยคิดเลยว่าพอร์ตโฟลิโอของตัวเองจะดังขนาดนี้
สงสัยว่ามีข้อจำกัดหรือกฎเกณฑ์อะไรเกี่ยวกับ IP ของ Google ที่กำหนดว่าสามารถเปิดเผยอะไรต่อสาธารณะได้บ้างไหม
เจอบั๊กในเว็บไซต์ คือมันส่งสัญญาณให้เบราว์เซอร์หรือส่วนขยายเหมือนกับว่ามีการเปิดใช้โหมดมืด ทั้งที่จริงไม่ได้เป็นแบบนั้น เลยทำให้บางอย่างทำงานผิดปกติ
ขอบคุณสำหรับความทุ่มเท ถึงจะมีบ่นบ้าง แต่นี่ก็เป็นผลิตภัณฑ์ด้านการเรียนรู้ที่น่าดึงดูดที่สุดเท่าที่เคยใช้มา หวังว่าจะพัฒนาต่อไปเรื่อย ๆ
คำว่า “สเก็ตไปสู่อนาคตของเทคโนโลยี” โดนใจมาก ท้ายที่สุดงานแบบนี้ไม่ใช่วิทยาศาสตร์ที่วางแผนให้สมบูรณ์ได้หมด แต่มันเป็นศิลปะ เป็นพื้นที่ที่ต้องคอยปรับจูนอยู่เรื่อย ๆ คิดว่าโปรเจ็กต์นี้คงพัฒนาไปตามหลายบทบาทและฟีดแบ็กจากผู้ใช้ NotebookLM เขย่าตลาดไปแล้ว และเชื่อว่าจะดีขึ้นอีกเหมือนช่วงแรก ๆ ของ Bard หรือ Gemini โดยเฉพาะในด้าน UI/UX
ผมใช้ NotebookLM ทุกวัน ชอบความเรียบง่ายของดีไซน์ แต่พอฟีเจอร์เพิ่มขึ้นก็เริ่มมีปัญหาในการขยายโดยยังรักษา UI เดิมไว้ได้ ช่วงหลังมีแฟลชการ์ดกับควิซเพิ่มเข้ามา ทำให้
Artifacts Button Containerกลายเป็นปุ่มใหญ่ 6 ปุ่ม สูงถึง 328px ผู้ใช้จอเล็กในอินเดียบางคนถึงกับมองไม่เห็นโน้ตของตัวเองและไปขอความช่วยเหลือในฟอรัม Discord ผมเลยทำสคริปต์ Tampermonkey ให้ยุบได้ [สคริปต์ยุบ] ได้ยินว่าทีมจะรีบแก้เร็ว ๆ นี้ แต่เรื่องแบบนี้ควรตรวจสอบให้มากกว่านี้ก่อนปล่อย ปัญหาแนวนี้ผมแก้เองด้วยสคริปต์มาตลอด และที่แปลกที่สุดคือnotesเพราะมันบังคับให้อ่านเรียงความยาว 2000 ตัวอักษรในไซด์บาร์กว้าง 360px ผมเลยทำสคริปต์ให้ดูแบบเต็มจอด้วย [สคริปต์เต็มจอ] ช่องป้อนแชตก็มีปัญหาเหมือนกัน คำถามต่อเนื่องทำงานได้ไม่ดี และแม้หลังเลือกแล้วก็ยังไม่นิ่ง เรื่องพวกนี้ผมพูดได้ทั้งวัน แต่คิดว่าแก้เลยดีกว่าผมไม่ชอบ UX ของ NotebookLM เลย์เอาต์ชวนสับสน และแนวคิดที่ UI พยายามสื่อก็ไม่ตรงไปตรงมา พลังของฝั่งแบ็กเอนด์ยังไม่ถูกถ่ายทอดมาที่ฟรอนต์เอนด์อย่างเหมาะสม แต่ตัวบทความเองเขียนได้สะอาดและเห็นความตั้งใจของผู้เขียนชัดเจน ถึงจะไม่เห็นด้วยกับข้อสรุปและผลลัพธ์ แต่ก็หวังว่าจะได้เห็นความพยายามที่รอบคอบมากขึ้นต่อไป การออกแบบแบบช่างฝีมือในตลาดที่เปลี่ยนเร็วแบบนี้ไม่ใช่เรื่องง่าย
ผมคิดว่า NotebookLM เป็นกรณีที่ประสบความสำเร็จไม่ใช่เพราะอินเทอร์เฟซ แต่ทั้ง ๆ ที่อินเทอร์เฟซเป็นแบบนี้ พูดตรง ๆ คือ UX แย่มาก วิศวกรแบ็กเอนด์ควรได้เครดิตเยอะมาก แค่จะหาที่สำหรับคัดลอก/วางข้อความธรรมดายังใช้เวลานาน การแก้ไขข้อความก็ไม่ดี ไม่เข้าใจว่าทำไมไม่มีพื้นที่จดโน้ต Markdown โดยเฉพาะ ผู้ใช้ส่วนใหญ่น่าจะคุ้นกับการวางข้อความมากกว่าอัปโหลด PDF ดังนั้นก็ควรมีโครงสร้างโฟลเดอร์กับไฟล์ด้วย UI ของแอป Notes เองก็ไม่เหมาะกับการแก้ไขและดูแลโน้ต
ผมยังไม่เคยใช้ NotebookLM เลยอยากรู้ว่ามันมีอะไรดีกว่าการอัปโหลดไฟล์เข้า Claude Projects แล้วคุยในนั้นหรือเปล่า รู้ว่าฟีเจอร์พอดแคสต์มันมีเอกลักษณ์ แต่ก็อยากฟังการเปรียบเทียบจากคนที่ใช้ทั้งสองบริการ
ผมชอบ NLM เพราะฟีเจอร์พอดแคสต์ ช่วงนี้ผมเปิดพอดแคสต์สำหรับเรียนรู้ตอนเช้าทุกวันเพื่อเริ่มต้นวันใหม่ ซึ่งดีมากจริง ๆ
ผมก็คิดเหมือนกัน ตอนนี้ย้ายไปใช้ Claude Code กับ Codex CLI โดยเอาเอกสารใส่ไว้ในโฟลเดอร์แล้วทำงานตรงนั้นเลย
มันมีส่วนที่ดีหลายอย่าง เช่น โครงสร้าง 3 พาเนลและตัวดูแหล่งข้อมูลด้านซ้าย แต่ก็มีจุดที่ใช้งานไม่สะดวกดังนี้ หนึ่ง 3 พาเนลควรสลับได้จากไอคอนบนแถบด้านบน และถ้าไม่ได้ใช้แชตกับโน้ตพร้อมกันก็ถือว่าเปลืองพื้นที่ สอง พื้นที่ใหญ่ตรงกลางควรทุ่มให้กับเอาต์พุตเท่านั้น แชตไม่ใช่ฟังก์ชันพิเศษเท่ากับอย่างภาพรวมแบบเสียง จึงควรถูกย้ายไปไว้ด้านข้าง สาม ความหนาแน่นข้อมูลต่ำเกินไป ปุ่มและไอคอนใหญ่และเทอะทะ AI มีไว้ช่วยจัดการข้อมูลจำนวนมหาศาล ดังนั้นพื้นที่หน้าจอจึงสำคัญมาก และดีไซน์นี้เสียเปรียบในจุดนั้น เสน่ห์ของ NBLM อยู่ที่ภาพรวมแบบเสียง ส่วน Q&A แบบแชตนั้น LLM ขนาดใหญ่ทุกตัวก็มีให้เป็นพื้นฐานอยู่แล้ว ถ้าไม่นับเรื่องการอ้างอิง และมันใช้แค่ Gemini Flash ซึ่งให้ความรู้สึกเหมือนโมเดลสายค้นหา เลยคิดว่าน่าจะดีถ้าเอามาจับคู่กับโมเดลสายให้เหตุผล
ผมเคยอัปโหลดไฟล์หนังสือแล้วคุยกับ NotebookLM ได้ข้อมูลที่มีประโยชน์ แต่ไม่รู้ทำไมบทสนทนานั้นไม่ถูกบันทึกไว้ ทำให้กลับไปหาอีกหรือคุยต่อไม่ได้เลย ต่างจากบริการ AI อื่น ๆ อย่าง Gemini หรือ GPT จึงไม่เข้าใจว่าทำไม UX/UI ของมันถึงย้อนศรแบบนี้ แล้ว NotebookLM ก็ยังช่วยเขียนเรียงความจากเอกสารให้ไม่ได้ด้วย
ขนาดคอนเท็กซ์กับฟีเจอร์พอดแคสต์นั้นดี แต่ UX เข้าใจยาก ไม่ชัดว่าแนวคิดของโน้ตคืออะไรกันแน่ ผมไม่เข้าใจเลยว่าโน้ตของผมกับโน้ตของ AI ต่างกันอย่างไร อาจเป็นเพราะมันไม่เข้ากับวิธีทำงานวิจัยของผม (PhD in Psy) หรืออาจเพราะผมชินกับ elicit ไปแล้วก็ได้
โน้ตช่วยได้เวลาแชร์โน้ตบุ๊กกับคนอื่น เพราะสามารถใช้สไนเพ็ตเพื่อหยิบประเด็นสำคัญมาคุยต่อได้ทันที
ในฐานะนักวิจัยออทิซึม ผมก็ไม่เข้าใจแนวคิดเรื่อง ‘โน้ต’ เหมือนกัน ไม่รู้ว่าควรใช้มันเหมือนแอปจดโน้ตแบบ OneNote หรือเปล่า ถึงอย่างนั้นการเรียนจากงานวิจัยผ่านการโต้ตอบกับ LLM ก็เร็วขึ้นชัดเจน ผมเคยใช้ภาพรวมแบบเสียงตอนขับรถด้วย แต่ก็ยังยากที่จะให้มันลงลึกถึงเนื้อหาวิทยาศาสตร์ระดับลึกจริง ๆ
อยากถามคนที่ใช้เป็นประจำว่าโดยมากใช้ทำอะไร นอกจากภาพรวมแบบเสียงแล้ว มันดีกว่าแชตทั่วไปหรือการรวมเอกสารตรงไหนบ้าง
ผมเอา paper จาก arxiv ความคิดเห็นใน Hacker News และข้อความยาว ๆ อื่น ๆ มาทำเป็นพอดแคสต์ไว้ฟังตอนเดินทางไปกลับ
ผมเป็นที่ปรึกษาด้านเทคนิคที่ต้องพบลูกค้าเป็นครั้งแรกหลังปิดดีล ผมเอาทรานสคริปต์การประชุมก่อนหน้าและเงื่อนไขในสัญญาใส่เข้า NotebookLM แล้วถามเรื่องเป้าหมาย ความเสี่ยง หรือการจัดลำดับความสำคัญในระดับสูง จากนั้นก็ใช้สิ่งนั้นทำสไลด์สำหรับการประชุมครั้งแรก และภายหลังก็ใส่ทรานสคริปต์จากช่วง discovery session ลงไปด้วย จากตรงนั้นมันช่วยร่างรายงานประเมินแนวทางการบริหารจัดการได้ด้วย แต่ผมจะไม่เอาข้อความที่ LLM เขียนไปให้ลูกค้าดูตรง ๆ แน่นอน ต้องเอามาเขียนใหม่ให้เป็นสไตล์ของตัวเองเสมอ ที่บริษัทเองก็ใช้ GSuite อย่างเป็นทางการอยู่แล้ว และข้อดีของ NotebookLM คือมันช่วยคัดสรรและจัดการแหล่งข้อมูลได้ดี
เวลาศึกษากฎของบอร์ดเกมที่ซับซ้อน มันมีประโยชน์มากเพราะแค่ถามก็ได้คำตอบพร้อมการอ้างอิง โดยไม่ต้องไปไล่หาจากคู่มือกติกาเองทีละข้อ
สำหรับผม คำอธิบายแบบวิดีโอดูน่าจะดีกว่าแบบเสียง
เพื่อนผมใช้มันตอนเตรียมสอบมหาวิทยาลัย เพื่อทำควิซกับแฟลชการ์ด