- ถ้าโทรศัพท์คอยอัดทุกอย่างที่เราพูดตลอดเวลาแล้วส่งให้ AI ประมวลผล จะเกิดอะไรขึ้น? ผมลองทำก่อนแล้ว
- อัดเสียงตลอดช่วงเวลาที่ตื่นอยู่ ยกเว้นตอนนอน (บางสถานการณ์ที่ไม่เหมาะสมก็ปิด) เป็น PoC และยังยากที่จะนำไปใช้จริง
- แรงจูงใจที่ทำขึ้นมา เพราะ OpenAI ปล่อย Whisper ออกมา
วิธีการทำงาน
- ใช้ไมโครโฟนสองตัวอัดสิ่งที่พูดตลอดทั้งวัน แล้วพอจบวันก็นำไปประมวลผลด้วย Whisper เพื่อแปลงเป็นข้อความ
- จากนั้นก็พบว่าสามารถใช้สิ่งนี้สร้างผู้ช่วยดิจิทัลสไตล์ "Ok Google" แบบพื้นฐานได้
- มีข้อมูลที่ดึงออกมาได้ทุกวันอยู่สองประเภท
- Active : สิ่งที่ตั้งใจสั่งผู้ช่วยโดยรู้ตัว
- Passive : ข้อมูลอื่นทั้งหมดที่ควรถูกดึงออกมาโดยที่ผมไม่ต้องทำอะไรเพิ่ม
ฟังก์ชัน Active
- สิ่งที่ต้องประมวลผลแบบอะซิงโครนัสทุกเย็น จะพูดในรูปแบบ
'KEYWORD COMMAND data END KEYWORD'
'Robert WEIGHT 60.1 end Robert' : Robert คือชื่อผู้ช่วย และ end คือคีย์เวิร์ดสำหรับจบ
- เหตุผลที่ไม่ใช้ "OK Google" : มันจำกัด ไม่อยากให้ข้อมูลไปอยู่กับ Google และเป็นการทำงานแบบซิงโครนัสที่ประมวลผลทันทีเมื่อพูด
- แน่นอนว่าพอเป็นการประมวลผลแบบอะซิงโครนัส ก็มีข้อเสียคือจะไม่รู้ผลจนกว่าจะจบวัน
ดูผลลัพธ์
- ขึ้นเครื่องชั่งน้ำหนักแล้วพูด
'Robert WEIGHT 62.8 end Robert'
- ตื่นนอนแล้วอ่านค่าจากตัวติดตามการนอน (Mi Band)
'Robert SLEEP 7 hours 14 minutes end Robert'
- แม้อุปกรณ์อิเล็กทรอนิกส์จะเชื่อมกับโทรศัพท์และส่งข้อมูลมาได้ แต่ไม่มีวิธีดึงข้อมูลออกมา จึงใช้ผู้ช่วยดิจิทัลเหมือนเป็น Analog API แทน
- กินข้าวแล้วพูด
'Robert LUNCH two toasts with a fried egg end Robert'
- คำนวณแคลอรีของอาหารที่กินในแต่ละวันผ่าน external API
- ฟังพอดแคสต์แล้วพูด
'Robert NOTE the podcast talks about Morgan Housel's book the psychology of money end Robert'
- บันทึกโน้ตและไอเดียทั้งหมดไว้
- เติมน้ำมันแล้วพูด
'Robert SPENT 250,000 on fuel end Robert'
- บันทึกรายการใช้เงินในแต่ละวัน
- มันดูแปลกอยู่บ้างที่ต้องพูดกับตัวเอง แต่ข้อดีคือไม่ต้องหยิบโทรศัพท์ขึ้นมาทำอะไร
แดชบอร์ด
- สร้างแดชบอร์ดไว้ดูข้อมูลทั้งหมดที่ป้อนเข้ามาด้วยวิธีนี้
- ทำ My Journal เพื่อบันทึกอัตโนมัติว่าวันนี้ทำอะไรไปบ้าง
ข้อมูล Passive - ยังทำอยู่
- RELATIONSHIP THERMOMETER : เครื่องวัดอุณหภูมิความสัมพันธ์
- SENTIMENT ANALYSIS : การวิเคราะห์อารมณ์
- TOTAL RECALL: ค้นหาทุกสิ่งที่เคยพูดเกี่ยวกับหัวข้อหนึ่ง ๆ และค้นหาว่าผมเคยคิดอย่างไรเกี่ยวกับหัวข้อนั้นในช่วงเวลาใดช่วงเวลาหนึ่ง
ข้อสรุปเบื้องต้น
- ต้องมีทั้งเสียง + บริบท
- ศักยภาพที่ได้จากสิ่งนี้มหาศาลมาก ทั้งด้านบวกและด้านลบ
- ด้านบวก : ความจำสมบูรณ์แบบ, นักจิตวิทยา/โค้ชส่วนตัว, โคลนเสมือนของตัวผม
- ด้านลบ : คือเมื่อสิ่งเหล่านี้ไปอยู่ในมือของคนอื่น
- ความต่างระหว่างยูโทเปียกับดิสโทเปียคือ ใครสามารถเข้าถึงข้อมูลนั้นได้
3 ความคิดเห็น
“ความแตกต่างระหว่างยูโทเปียกับดิสโทเปียคือใครสามารถเข้าถึงข้อมูลนั้นได้บ้าง” เป็นคำพูดที่ดีนะ
น่าสนใจมาก ดูเหมือนว่าจะทำให้เกิดขึ้นได้จริงอย่างเพียงพอ
ก็น่าจะทำคอนเทนต์แบบแชร์และแบ่งปันชีวิตประจำวันในอุดมคติเป็นครั้งคราว เหมือน VLog ได้ด้วย
ผู้เขียนโพสต์เองบน HN และยังมาตอบคอมเมนต์ด้วย https://news.ycombinator.com/item?id=33608437
มีลิงก์ AliExpress ของไมโครโฟนที่ใช้มาด้วย ฮ่า ๆ
Whisper - ระบบรู้จำเสียงพูดหลายภาษาที่ OpenAI เปิดซอร์ส