Show HN: เปิดตัว Pi-C.A.R.D ผู้ช่วยเสียงสำหรับ Raspberry Pi

(github.com/nkasmanoff)

4 คะแนน โดย GN⁺ 2024-05-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Pi-C.A.R.D เป็นผู้ช่วยเสียง AI ที่ทำงานแบบโลคัลทั้งหมดบน Raspberry Pi เป็นโปรเจกต์ที่นำความสามารถของ LLM แบบสนทนามาใช้งานบนฮาร์ดแวร์ Raspberry Pi
วิธีโต้ตอบมี 2 แบบ ได้แก่ main.py ที่ใช้ wake word และ main_button.py ที่ใช้ปุ่ม GPIO โดยระหว่างสนทนาไม่จำเป็นต้องพูด wake word ซ้ำ
สามารถปรับประวัติการสนทนาได้ใน config.py และหากลดขนาดหน่วยความจำลงจะได้การตอบสนองที่เร็วขึ้น
เพื่อให้ทำงานได้เร็วและเบา ใช้ implementation ภาษา C++ อย่าง whisper.cpp และ llama.cpp และใช้ tool-bert2 ซึ่งเป็น BERT ที่ fine-tune แล้วในการตัดสินใจว่าจะเข้าถึงข้อมูลภายนอกหรือไม่
ฟีเจอร์ที่ใช้กล้องมีวิธีตั้งค่าอยู่หลายจุดใน README แต่มีหมายเหตุว่าขณะนี้ถูกถอดออกชั่วคราวเนื่องจาก การเปลี่ยนแปลงในการรองรับ vision model ของ llama.cpp

Pi-C.A.R.D ทำอะไรได้บ้าง

Pi-C.A.R.D เป็นผู้ช่วยที่ขับเคลื่อนด้วย AI ซึ่งทำงานบน Raspberry Pi โดยมีเป้าหมายให้ประมวลผลงานที่ LLM มาตรฐานอย่าง ChatGPT ทำในสภาพแวดล้อมการสนทนาได้แบบโลคัล
ชื่อย่อมาจาก Raspberry Pi - Camera Audio Recognition Device
โปรเจกต์ยังอยู่ระหว่างการพัฒนาอย่างต่อเนื่อง และระบุว่ายินดีรับ issue หรือ pull request
ระบุว่าการรองรับ Docker ที่เพิ่มเข้ามาใหม่คาดว่าจะช่วยให้การตั้งค่าและการแก้ไขปรับปรุงง่ายขึ้น
ยังไม่มีวิดีโอแนะนำ และมีแผนจะจัดทำในภายหลัง

วิธีทำงาน

แบบ wake word
- เมื่อรัน main.py ระบบจะฟัง wake word แล้วเริ่มการสนทนา
- wake word ค่าเริ่มต้นคือ "raspberry", "barry", "razbear"
- หลังจากเริ่มสนทนาแล้ว ไม่จำเป็นต้องพูด wake word ซ้ำทุกครั้ง
- หากพูดคำอย่าง "stop", "exit", "goodbye" จะจบการสนทนา
- wake word และพฤติกรรมที่เกี่ยวข้องสามารถเปลี่ยนได้ใน config.py
แบบปุ่ม
- หากใช้ breadboard, สายไฟ และปุ่ม สามารถเริ่มการสนทนาด้วยปุ่ม GPIO ได้
- เป็นวิธีกดปุ่มแล้วพูดคำสั่ง โดยใน README แนะนำว่าเป็นวิธีโต้ตอบที่ลื่นไหลกว่า
- การตั้งค่าปุ่มให้ทำตามคำแนะนำใน main_button.py
- ในเวอร์ชันปุ่ม สามารถเริ่มการสนทนาด้วยปุ่ม หรือหยุด assistant ได้ทุกเมื่อ
หน่วยความจำการสนทนา
- แชตบอตมีหน่วยความจำการสนทนาที่ปรับค่าได้
- สามารถให้พูดซ้ำสิ่งที่เคยพูดก่อนหน้า หรือขยายความหัวข้อก่อนหน้าให้ละเอียดขึ้นได้
- หากต้องการการตอบสนองที่เร็วขึ้น สามารถตั้งค่าหน่วยความจำให้เล็กลงใน config.py

เป้าหมายและข้อจำกัดของการรันแบบโลคัล

เป้าหมายของโปรเจกต์คือการตรวจสอบว่าสามารถสร้างผู้ช่วยเสียงแบบออฟไลน์ทั้งหมดบนฮาร์ดแวร์ที่ค่อนข้างราคาถูกอย่าง Raspberry Pi ได้อย่างมีประสิทธิภาพเพียงใด
เนื่องจากประมวลผลทั้งหมดแบบโลคัล จึงไม่ได้ทรงพลังหรือเร็วเท่าระบบบนคลาวด์
README มองว่าในช่วง 1 ปีที่ผ่านมา LLM ขนาดเล็กมีความก้าวหน้าอย่างมาก และโปรเจกต์นี้ก็สามารถพัฒนาไปพร้อมกันได้
เหตุผลที่ไม่ได้ทำเป็นแอปคือมองว่าส่วนที่ยากที่สุดคือการทำให้ ผู้ช่วยเสียงแบบออฟไลน์เต็มรูปแบบ ทำงานได้เร็วบน Raspberry Pi
อธิบายว่าหากวิธีนี้ทำงานได้ ระบบลักษณะคล้ายกันบนฮาร์ดแวร์ที่แรงกว่าน่าจะทำงานได้เร็วขึ้น

การรันและการตั้งค่า

ดาวน์โหลด repository แล้วติดตั้ง requirements และตั้งค่าให้เสร็จ จากนั้นรันด้วยคำสั่งต่อไปนี้

python main.py

เวอร์ชันปุ่มรันด้วยคำสั่งต่อไปนี้

python main_button.py

การรันด้วย Docker ถูกแนะนำว่าเป็นวิธีที่แนะนำ โดยใช้คำสั่งต่อไปนี้

sudo docker-compose build
sudo docker-compose up

การรองรับ Docker เป็นฟีเจอร์ที่เพิ่มเข้ามาไม่นาน จึงอาจยังทำงานได้ไม่สมบูรณ์
วิธี Docker ใช้งานได้เฉพาะเวอร์ชัน wake-word และยังไม่แน่ชัดว่าจะส่งผ่านการเข้าถึง GPIO ไปยังคอนเทนเนอร์อย่างไร

ซอฟต์แวร์และเครื่องมือที่ใช้

เพื่อสร้างระบบที่เร็วและเบา ใช้ implementation ภาษา C++ ในจุดที่ทำได้
การถอดเสียงใช้ whisper.cpp และต้องตั้งค่าตาม quick-start guide
README อธิบายว่าใช้ llama.cpp สำหรับฟีเจอร์ vision แต่หมายเหตุด้านบนระบุว่า llama.cpp ไม่ได้รองรับ vision model อย่างแข็งขันอีกต่อไป จึงถอดฟีเจอร์กล้องออกชั่วคราว
มีฟีเจอร์เข้าถึงเครื่องมือบางอย่างเพื่อให้ assistant ทำงานใกล้เคียงผู้ช่วยจริงมากขึ้น
- การตัดสินใจเข้าถึงเครื่องมือทำผ่าน tool-bert
- tool-bert2 เป็น BERT ที่ fine-tune แล้วเพื่อกำหนดจังหวะการเข้าถึงข้อมูลภายนอก
- วิธีสร้างโมเดลนี้มีคำแนะนำใน repository ของ tool-bert
- หากต้องการเปิดใช้งานการเข้าถึงเครื่องมือ ต้องตรวจสอบ key และ secret ที่จำเป็นใน .env.example

สถานะของฟีเจอร์กล้องและ vision

ในเนื้อหา README แนะนำว่าหากเชื่อมต่อกล้องกับ Raspberry Pi จะสามารถถ่ายภาพ อธิบายสิ่งที่เห็น และถามคำถามเกี่ยวกับภาพนั้นได้
การตั้งค่าฟีเจอร์ vision ทำโดยเปลี่ยน vision_model ใน config.py เป็น vlm
มีการกล่าวถึง Qwen2-VL-2B-Instruct เป็นโมเดลที่จะใช้
เนื่องจากขนาด token ของภาพอินพุตเป็นแบบไดนามิก จึงอธิบายว่าหากลดขนาดภาพที่ถ่ายจะช่วยลดเวลา inference ได้
อย่างไรก็ตาม ตามหมายเหตุด้านบนของโปรเจกต์ ฟีเจอร์กล้องขณะนี้อยู่ในสถานะ ถอดออกชั่วคราว

ฮาร์ดแวร์ที่ต้องใช้

องค์ประกอบฮาร์ดแวร์พื้นฐานคือ Raspberry Pi 5 Model B, ไมโครโฟน USB และลำโพง
ไมโครโฟน USB และลำโพงเชื่อมต่อเข้ากับพอร์ต USB ของ Raspberry Pi
กล้องเชื่อมต่อเข้ากับพอร์ตกล้องของ Raspberry Pi
ชิ้นส่วนที่ใช้ใน README มีดังนี้
Raspberry Pi 5 ใช้พอร์ตกล้องแบบใหม่ จึงต้องใช้คอนเนกเตอร์กล้องแบบใหม่
คอนเนกเตอร์กล้องเป็นอุปกรณ์เสริม แต่หากต้องการใช้ฟีเจอร์กล้องจำเป็นต้องซื้อ
ระบุว่าส่วนต้นของ tutorial มีประโยชน์สำหรับการตั้งค่าปุ่ม GPIO
โปรเจกต์เน้นการปรับให้ทำงานบน Raspberry Pi 5 แต่ระบุว่าอาจทำงานบนอุปกรณ์อื่นได้เช่นกัน

โรดแมปและสถานะความคืบหน้า

รายการที่ระบุว่า implemented แล้วประกอบด้วยฟีเจอร์สนทนาพื้นฐาน, ฟีเจอร์กล้อง, benchmark เวลาในการตอบสนอง, การทดสอบ overclocking และการสำรวจวิธีลดเวลา whisper
ฟีเจอร์หยุด assistant แล้วถามคำถามใหม่, การใช้ custom tuned model และการปรับปรุง tool-bert ซึ่งเป็นโมเดลฟังก์ชันสำหรับบริการภายนอก ก็ถูกระบุว่าเสร็จแล้วเช่นกัน
การทดสอบการเชื่อมต่อแหล่งจ่ายไฟแบบพกพา และการทำ Dockerization เพื่อทดสอบกับอุปกรณ์เพิ่มเติมก็เสร็จแล้ว
รายการที่ยังเหลือ ได้แก่ tutorial และวิดีโอที่ปรับปรุงแล้ว, การสร้างโมเดลแบบเลือกได้โดยใช้ entropix, การทดสอบภาษาอื่น และการเพิ่มบริการภายนอกให้มากขึ้น
Notion board สำหรับติดตามความคืบหน้ายังไม่เสร็จสมบูรณ์ และมี ลิงก์ ให้ไว้

1 ความคิดเห็น

GN⁺ 2024-05-14

ความคิดเห็นจาก Hacker News

ผู้ใช้คนหนึ่งอยากสร้าง ผู้ช่วยเสียงแบบออฟไลน์เต็มรูปแบบ ที่ไม่ต้องเชื่อมต่ออินเทอร์เน็ตเลย เพื่อปกป้อง ความเป็นส่วนตัว ของผู้ใช้และไม่ให้ข้อมูลถูกส่งไปยังเซิร์ฟเวอร์ของบุคคลที่สาม
เป็นความพยายามที่ดีและขอบคุณมาก
- อยากให้ Apple/Google ใส่เทคโนโลยีที่ทำให้สามารถ พิสูจน์และตรวจสอบได้ ว่ากล้อง/ไมโครโฟนของอุปกรณ์จะถูกบันทึกได้เฉพาะตอนที่ไฟแสดงสถานะติดอยู่เท่านั้น และแอปหรือเลเยอร์ระดับสูงของระบบปฏิบัติการก็ไม่สามารถหลอกมันได้
- ฟีเจอร์อันดับ 1 ที่อยากได้ที่สุดจาก “ผู้ช่วย” ใด ๆ คือ การทำงานแบบออฟไลน์
  อยากรู้ว่าสิ่งนี้รันได้เฉพาะบน Pi5 หรือรันบนบอร์ดอื่นที่ไม่ใช่ Raspberry Pi ได้ด้วยหรือไม่
- ชื่อก็ดี และยิ่งดีที่ใช้มีม Picard facepalm เก่า ๆ
  พูดจริง ๆ คือชื่อทำให้สะดุดตา และพออ่านคำแนะนำแล้วก็คิดว่า “ถ้าเป็น Alexa ที่ไม่อัปโหลดทุกอย่างที่เราพูดไปยัง Amazon ก็น่าจะมีประโยชน์สำหรับฉันเหมือนกัน”
  ถ้าคำปลุกเริ่มต้นคือ “hey assistant” ขอแนะนำว่าใช้ “Computer” :) แน่นอนว่าเสียงควรฟังเหมือน https://en.wikipedia.org/wiki/Majel_Barrett
สิ่งที่ต้องการคือผู้ช่วยเสียงที่ RPi 4 รับไหว, ผสานรวมกับ HomeAssistant ได้ และเป็นออฟไลน์เท่านั้น จึงไม่ส่งข้อมูลของฉันไปที่ไหนเลย
เมื่อเทียบกับสิ่งที่เคยเห็นมา โปรเจกต์นี้ดูเหมือนจะตรงเงื่อนไขเกือบทั้งหมด จึงคิดว่าทำออกมาได้ดี
นอกจากนี้ ถ้ามีไมโครโฟนที่เข้ากันได้กับ RPi และเหมาะใช้แบบ Alexa ก็อยากได้คำแนะนำ
- น่าลองดู Rhasspy
  การรันโมเดลภาษาขนาดใหญ่บน 4B ให้ใช้งานได้จริงนั้นยาก แต่ก็ไม่จำเป็นต้องอิงโมเดลภาษาขนาดใหญ่เสมอไป
  ในชุมชน Rhasspy รูปแบบที่พบได้บ่อยคือให้อุปกรณ์ satellite ที่มีไมโครโฟนทำการตรวจจับคำปลุกแบบโลคัลที่ราคาถูกและเบา (ซึ่ง 4B ก็น่าจะพอ) แล้วสตรีมเสียงบันทึกจริงผ่านเครือข่ายโลคัลไปยังฮับกลางเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
- https://www.robotshop.com/products/respeaker-usb-microphone-...
- กล้อง Playstation 3/4 มีไมโครโฟนในตัวด้วย ผลลัพธ์จึงค่อนข้างดี
  หาได้ใน eBay ประมาณ 15–20 ดอลลาร์
- สงสัยว่าได้ลองดูฟีเจอร์ Voice Assistant ที่ผสานรวมอยู่ใน HA แล้วหรือยัง: https://www.home-assistant.io/voice_control/
  NabuCasa จ้างนักพัฒนาหลักของ Rhasspy มาทำฟีเจอร์นี้ และมันก็ดีขึ้นเรื่อย ๆ ในทุกอัปเดต
“ทำไมถึงเป็น Pi-card? ถ้ามาจาก Raspberry Pi - Camera Audio Recognition Device” ก็ดูเหมือนพลาดโอกาสใช้ LCARS ไป
น่าจะตั้งเป็น LLM Camera Audio Recognition Service แล้วให้ตอบสนองต่อคีย์เวิร์ด “computer” ไปเลย ถ้ารันบนที่อื่นที่ไม่ใช่ Pi ได้ ก็อาจเป็น LCARS ได้
- Pi-C.A.R.D สมบูรณ์แบบแล้ว
  อ่านออกเป็น Picard 100% และจำง่ายกว่า LCARS
- นั่นแหละเหตุผลที่เราไม่มีของ LCARS เท่ ๆ ไว้ใช้: https://en.wikipedia.org/wiki/LCARS#Legal
- หรือจะใช้ LLM Offline Camera, User Trained Understanding Speech ให้เป็น LOCUTUS ก็ได้
- ควรเป็นชื่ออย่าง Beneficial Audio Realtime Recognition Electronic Transformer
ตั้งตารอที่จะได้ลองใช้สิ่งนี้
เท่าที่รู้ ผู้ช่วยเสียง ที่เปิดเผย เสถียร ยืดหยุ่น และให้ความสำคัญกับความเป็นส่วนตัวยังมีน้อยมาก จึงหวังว่าโปรเจกต์นี้จะได้รับแรงสนับสนุน
ประมาณหนึ่งปีก่อน ครอบครัวอยากเอา Alexa เข้าบ้านมาก แต่ไม่อยากมีอุปกรณ์สอดส่องของ Bezos อยู่ในบ้าน เลยโน้มน้าวให้ลองทำเอง เลือก Mycroft บน Pi 4 แต่ไปได้ไม่ดี การตรวจจับคำปลุกไม่คงเส้นคงวา ฟีเจอร์ผสานรวมก็ยังขาด และตอนนั้นดูเหมือนเป็นโปรเจกต์ที่แทบถูกปล่อยทิ้งแล้ว เคยตั้งใจจะไปช่วยพัฒนาโปรเจกต์และฟีเจอร์ผสานรวมที่ติดขัดอยู่ แต่ชีวิตยุ่งจนไม่ได้กลับไปทำต่อ โชคดีที่ครอบครัวก็ลืม Alexa ไปแล้ว
- ใน ผลิตภัณฑ์สำหรับเมกเกอร์ บางตัวที่ Target เคยขาย มีทั้งกล่องกระดาษแข็ง ปุ่มอาร์เคด RGB-LED ด้านบน ลำโพง และไมโครโฟน 4 ตัวบน “hat” สำหรับ RPi
  เป็นบอร์ดขนาดประมาณ SO-DIMM ไม่แน่ใจว่าเป็น nano หรือ pico ไม่มีคำปลุก กดปุ่มที่ติดไฟสีขาวแล้วสีจะเปลี่ยนสองครั้ง ครั้งหนึ่งเพื่อยืนยันว่ากดแล้ว อีกครั้งเพื่อบอกว่ากำลังฟังอยู่ พอพูดจบสีก็เปลี่ยนอีกครั้งแล้วพูดคำตอบกลับมา
  แบ็กเอนด์ใช้บางอย่างของ Google การตั้งค่าและทำให้มันทำงานต่อเนื่องน่าหงุดหงิดมาก แต่ก็ใช้งานได้ มีอุปกรณ์แบบนั้นอยู่สองตัว เลยรอคอยอะไรสักอย่างที่จะให้โฮสต์เองในลักษณะคล้ายกันได้
- อ่านเรื่องนี้แล้วรู้สึกมีกำลังใจมาก และหวังว่าจะเป็นประโยชน์
  มีแผนจะทำงานกับสิ่งนี้เพิ่มเติม มีเดโมการทำงานสั้น ๆ หลายคลิปบน YouTube ที่ช่วยให้ประเมินคุณภาพปัจจุบันได้: https://www.youtube.com/watch?v=OryGVbh5JZE
สงสัยว่าสามารถรันสิ่งนี้บน เครื่อง Linux ทั่วไป ได้หรือไม่
หรือถ้ารู้จักโปรเจกต์คล้าย ๆ กันที่ทำแบบนั้นได้ก็อยากทราบ
เคยค้นหามาก่อน แต่ด้านนี้ซับซ้อน และข้อจำกัดต่าง ๆ ก็ละเอียดอ่อน
- Raspberry Pi คล้ายกับเครื่อง Linux ทั่วไปมาก ความต่างใหญ่ที่สุดคือเป็น ARM ไม่ใช่ CPU Intel/AMD ทำให้ขอบเขตรองรับแคบลงเล็กน้อย
  โดยรวมแล้ว Pi-C.A.R.D ดูเหมือนจะใช้ Python และ C++ ดังนั้นถ้าที่ไหนรันและคอมไพล์ Python กับ C++ ได้ ก็น่าจะไม่มีปัญหาใหญ่ในการรัน
ประมาณ 3 ปีก่อน เคยพยายามทำสิ่งแบบนี้บน RPI 4 รุ่นแรก ๆ แต่ติดข้อจำกัดของฮาร์ดแวร์และข้อจำกัดความรู้ของตัวเอง
พอเห็นว่าตอนนี้มันทำงานได้จริงแล้ว เท่มาก
ถ้ามี raspi hat ที่เสียบ GPU ได้ก็น่าจะเท่ดี แต่ไม่แน่ใจว่าจะใช้งานได้จริงหรือเป็นไปได้แค่ไหน
การ์ดจอของวันนี้คือขยะอิเล็กทรอนิกส์ของวันพรุ่งนี้ ดังนั้นมันอาจได้ชีวิตที่สองในการเสริมพลังให้โปรเจกต์ DIY raspi แบบนี้ก็ได้
- ถ้าไม่นับระบบนิเวศรอบแพลตฟอร์มเดียว จุดต่างส่วนใหญ่ของ Raspberry Pi อยู่ที่ ฟอร์มแฟกเตอร์และการใช้พลังงาน
  ถ้าต่อ GPU/อะแดปเตอร์/แหล่งจ่ายไฟเพื่อใช้ CUDA core ราคาถูก ก็มีโอกาสสูงว่าจะด้อยกว่าโซลูชัน SoC หรือ x86 NUC ที่ดีกว่าในแง่พลังงาน ราคา และขนาด
- สำหรับการขุดคริปโต เคยมีการเปลี่ยนสล็อต PCIe หนึ่งช่องให้เป็นสล็อต x1 PCIe 4 ช่อง หรือใช้บอร์ดที่มีสล็อต x1 PCIe มากกว่า 12 ช่องไปเลย
  ไม่รู้ว่าใน PCIe มีเวทมนตร์อะไรอยู่บ้าง แต่เท่าที่รู้ อย่างน้อย Atomic Pi ซึ่งเป็นหนึ่งในบอร์ดที่ขายกันทั่วไปก็มีอินเทอร์เฟซ PCIe ที่ “เปิดเผย” อยู่
  อย่างไรก็ตาม GPU อยู่บน PCB ขนาดเล็ก และ PCB นั้นเชื่อมต่อผ่านสาย USB3 ไปยัง PCB ที่เล็กกว่าบนสล็อต PCIe ของเมนบอร์ด ประเด็นคือไม่ว่า PCIe จะเป็นอะไรก็ตาม มันสามารถถูกส่งผ่านสาย USB3 ไปยัง GPU เพื่อให้ทำงานได้
เห็นมี ลำโพง อยู่ในรายการฮาร์ดแวร์ เลยสงสัยว่ามันตอบกลับด้วยเสียงพูดด้วยหรือเปล่า
- ใช่
  ตอนนี้ใช้ https://espeak.sourceforge.net/ อยู่ เลยไม่ได้ฟังเพลินนัก
  อีกอย่างคือมีการสตรีมคำตอบจากโมเดลภาษาขนาดใหญ่ด้วย จึงไม่ต้องรอนานกว่าจะได้คำตอบ เพราะประมวลผลเป็นชังก์ บางครั้งจึงมีการพูดออกมาเป็นแค่บางส่วนของคำสั้น ๆ ด้วย แน่นอนว่าเวลารอก็ขึ้นอยู่กับว่าใช้โมเดลอะไร และขนาดบริบทเท่าไร
ทำไม Picard ต้องระบุถึง ความชอบเรื่องอุณหภูมิ ของชา Earl Grey ทุกครั้งด้วยนะ?
ถ้า AI ฉลาดขนาดนั้น มันก็น่าจะเรียนรู้ความชอบของเขาไปแล้วไม่ใช่หรือ?
- นอกเรื่องโดยสิ้นเชิง แต่จริง ๆ แล้วอาจไม่จำเป็นต้องทำแบบนั้นก็ได้
  ในซีรีส์ ตัวละครหลายคนสั่งเครื่องจำลองอาหารได้ยืดหยุ่นกว่านั้น “Tea, Earl Grey, Hot” ดูเหมือนเป็นนิสัยของ Picard และอาจเป็นนิสัยที่ติดมาจากอุปกรณ์ทำอาหาร·เครื่องดื่มที่ดั้งเดิมกว่าเครื่องจำลองอาหารของ Enterprise-D
- บางทีอาจต้องพูดให้เฉพาะเจาะจงเพื่อ override ค่าเริ่มต้นแรง ๆ ที่ตั้งไว้กันโดนฟ้อง ซึ่งอาจอุ่นเกินไปเมื่อเทียบกับความชอบของเขา
  ในโลกหลังความขาดแคลนยังมีการฟ้องร้องอยู่ไหม? ก็คงมีแหละ
- อาจเป็นพลังของความเคยชินก็ได้
  คนส่วนใหญ่ใน Starfleet ดูเหมือนไม่รู้วิธีใช้เครื่องจำลองอาหารให้ดี ทั้งที่มีอุปกรณ์ฉลาดขนาดนั้น แต่ก็ใช้มันเหมือนเครื่องใช้ไฟฟ้าทั่วไปที่ไม่เคยอ่านคู่มือ พลาดฟีเจอร์ไป 90% แล้วก็บ่นว่าอาหารที่จำลองออกมารสชาติแย่
- กลับกัน เขายังพูดไม่เจาะจงพอด้วยซ้ำ
  https://i.redd.it/hluqexh3oqc91.jpg
- ครั้งหนึ่งเขาเคยพูดแค่ “Tea, Earl Grey” แล้วคอมพิวเตอร์เข้าใจเป็น “Tea, Earl Grey, luke warm”
สงสัยว่า คำปลุก ทำงานอย่างไร
เป็นแบบฟังอยู่ตลอด แล้วถ้าในไม่กี่วินาทีล่าสุดไม่มีคำหรือวลีปลุกก็เพิกเฉยหรือเปล่า?
- โดยรวมแล้วแนวคิดประมาณนั้นถูกต้อง
  ถ้าให้แม่นกว่านั้นคือเก็บชังก์เสียงไว้หลายชังก์แล้วทิ้งชังก์ที่เก่าที่สุด เป็นแบบ หน้าต่างเลื่อน (rolling window)

Show HN: เปิดตัว Pi-C.A.R.D ผู้ช่วยเสียงสำหรับ Raspberry Pi

Pi-C.A.R.D ทำอะไรได้บ้าง

วิธีทำงาน

แบบ wake word

แบบปุ่ม

หน่วยความจำการสนทนา

เป้าหมายและข้อจำกัดของการรันแบบโลคัล

การรันและการตั้งค่า

ซอฟต์แวร์และเครื่องมือที่ใช้

สถานะของฟีเจอร์กล้องและ vision

ฮาร์ดแวร์ที่ต้องใช้

โรดแมปและสถานะความคืบหน้า

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News