Pi-C.A.R.D

สารบัญ

  • แนะนำ
  • วิธีใช้งาน
  • ฮาร์ดแวร์
  • การตั้งค่า

แนะนำ

  • Pi-card เป็นผู้ช่วยเสียงที่ขับเคลื่อนด้วย AI และทำงานทั้งหมดบน Raspberry Pi
  • สามารถทำทุกอย่างที่ LLM มาตรฐานอย่าง ChatGPT ทำได้ในการสนทนาทั่วไป
  • หากติดตั้งกล้องไว้ คุณสามารถสั่ง Pi-card ให้ถ่ายรูป อธิบายสิ่งที่มองเห็น และถามคำถามเกี่ยวกับภาพนั้นได้

ทำไมต้อง Pi-card?

  • เป็นตัวย่อของ Raspberry Pi - C amera A udio R ecognition D evice
  • มีการขอให้ส่ง issue หรือ pull request หากคุณคิดตัวย่อที่ดีกว่านี้ได้

ทำงานอย่างไร?

  • Pi-card ทำงานทั้งหมดบน Raspberry Pi
  • เมื่อรันโปรแกรมหลัก ระบบจะเริ่มฟัง wake word
  • เมื่อพูด wake word การสนทนาจะเริ่มขึ้น และระหว่างการสนทนาไม่จำเป็นต้องพูด wake word ซ้ำตลอดเวลา
  • ระบบจะฟังคำสั่งต่อไปเรื่อย ๆ จนกว่าคุณจะพูดคำอย่างเช่น "หยุด", "ออก", "ลาก่อน"
  • ระหว่างการสนทนา ระบบจะคงบริบทความจำไว้ จึงสามารถย้อนกลับไปยังหัวข้อก่อนหน้าหรืออธิบายเพิ่มเติมได้
  • ระบบถูกออกแบบมาให้ทำงานแบบ local ทั้งหมด แต่ก็สามารถเชื่อมต่อ API หรือบริการภายนอกเพื่อเสริมการสนทนาหรือควบคุมอุปกรณ์ภายนอกได้
  • ตัวอย่างเช่น หากพูดว่า "ถ่ายรูป" หรือ "เห็นอะไรบ้าง" กล้องจะถูกเปิดใช้งาน

มีประโยชน์แค่ไหน?

  • ระบบนี้ถูกออกแบบมาเป็นโปรเจ็กต์สนุก ๆ และเป็นผู้ช่วย AI ที่มีประโยชน์ได้ในระดับหนึ่ง
  • เนื่องจากทุกอย่างประมวลผลแบบ local จึงอาจไม่เร็วหรือมีความสามารถเท่าระบบบนคลาวด์
  • อย่างไรก็ตาม ยังมีพื้นที่ให้พัฒนาได้อีกมาก

ทำไมไม่ทำเป็นแอป?

  • ต้องการสร้างผู้ช่วยเสียงที่ทำงานออฟไลน์ได้อย่างสมบูรณ์และไม่ต้องใช้อินเทอร์เน็ต
  • เพื่อปกป้องความเป็นส่วนตัวของผู้ใช้และไม่ให้ข้อมูลของผู้ใช้ถูกส่งไปยังเซิร์ฟเวอร์ของบุคคลที่สาม

วิธีใช้งาน

  • หลังจากดาวน์โหลดที่เก็บโค้ด ติดตั้งข้อกำหนดต่าง ๆ และทำตามคำแนะนำการตั้งค่าอื่น ๆ แล้ว คุณสามารถรันโปรแกรมหลักด้วยคำสั่งต่อไปนี้:
    python assistant.py
    
  • เมื่อโปรแกรมเริ่มทำงาน คุณสามารถพูด wake word เพื่อเริ่มสนทนากับผู้ช่วยได้
  • wake word เริ่มต้นคือ "hey assistant" แต่สามารถเปลี่ยนได้ในไฟล์ config.py

ฮาร์ดแวร์

  • Raspberry Pi 5 Model B
  • ไมโครโฟน USB
  • ลำโพง
  • กล้อง

การตั้งค่า

ซอฟต์แวร์

  • เพื่อให้ระบบเร็วและเบาที่สุด จึงใช้ implementation แบบ cpp สำหรับการถอดเสียงและ vision language model
  • การถอดเสียงใช้ไลบรารี whipser.cpp และ vision language model ใช้ไลบรารี llama.cpp
  • คุณต้อง clone แต่ละ repository ไปยังตำแหน่งที่ต้องการ และเพิ่มพาธลงในไฟล์ config.py
  • หลังจาก clone แล้ว ให้เข้าไปยังแต่ละ repository และทำตามคำแนะนำการตั้งค่าเพื่อรันโมเดล

ฮาร์ดแวร์

  • การตั้งค่าฮาร์ดแวร์นั้นง่ายมาก
  • คุณต้องมี Raspberry Pi 5 Model B, ไมโครโฟน USB, ลำโพง และกล้อง
  • ไมโครโฟน USB และลำโพงสามารถเชื่อมต่อเข้ากับพอร์ต USB ของ Raspberry Pi ได้
  • กล้องสามารถเชื่อมต่อเข้ากับพอร์ตกล้องของ Raspberry Pi ได้
  • ฮาร์ดแวร์ที่ใช้:
    • ชุด Raspberry Pi 5
    • ไมโครโฟน USB
    • ลำโพง
    • กล้อง
    • ตัวเชื่อมต่อกล้อง
  • Pi 5 ใช้พอร์ตกล้องแบบใหม่ จึงต้องใช้ตัวเชื่อมต่อกล้องแบบใหม่

ความเห็นจาก GN⁺

  • Pi-card เป็นโปรเจ็กต์ที่น่าสนใจซึ่งใช้ Raspberry Pi เพื่อสำรวจความเป็นไปได้ที่หลากหลายผ่านการผสาน AI กับฮาร์ดแวร์
  • เนื่องจากทำงานแบบออฟไลน์ทั้งหมด จึงมีข้อได้เปรียบอย่างมากในด้านการคุ้มครองความเป็นส่วนตัว
  • แม้อาจมีประสิทธิภาพด้อยกว่าระบบบนคลาวด์ แต่การรันแบบ local ช่วยเสริมความปลอดภัยของข้อมูล
  • โปรเจ็กต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ Mycroft AI และ Jasper
  • เมื่อนำเทคโนโลยีนี้ไปใช้ การตั้งค่าฮาร์ดแวร์และซอฟต์แวร์อาจค่อนข้างซับซ้อน จึงควรเตรียมตัวล่วงหน้าให้เพียงพอ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น