2 คะแนน โดย GN⁺ 2023-11-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความแนะนำเครื่องมือ AI ชื่อ 'Talk-Llama' ที่ช่วยให้ผู้ใช้สนทนากับ AI ได้ผ่านเทอร์มินัล
  • เครื่องมือนี้ใช้โมเดล Whisper Medium และ LLaMA v2 13B Q8_0 พร้อมอัปเดตประสิทธิภาพล่าสุด ณ วันที่ 2 พฤศจิกายน 2023
  • Talk-Llama พึ่งพาไลบรารี SDL2 เพื่อจับเสียงจากไมโครโฟน
  • มีคำแนะนำการติดตั้ง SDL2 รวมถึงวิธีบิลด์และรันไฟล์ปฏิบัติการ 'talk-llama' บน Linux และ Mac OS
  • ผู้ใช้สามารถระบุโมเดล Whisper และ LLaMA ที่ต้องการใช้ได้ผ่านอาร์กิวเมนต์ -mw และ -ml
  • รองรับเครื่องมือจัดการเซสชัน เพื่อคงบริบทของการโต้ตอบก่อนหน้าและทำให้บทสนทนาต่อเนื่องมีความสอดคล้องมากขึ้น
  • ผู้ใช้สามารถเปิดใช้งานการรองรับเซสชันได้ด้วยตัวเลือกบรรทัดคำสั่ง --session FILE โดยจะบันทึกสถานะของโมเดลหลังการโต้ตอบแต่ละครั้งและกลับมาใช้เซสชันก่อนหน้าได้
  • เพื่อประสบการณ์ที่ดีที่สุด แนะนำให้ใช้เครื่องมือ Text-to-Speech (TTS) เพื่อแปลงข้อความตอบกลับที่สร้างขึ้นให้เป็นเสียงพูด
  • ผู้ใช้สามารถใช้เอนจิน TTS ที่ต้องการ และแก้ไขสคริปต์ 'speak' ได้ตามต้องการ
  • เครื่องมือนี้เปิดรับข้อเสนอแนะ และสนับสนุนให้ผู้ใช้เข้าร่วมการพูดคุยอย่างต่อเนื่อง

1 ความคิดเห็น

 
GN⁺ 2023-11-03
ความคิดเห็นจาก Hacker News
  • ประสิทธิภาพบน Apple Silicon ดีขึ้นมาก หลังจากที่สามารถรัน whisper.cpp ได้เต็มรูปแบบและความเร็วในการสร้างของ llama.cpp เพิ่มขึ้นอย่างมาก
  • มีการแสดงให้เห็นว่า Llama สามารถผสานรวมกับโมเดล TTS โอเพนซอร์สสำหรับโปรเจ็กต์ได้สำเร็จ ซึ่งเน้นย้ำถึงความยืดหยุ่นของมัน
  • เครื่องมือคู่หูสำหรับการเขียนโค้ดที่ช่วยลดงานจุกจิกแบบแมนนวล โดยไม่พยายามแก้ปัญหาที่ซับซ้อนเกินไป ถูกมองว่ามีประโยชน์ที่สุด
  • มีการเสนอแนวคิดของเครื่องมือที่ฝังเสียงพูดลงใน context vector ว่าเป็นแนวคิดที่ล้ำอนาคตและอาจมีประโยชน์
  • มีรายงานปัญหา "floating point exception" เมื่อรัน talk-llama บน arch และ debian ซึ่งบ่งชี้ว่าอาจมีปัญหาด้านความเข้ากันได้
  • มีข้อเสนอให้ลดความหน่วงโดยสตรีมโทเค็นเป็นกลุ่มละประมาณ 6 โทเค็นไปยัง TTS ก่อนที่การตอบกลับจาก LLM จะเริ่มต้นเสร็จสมบูรณ์
  • มีความกังวลว่าหากข้อเสนอ open weights เกิดขึ้นจริง เทคโนโลยีนี้อาจถูกสั่งห้ามได้
  • มีการพูดถึงความเป็นไปได้ของโซลูชัน text-to-talk ที่สามารถรับ text stream ได้ ซึ่งจะช่วยให้ไม่ต้องรอให้ llama สร้างข้อความเสร็จก่อนจึงค่อยพูดคำตอบ
  • มีการตั้งคำถามเกี่ยวกับแชตอินเทอร์เฟซที่เหมาะที่สุดสำหรับ llama และมีความต้องการจะรันโมเดลตัวใดตัวหนึ่งในเทอร์มินัลสำหรับงานเขียนโค้ดแบบรวดเร็ว
  • มีการชี้ว่าเสียงของ Elevenlabs มีราคาแพง และบทสนทนาเพียงครั้งเดียวอาจมีค่าใช้จ่ายถึง $20
  • มีคำถามว่าอะไรคือสิ่งที่เทียบเท่ากับ ollama สำหรับโมเดล whisper/SOTA OS tts และต้องการการตั้งค่าที่เรียบง่ายสำหรับการรัน whisper แบบโลคัล
  • มีการขอคำอธิบายเป็นภาษาอังกฤษแบบเข้าใจง่ายเกี่ยวกับความสามารถของเทคโนโลยีนี้ โดยเฉพาะว่าสามารถเรียนรู้และคงบริบทของแชต รวมถึงสร้างความทรงจำระยะยาวได้หรือไม่