วิธีสร้างเอเจนต์เสียงด้วยตัวเองให้มีเวลาแฝงต่ำกว่า 500ms

(ntik.me)

12 คะแนน โดย GN⁺ 2026-03-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำกรณีศึกษาการพัฒนา เอเจนต์เสียงแบบสร้างเองที่ลดเวลาแฝงของระบบ AI แบบเสียงลงมาอยู่ราว 400ms
เชื่อมต่อ STT, LLM และ TTS เป็นไปป์ไลน์แบบเรียลไทม์ เพื่อให้ตอบสนองได้เร็วกว่าแพลตฟอร์มเชิงพาณิชย์เดิม (เช่น Vapi) ถึง 2 เท่า
ใช้ Deepgram Flux จัดการการตรวจจับการพูดและการสลับเทิร์น และใช้โมเดล llama-3.3-70b ของ Groq เพื่อลดเวลาในการสร้างโทเค็นแรกลงอย่างมาก
ลดเวลาแฝงลงเหลือน้อยกว่าครึ่งเมื่อดีพลอยในภูมิภาค EU ด้วย การจัดวางเชิงภูมิศาสตร์และการปรับแต่งเครือข่าย
หัวใจสำคัญของเอเจนต์เสียงคือ การ orchestration แบบเรียลไทม์และการออกแบบไปป์ไลน์ และเมื่อสร้างเองจะมองเห็นคอขวดด้านประสิทธิภาพได้ชัดเจน

พื้นหลังของการสร้างเอเจนต์เสียง

จากประสบการณ์พัฒนา ต้นแบบเอเจนต์เสียงสำหรับบริษัทยักษ์ใหญ่ด้านสินค้าอุปโภคบริโภค จึงลองสร้างเองเพื่อจัดการความซับซ้อนของแพลตฟอร์มเชิงพาณิชย์โดยตรง
แพลตฟอร์มอย่าง ElevenLabs และ Vapi สะดวกก็จริง แต่เข้าใจการทำงานภายในได้ยาก และ ควบคุมเวลาแฝงอย่างละเอียดไม่ได้
เป้าหมายคือ สร้างสมรรถนะระดับเดียวกับ Vapi ด้วยตัวเอง ซึ่งทำได้ภายในหนึ่งวันและใช้งบ API credit ราว 100 ดอลลาร์

ความซับซ้อนของเอเจนต์เสียง

ต่างจากแชตบอตแบบข้อความ เสียงต้องมี การจัดการการสลับเทิร์น (turn-taking) แบบเรียลไทม์
ทันทีที่ผู้ใช้เริ่มพูด ระบบต้องหยุดการพูดของตัวเองทันที และเมื่อผู้ใช้หยุดแล้วก็ต้องเริ่มตอบกลับอย่างรวดเร็ว
การตรวจจับเสียงพูดแบบง่าย ๆ (VAD) เพียงอย่างเดียวตัดสินจุดจบของการพูดได้ไม่แม่นยำ ทำให้เกิด เวลาแฝง การพูดทับกัน และความเงียบที่ไม่จำเป็น

การทำเวอร์ชันแรก: ทดสอบบนพื้นฐาน VAD

ใช้ เซิร์ฟเวอร์ FastAPI และ Twilio WebSocket เพื่อรับสตรีมเสียงแบบ μ-law
ใช้ Silero VAD ตรวจว่ามีเสียงพูดหรือไม่ และเมื่อการพูดจบก็เล่นไฟล์ WAV ที่บันทึกไว้ล่วงหน้า
แม้จะเรียบง่าย แต่ก็ยืนยันได้ถึง การตอบสนองฉับไวและการไหลของบทสนทนาที่เป็นธรรมชาติ
ขั้นตอนนี้ช่วยให้มีเกณฑ์สำหรับวัด ขีดล่างของเวลาแฝง

การทำเวอร์ชันที่สอง: Deepgram Flux และไปป์ไลน์แบบเรียลไทม์

นำ Deepgram Flux มาใช้เพื่อรวมการถอดเสียงแบบสตรีมและการตรวจจับเทิร์นเข้าด้วยกัน
เมื่อ Flux ตรวจพบว่าการพูดจบแล้ว จะประมวลผลตามลำดับถัดไป
- ส่งผลการถอดเสียงและประวัติการสนทนาไปยัง LLM
- ทันทีที่โทเค็นแรกถูกสร้างขึ้น ก็สตรีมไปยัง TTS (WebSocket)
- ส่งเสียงที่สร้างแล้วไปยัง Twilio แบบเรียลไทม์
ทำ การคงการเชื่อมต่อ TTS ไว้ล่วงหน้า (warm pool) เพื่อลดเวลาแฝงได้ราว 300ms
เมื่อผู้ใช้เริ่มพูด จะ ยกเลิก LLM, TTS และการส่งเสียงทันที เพื่อให้รองรับการขัดจังหวะแบบเป็นธรรมชาติ

การวัดเวลาแฝงและการดีพลอยตามภูมิภาค

เมื่อรันแบบโลคัลจากตุรกี พบ เวลาแฝงเฉลี่ย 1.6~1.7 วินาที
เมื่อนำไปดีพลอยบน Railway EU region และตั้งค่า Twilio, Deepgram และ ElevenLabs ให้ใช้ EU region เช่นกัน
- เวลาแฝงลดลงเหลือเฉลี่ย 690ms (รวม 790ms) เร็วกว่า Vapi ราว 50ms
เมื่อเวลาแฝงลดลง ความไวในการตอบสนองของบทสนทนาดีขึ้นมาก และการจัดการการขัดจังหวะก็ลื่นไหลขึ้น

การเลือกโมเดลและการเพิ่มประสิทธิภาพ

ช่วงแรกใช้ gpt-4o-mini ก่อน แล้วจึงเปลี่ยนเป็น Groq llama-3.3-70b
ผลทดสอบแสดงว่า เวลาในการสร้างโทเค็นแรก (TTFT) ของโมเดล Groq เร็วกว่า OpenAI ได้สูงสุด 3 เท่า
ทำได้ถึง เวลาแฝงแบบ end-to-end เฉลี่ยต่ำกว่า 400ms และเสียงแรกมาถึงภายใน 500ms
ในระดับนี้ให้ความรู้สึกว่า เอเจนต์ตอบสนองได้เร็วกว่ามนุษย์เสียอีก

บทเรียนทางเทคนิคที่สำคัญ

การปรับเวลาแฝงให้เหมาะสม ต้องจัดการเส้นทางทั้งหมดตั้งแต่จบการพูดจนถึงเสียงตอบกลับแรก
เนื่องจาก TTFT กินสัดส่วนมากกว่าครึ่งของเวลาแฝงทั้งหมด การเลือกโมเดลที่มี latency ต่ำจึงสำคัญมาก
ต้อง ทำ STT→LLM→TTS ให้เป็นไปป์ไลน์แบบสตรีม แทนการประมวลผลแบบลำดับขั้น
ต้อง ยกเลิกทุกองค์ประกอบทันทีเมื่อมีการขัดจังหวะระหว่างพูด เพื่อรักษาความเป็นธรรมชาติของบทสนทนา
ความใกล้กันทางภูมิศาสตร์ระหว่างบริการ ส่งผลต่อเวลาแฝงอย่างชี้ขาด

การเปรียบเทียบกับแพลตฟอร์มเชิงพาณิชย์

Vapi และ ElevenLabs ยังมีประโยชน์สำหรับทีมส่วนใหญ่ เพราะมี API, ความเสถียร, observability และฟีเจอร์เสริมอื่น ๆ
แต่การสร้างเองช่วยให้ เข้าใจคอขวดจริงและความหมายของพารามิเตอร์ต่าง ๆ ได้ และยัง
ทำ orchestration แบบปรับแต่งเฉพาะความต้องการได้
ในท้ายที่สุด ระบบเสียงคือ ปัญหาของ orchestration และหากมองโครงสร้างให้ชัด ก็เป็นโจทย์วิศวกรรมที่แก้ได้

ซอร์สโค้ด

โค้ดทั้งหมดเปิดเผยบน GitHub: github.com/NickTikhonov/shuo

1 ความคิดเห็น

GN⁺ 2026-03-03

ความคิดเห็นจาก Hacker News

บทความนี้น่าสนใจมาก ก่อนหน้านี้ทีม Amazon Alexa เคยวิจัยปัญหานี้และมีสิทธิบัตรที่เกี่ยวข้องด้วย
ระหว่างการสนทนา ความหน่วงเฉลี่ยระหว่างคนอยู่ที่ 0ms กล่าวคือก่อนที่อีกฝ่ายจะพูดจบ คนถัดไปก็เริ่มพูดแล้ว เพราะสมองคาดเดาคำพูดของอีกฝ่ายและเตรียมคำตอบไปพร้อมกัน
ในทางกลับกัน ผู้คนกลับคาดหวังว่าผู้ช่วยเสียงจะมีความหน่วง เหตุผลมีสองอย่าง — การรับรู้ว่าคอมพิวเตอร์ต้อง “คิด” และ ความหน่วงของการโทรศัพท์มือถือ
ในบรรดาคำตอบของ Alexa แทบไม่มีอันไหนที่ต่ำกว่า 500ms เลย ในอดีตเคยนับแค่ความเงียบ 300ms ว่าเป็น “จบเทิร์น” แต่หัวใจสำคัญจริง ๆ คือ semantic end-of-turn
ตอนนี้ทรัพยากรการคำนวณมีเพียงพอแล้ว เลยสงสัยว่าส่วนนี้พัฒนาไปได้ไกลแค่ไหน การประมวลผลใกล้ตำแหน่งผู้ใช้ทางภูมิศาสตร์ (edge computing) เป็นจุดเปลี่ยนสำคัญมาก
- ความหน่วงของการโทรศัพท์มือถือสร้างความเครียดโดยเฉพาะกับ ผู้สูงอายุ เพราะในยุคโทรศัพท์บ้านแทบไม่มีความหน่วงเลย จึงรู้สึกหงุดหงิดแม้จะไม่รู้ว่าทำไม
- ผมไม่เห็นด้วยกับข้อที่ 2 เวลาแฝง (latency) ของผู้ช่วยเสียงก็ยังช้าเกินไปอยู่ดี จนต้องรอว่า “มันทำงานหรือยัง?” ผมไม่คิดว่าความหน่วงของโทรศัพท์มือถือจะกลายเป็นสิ่งที่คนคาดหวังกับอุปกรณ์อื่นด้วย
- การมองว่าความเงียบ 300ms คือจบเทิร์นนั้นใช้งานลำบากมาก เลยต้องจงใจใส่ คำเติม (filler) อย่าง “อืม...” ลงไป และสุดท้ายก็เลิกใช้แชตเสียงไปเลย
- ขอบคุณที่แชร์เรื่องน่าสนใจนี้ แต่ก็สงสัยว่าทำไม Amazon/Google/Apple ถึงหยุดนวัตกรรมด้านผู้ช่วยเสียงไปในช่วงไม่กี่ปีที่ผ่านมา ทั้งที่แค่ฐานผู้ใช้เดิมก็น่าจะนิยามตลาดใหม่ได้แล้ว
- ดูเหมือนว่ากำลังพูดถึงสถาปัตยกรรมที่ให้ LLM รับช่วงคำพูดของผู้ใช้แบบคาดการณ์ล่วงหน้า ถ้าพอผู้ใช้พูดจบจริงแล้วตรงกับที่คาดไว้ ก็จะตอบได้ทันทีโดยไม่มีความหน่วง น่าจะทำแบบทำนายหลาย candidate thread พร้อมกันแล้วค่อยตัดกิ่งทิ้งได้ด้วย
ผมคิดว่าเรื่องเสียงสุดท้ายก็เป็นปัญหาเรื่อง turn-taking มีจุดปรับปรุงง่าย ๆ ที่ยังไม่มีใครแตะ นั่นคือ คำเติมและการควบคุมจังหวะ
ถ้า LLM ตรวจจับได้ว่าเงียบไปชั่วครู่ ก็อาจใส่คำเติมที่เข้ากับบริบทอย่าง “อืม”, “ใช่ครับ” ระหว่างที่กำลังสร้างคำตอบจริง วิธีนี้จะทำให้บทสนทนาฟังเป็นธรรมชาติมากขึ้น
- เห็นด้วยเต็มที่ ถ้าใช้ โมเดลความหน่วงต่ำ ตัวเล็กสร้างคำตอบสั้น ๆ ก่อน แล้ว cache ผลลัพธ์ TTS ไว้ ก็ลดความหน่วงได้อย่างมาก ประโยคอย่าง “ขอสักครู่นะ กำลังคิดอยู่” สามารถตอบได้ในระดับมิลลิวินาที
- แต่อาจไม่ใช่ “การปรับปรุงง่าย ๆ” ก็ได้ การทำให้ระบบที่ฟังดูเหมือนหุ่นยนต์มีความเป็นมนุษย์นั้นยาก และแค่เปลี่ยนโครงสร้างประโยคก็อาจยิ่งทำให้ฟังดู เป็นเครื่องจักร มากขึ้น ผมเคยลองเองแล้วแต่ไม่สำเร็จ
- ที่เกี่ยวข้องกัน มีบล็อกของ LiveKit “Prompting Voice Agents to Sound More Realistic” ที่น่าสนใจ
- ถ้าระบบสามารถ คาดเดาคำตอบ ได้ก่อนที่ผู้ใช้จะพูดจบ มันจะฟังเป็นธรรมชาติมากขึ้นมาก
- เวลาตรวจจับว่าจบเทิร์นผิด ก็อาจใช้ filler ระดับ หน่วยเสียง เพื่อเชื่อมให้ลื่นไหลได้ ในทางกลับกัน ถ้าตรวจจับช้าเกินไป ก็อาจกำหนดพยางค์แรกไว้ล่วงหน้าแล้วใส่ไว้ในพรอมป์ต์เพื่อให้เริ่มตอบจากตรงนั้นได้
เป็นบทความที่ยอดเยี่ยม OpenAI Responses client เพิ่งรองรับเว็บซ็อกเก็ตเมื่อไม่นานนี้ ทำให้ความหน่วงลดลง
อีกวิธีหนึ่งคือรัน LLM ขนาดจิ๋ว บนเครื่องแบบโลคัลโดยตรง ผมสร้าง pipeline แบบโลคัลทั้งหมดผ่าน โปรเจกต์ ova และได้เวลาไป-กลับต่ำกว่า 1 วินาทีแม้ไม่มีการสตรีม
- โปรเจกต์เจ๋งมาก เลยเพิ่มไว้ในบุ๊กมาร์กแล้ว ไว้วันหลังอยากคุยแลกเปลี่ยนประสบการณ์กัน
โครงสร้าง streaming pipeline และการวิเคราะห์ความหน่วงรายขั้นตอนในบทความมีประโยชน์มาก น่าประทับใจที่ลงมือทำ turn-taking loop เอง
แต่การเปรียบเทียบว่า “เร็วกว่า Vapi 2 เท่า” อาจไม่ค่อยแม่นนัก เพราะ Vapi ทำงานมากกว่านั้นเยอะ ทั้ง tool calling, webhook, multi-tenant routing
คุณค่าที่แท้จริงของบทความนี้อยู่ที่ ‘อินไซต์จาก orchestration loop ที่สร้างเอง’ ถ้าสรุปว่าเป็นแค่ “สิ่งที่ได้เรียนรู้จากการลงมือสร้างเอง” จะสมบูรณ์แบบมาก
ผมเองก็กำลังสร้างเอเจนต์เสียงเชิงพาณิชย์ด้วยชุด Twilio + Deepgram + ElevenLabs + LLM API
หัวใจสำคัญไม่ใช่ความแม่นยำของ STT แต่เป็น UX ของ turn-taking พอเปลี่ยนจากค่าเกณฑ์ความเงียบคงที่ไปเป็น semantic end-of-turn ความรู้สึกตอนใช้งานเปลี่ยนไปอย่างสิ้นเชิง
ความหน่วงข้ามภูมิภาคก็สำคัญ ตอนเชื่อมจากอินเดียไปยังเซิร์ฟเวอร์ในสหรัฐฯ แค่ Twilio edge hop ก็เพิ่มมา 150~250ms แล้ว ผมแก้ดีขึ้นได้ด้วยการทำ routing ตามภูมิภาค
การจัดการ Barge-in (การขัดจังหวะแทรกกลาง) ก็ซับซ้อน ไม่ใช่แค่หยุด LLM กับ TTS แต่ต้องย้อนกลับ workflow อัตโนมัติ ที่รันไปแล้วด้วย ก่อนหน้านี้เคยมีบั๊กที่ถ้าผู้ใช้ขัดขึ้นมาระหว่างยืนยันการจอง ระบบจะจองเสร็จจริงไปเลย
Soniox Real-time (รองรับ 60 ภาษา) จัดการ endpoint detection ที่ระดับโมเดล ซึ่งแม่นยำกว่า VAD มาก
ดูได้ที่ เอกสารเทคนิค, benchmark ของ Daily, หน้าเดโม
ผมเคยทำงานที่ Soniox มาก่อน เป็นบริการแรกที่ทำ real-time endpoint detection ได้
- ดูจากต้นฉบับแล้วใช้ Deepgram Flux ซึ่งตัวนี้ก็รองรับ endpointing และเป็น abstraction layer ที่สูงกว่า VAD
- ตอนนี้ผมใช้งาน Soniox อยู่ เลยอยากรู้ว่าการทำงานข้างในเป็นอย่างไรบ้าง และอะไรคือเคล็ดลับที่ทำให้ทำผลงานระดับ SoTA ได้ใน ราคาถูกกว่า คู่แข่ง
โดยส่วนตัวผมมองว่าโครงสร้าง STT → LLM → TTS มีข้อจำกัด อนาคตคือ โมเดลเสียงแบบ end-to-end
เมื่อ 2 ปีก่อนผมเคยทำ เดโม Chirpy แต่ถ้าจะให้ไปถึงระดับที่ใช้งานได้จริงจำเป็นต้องมีการฝึกเฉพาะทาง ซึ่งแบกรับไม่ไหวสำหรับโปรเจกต์ส่วนตัว
- ถ้ามองจากมุมนั้น งานวิจัย PersonaPlex ของ NVIDIA ก็น่าสนใจ: https://research.nvidia.com/labs/adlr/personaplex/
- ผมทำงานกับเอเจนต์เสียงมาโดยตลอดในช่วงไม่กี่ปีที่ผ่านมา และ โมเดลแบบ cascading คงยังไม่หายไปในเร็ว ๆ นี้
  ลูกค้าองค์กรให้ความสำคัญกับ auditability และ ความน่าเชื่อถือ ในอุตสาหกรรมที่มีการกำกับดูแลอย่างการแพทย์หรือการเงิน จำเป็นต้องตรวจสอบผลลัพธ์ของ STT และ LLM แยกกัน
  ในทางกลับกัน โมเดลเสียงแบบ end-to-end เหมาะกับงานเชิงบรรยายอย่างการสัมภาษณ์หรือแบบสอบถามมากกว่า ลูกค้าจริงต้องการ ความสมบูรณ์ของงานวิศวกรรม มากกว่าโมเดลล่าสุด
- โดยพื้นฐานแล้ว โมเดลควรมี “ความสามารถในการคาดเดาว่าเมื่อไรถึงตาของฉัน” ฝังอยู่ในตัว โหมด full-duplex ของ Moshi แสดงทิศทางนั้นได้ดี: https://arxiv.org/abs/2410.00037
- ข้อดีของโครงสร้างแบบ cascading คือสามารถ เปลี่ยนโมเดลใหม่ทีละขั้น ได้ เพราะความก้าวหน้าของ STT, TTS และ LLM เกิดขึ้นคนละความเร็ว จึงยืดหยุ่นมาก
- ตัว tokenizer เสียงรุ่นใหม่ล่าสุดไปได้ถึงราว 12Hz ต่อวินาทีแล้ว ใช้โทเคนมากกว่า LLM ทั่วไปมาก
วิธีการครั้งนี้ทำให้นึกถึงพัฒนาการช่วงแรกของ netcode ใน game engine ความหน่วงไม่ใช่ปัญหาของโมเดล แต่เป็น ปัญหาของ orchestration
ใน งานวิจัย VR ปี 2013 ของ Carmack ก็พูดคล้ายกัน — ต้องไล่ดูทั้ง pipeline ถึงจะหา bottleneck ระดับมิลลิวินาทีเจอ
Latency Mitigation Strategies ก็น่าอ่าน ตัวอย่างการเปิด TTS websocket pool ไว้ล่วงหน้าเพื่อประหยัด 300ms เป็นกรณีศึกษาที่สมบูรณ์แบบ
อยากแนะนำแอปจดจำเสียงโอเพนซอร์ส Handy ซึ่งทำงานแบบ ออฟไลน์ทั้งหมด และขยายต่อได้
ผมใช้ร่วมกับ Claude ทุกวัน และมันทำงานได้ดีกว่าการป้อนตามคำบอกพื้นฐานของ macOS มาก
เป็นบทความที่ดี แต่การอธิบายบทสนทนาด้วย turn-taking อย่างเดียว นั้นง่ายเกินไป
ในการสนทนาจริงยังมีทั้ง การพูดทับกัน, สัญญาณยืนยัน, คำพูดเพื่อคงการรับฟัง (phatic messages) และแม้แต่พฤติกรรมร่วมมืออย่างการ พูดเติมคำให้คู่สนทนา
องค์ประกอบเหล่านี้อธิบายได้ไม่ดีด้วยโมเดล turn-taking แบบง่าย ๆ และโมเดลควรต้องทั้งสร้างและเข้าใจสิ่งเหล่านี้ได้

วิธีสร้างเอเจนต์เสียงด้วยตัวเองให้มีเวลาแฝงต่ำกว่า 500ms

พื้นหลังของการสร้างเอเจนต์เสียง

ความซับซ้อนของเอเจนต์เสียง

การทำเวอร์ชันแรก: ทดสอบบนพื้นฐาน VAD

การทำเวอร์ชันที่สอง: Deepgram Flux และไปป์ไลน์แบบเรียลไทม์

การวัดเวลาแฝงและการดีพลอยตามภูมิภาค

การเลือกโมเดลและการเพิ่มประสิทธิภาพ

บทเรียนทางเทคนิคที่สำคัญ

การเปรียบเทียบกับแพลตฟอร์มเชิงพาณิชย์

ซอร์สโค้ด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News