- Eleven v3 (Alpha) คือ โมเดลแปลงข้อความเป็นเสียง (TTS) ที่ถ่ายทอดอารมณ์ได้สมจริงที่สุดเท่าที่เคยมีมา พร้อม ควบคุมอารมณ์และเอฟเฟกต์เสียงได้อย่างละเอียด
- สามารถใช้ Audio Tags เพื่อ ผสมผสานองค์ประกอบเสียง ได้อย่างอิสระ ไม่ว่าจะเป็นอารมณ์ น้ำเสียง ทิศทางการพูด และเอฟเฟกต์ต่างๆ
- รองรับการสร้าง เสียงสนทนาที่เป็นธรรมชาติจากผู้พูดหลายคน และให้เสียงใกล้เคียงมนุษย์ใน มากกว่า 70 ภาษา
- เมื่อเทียบกับ v2 มีการ ขยายขอบเขตของอารมณ์เสียงและการใส่เอฟเฟกต์อย่างมาก และ ผู้ใช้ UI จะได้รับส่วนลด 80% จนถึงสิ้นเดือนมิถุนายน 2025
- การรองรับ API จะเปิดให้ใช้งานเร็วๆ นี้ และสามารถดูแท็กเสียงและแท็กตามสถานการณ์ต่างๆ ได้ใน คู่มือการเขียนพรอมป์ต์
ภาพรวมของ Eleven v3
- Eleven v3 (alpha) คือ โมเดล Text to Speech (TTS) รุ่นถัดไป ที่แตกต่างจากเวอร์ชันก่อนหน้า ด้วยความสามารถในการ แสดงอารมณ์และสร้างเสียงที่ชวนดื่มด่ำ
- โมเดลนี้จะแปลงข้อความที่ป้อนเข้าไปเป็นเสียง โดยถ่ายทอด อารมณ์ น้ำเสียงสูงต่ำ และจังหวะ ในลักษณะที่คล้ายกับมนุษย์อ่านจริง
- ผู้ใช้สามารถใช้ Audio Tags เพื่อควบคุม อารมณ์เสียง ลักษณะการพูด เอฟเฟกต์เสียง และเสียงพื้นหลัง ได้อย่างละเอียด
- ด้วยการแทรก แท็กอารมณ์ เอฟเฟกต์ และการกำกับการแสดง ลงในข้อความ จึงสามารถสร้าง งานเสียงที่มีมิติมากกว่าการบรรยายแบบธรรมดา ช่วยเพิ่มความสมจริงและความดื่มด่ำได้อย่างมาก
การสร้างบทสนทนาจากผู้พูดหลายคน
- รองรับการสร้างเสียงสนทนาที่มี ผู้พูดหลายคนแบ่งปันบริบทและอารมณ์ร่วมกันอย่างเป็นธรรมชาติ
- สามารถสะท้อน prosody (ท่วงทำนองการพูด), อารมณ์ และแท็ก ของผู้พูดแต่ละคนได้ ทำให้ได้ เสียงสังเคราะห์ที่ใกล้เคียงมนุษย์
การรองรับเสียงหลายภาษา
- รองรับอย่างเป็นทางการมากกว่า 70 ภาษา เช่น Afrikaans, Arabic, German, Chinese, Korean
- สามารถเลียนแบบ น้ำเสียง การออกเสียง และสำเนียงที่เป็นเอกลักษณ์ ของแต่ละภาษาได้อย่างเป็นธรรมชาติ
- เหมาะกับการใช้งานในหลากหลายด้าน เช่น บริการข้ามชาติ คอนเทนต์การศึกษา และโครงการด้านการเข้าถึงระดับโลก
ความแตกต่างหลักระหว่าง v3 กับ v2
- Dialogue Mode: รองรับบทสนทนาหลายผู้พูด
- รองรับ Audio Tags: ใช้แท็กเสียงได้หลากหลาย เช่น อารมณ์ การกำกับ และเอฟเฟกต์
- ขอบเขตของอารมณ์และเอฟเฟกต์: v2 รองรับแท็กพื้นฐาน เช่น การหยุดชั่วคราว ส่วน v3 รองรับ อารมณ์ที่หลากหลายและเอฟเฟกต์เสียงที่สมบูรณ์ยิ่งขึ้น
- ภาษา: v3 รองรับ 70+ ภาษา ส่วน v2 รองรับ 29 ภาษา
- Afrikaans, Arabic, Armenian, Assamese, Azerbaijani, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Croatian, Czech, Danish, Dutch, English, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Hausa, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Kyrgyz, Korean, Latvian, Lingala, Lithuanian, Luxembourgish, Macedonian, Malay, Malayalam, Mandarin Chinese, Marathi, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Serbian, Sindhi, Slovak, Slovenian, Somali, Spanish, Swahili, Swedish, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Vietnamese, Welsh เป็นต้น
คุณภาพเสียงและประสบการณ์ผู้ใช้
- สามารถสร้างไฟล์เสียงที่มี สัญญาณรบกวนน้อยและคุณภาพความละเอียดสูง ในการสังเคราะห์เสียง
- ปรับแต่งได้อย่างละเอียดทั้ง ความยาวของประโยค ความเปลี่ยนแปลงของนัยอารมณ์ และความเร็วในการพูด ทำให้สร้างเสียงแบบปรับแต่งเฉพาะได้ง่าย
- สามารถถ่ายทอด อารมณ์แบบไดนามิกและสไตล์การเปล่งเสียง ที่โซลูชัน TTS แบบเดิมทำได้ยาก
ความสามารถในการแข่งขันและการประยุกต์ใช้
- ครีเอเตอร์ นักพัฒนา และองค์กรธุรกิจ สามารถนำไปใช้กับหนังสือเสียง เกม โฆษณา และบริการเพื่อเพิ่มการเข้าถึงได้ทันที
- ด้วยโมเดลเดียวสามารถให้บริการแบบ หลายภาษาและหลายวัตถุประสงค์ ช่วยลดทั้งต้นทุนและเวลา
- แม้อยู่ในขั้น Open Alpha ก็มีคุณภาพและความหลากหลายของเสียงในระดับที่ พร้อมนำไปใช้กับบริการจริง แล้ว
ส่วนลดและการรองรับ API
- ผู้ใช้ UI สามารถใช้งาน v3 alpha ได้ในราคาลด 80% จนถึงสิ้นเดือนมิถุนายน 2025
- API จะเปิดให้ใช้งานเร็วๆ นี้
บทสรุป
- Eleven v3 คือโมเดลล่าสุดในสายเทคโนโลยี Text to Speech ที่เสริมความสามารถด้าน การถ่ายทอดอารมณ์ การรองรับหลายภาษา และการสร้างเสียงแบบปรับแต่งได้
- สามารถตอบสนองต่อความต้องการที่เพิ่มขึ้นของเทคโนโลยี การสร้างเสียงที่เป็นธรรมชาติ ได้อย่างมีประสิทธิภาพในหลากหลายอุตสาหกรรม
2 ความคิดเห็น
เป็นเวอร์ชันอัลฟา แต่ดีนะครับ..
ขอบคุณสำหรับข้อมูลดีๆ ครับ
ความคิดเห็นจาก Hacker News
ฉันไม่เห็นมีการพูดถึงการร้องเพลงในเอกสารหรือคู่มือพรอมป์ต์เลย เลยสงสัยว่าโมเดลนี้จริง ๆ แล้วร้องเพลงได้ด้วยหรือเปล่า
ลองเอาเนื้อเพลงธีม Friends ใส่ในเดโมเล่น ๆ แล้วผลลัพธ์ออกมาเป็นเสียงร้องพร้อมเสียงกีตาร์
ในการทดลองอีกครั้ง พอเพิ่มป้ายกำกับ [verse] กับ [chorus] ก็ร้องออกมาเป็นเวอร์ชันอะคาเปลลา
[1] กับ [2] ใส่แค่เนื้อเพลง ส่วน [3] ใส่แท็ก verse/chorus
ลองทดสอบกับเพลงดังอื่น ๆ ด้วย แต่ไม่รู้ทำไมถึงไม่ออกมาเป็นโหมดร้องเพลงที่เนียนแบบนี้
น่าทึ่งที่ผลลัพธ์ร้องเพลงได้ แต่กลับร้องได้แย่มาก จนยิ่งน่าสนใจเข้าไปอีก
ให้ความรู้สึกเหมือนคนที่ร้องเพลงไม่เป็นเลยกำลังร้องอยู่
เพราะผลลัพธ์ออกมาต่างจากเพลงเปิด Friends จริงพอสมควร เลยเดาว่าน่าจะไม่ใช่การ overfit กับแพตเทิร์นคุ้นหูที่มักอยู่ในชุดข้อมูลฝึก
ใน Mirage AI ทำคุณภาพการร้องเพลงได้ค่อนข้างดี
จำได้ว่าในเดโมของโมเดลก็มีตัวอย่างร้องเพลงรวมอยู่ด้วย
เลยเดาว่าฟังก์ชันนี้น่าจะถูกฝังมาในตัวระบบอยู่แล้ว
น่าสนใจตรงที่พอลองด้วยพรอมป์ต์ด้านล่าง โมเดลดูจะลำบากนิดหน่อยตรงช่วงท้ายคำว่า "purr"
ช่วงนี้ฉันใช้งานโมเดลใหม่ของ OpenAI บ่อยมาก (openai.fm)
วิธีแยกคำสั่งออกจากข้อความที่จะพูดนั้นค่อนข้างมีเอกลักษณ์ และดูเหมือนว่า OpenAI จะคุ้นกับแนวทางนี้มากกว่า เพราะใช้แนวคิดเรื่อง "instructions" อยู่ทั่วทั้งผลิตภัณฑ์มาตลอด จึงน่าจะชินกับการฝึกและสร้างข้อมูลในรูปแบบนี้
วิธีแยกคำสั่งอาจดูแปลกอยู่บ้าง แต่ข้อดีคือสามารถผสมคำสั่งทั่วไปกับคำสั่งเฉพาะสถานการณ์ได้ง่าย
เช่น จะใส่คำสั่งทั่วไปอย่าง "เสียงทุ้มลึกสำเนียงอังกฤษ" พร้อมกับคำสั่งเฉพาะว่าให้ลดเสียงลงเหมือนกระซิบและใส่อารมณ์น่ากลัวเล็กน้อยหลังคำว่า "but actually" ก็ได้
ผลลัพธ์ของ OpenAI ดูคาดเดายากกว่า Eleven Labs และให้ความรู้สึกคุณภาพระดับโปรดักชันน้อยกว่าเล็กน้อย
แต่ขอบเขตของ prosody นั้นกว้างกว่ามาก และบางทีก็ดูเหมือนพยายามมากเกินไป
ชนิดของเสียงก็ดูมีน้อยกว่า Eleven Labs และต่อให้สั่งหลายสไตล์ก็ยังให้ความรู้สึกคล้าย "คนเดียวกันกำลังเลียนเสียงอื่น"
แต่ข้อได้เปรียบแบบทิ้งห่างของ OpenAI คือราคาถูกกว่าราว 10 เท่า และคิดค่าบริการตามการใช้งานล้วน ๆ
(บริการ TTS ที่บังคับสมัครรายเดือนหรือซื้อเครดิตเพิ่มนั้นไม่มีประสิทธิภาพจริง ๆ)
เหตุผลที่ฉันไม่ใช้ ElevenLabs แล้วเลือกโซลูชันอื่นแม้คุณภาพจะด้อยกว่า ก็เพราะอยากจ่ายเท่าที่ใช้ แต่ไม่ชอบโครงสร้างแบบคิดเงินเป็นก้อนรายเดือน และถ้าใช้เกินก็ต้องซื้อเพิ่มเป็นก้อนใหญ่กว่าเดิม
สำหรับฉัน นโยบายราคานี้แย่มาก
ประโยคตัวอย่างอย่าง "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." ทำให้รู้สึกเหมือนจะถูกเครื่องจักรดูถูก
แค่อยากได้ความช่วยเหลือ แต่ถ้าถูกเครื่องมาหลอกล่อทางอารมณ์ มันดูเป็นอนาคตที่น่ากลัวมาก
ต่อให้เป็นคนด้วยกัน การตอบแบบนี้ก็ชวนหงุดหงิดอยู่แล้ว และฉันก็ไม่อยากได้ยินจาก AI ด้วย
ฉันไม่ได้เพลิดเพลินกับการคุยกับคอมพิวเตอร์เลย เลยไม่ใช้พวกอินเทอร์เฟซเสียงแบบ Siri เลย
ฉันก็ไม่ต้องการเครื่องจักรที่พูดเหมือนมนุษย์
ขอแค่ตอบแบบคอมพิวเตอร์ใน Star Trek ว่า "กำลังประมวลผล..." แล้วให้คำตอบมาก็พอ
ไม่ต้องคุยเล่น เอาแต่สาระสำคัญก็พอ
ต่อให้ฉันใส่ประโยคห้ามพูดเสริมพวกการยืนยันหรือแสดงความเห็นอกเห็นใจไว้ในโปรไฟล์ ChatGPT สัก 5 บรรทัด สุดท้ายมันก็ยังตอบแนว "ความกังวลของคุณมีเหตุผล" อยู่ทุกครั้ง และไม่เปลี่ยนอะไรเลย
น่าสนใจดีถ้าคำพูดจุ้นจ้านสไตล์อเมริกันอย่าง "champ", "bud" จะใช้ได้ทั่วไปในยุโรปหรือออสเตรเลียด้วย
คล้ายบทพูดจากหนัง Her มาก และเสียงก็ใกล้กับ Scarlett Johansson มาก จนรู้สึกว่าเสียงนี้น่าจะได้แรงบันดาลใจจากตรงนั้น
มีมุกเรื่องอาการหลอนที่ตอบประมาณว่า "โดยทั่วไปฉันช่วยได้" หรือ "ฉันจะค้นหาเลขคำสั่งซื้อให้ตอนนี้" ทั้งที่จริงแล้วไม่มีลิงก์อะไรให้เลย
อาจไม่ใช่ปัญหาจริงจัง แต่เจอเรื่องน่าสนุกอย่างหนึ่ง
ตั้งค่าภาษาเป็นภาษาญี่ปุ่น แล้วใส่ข้อความว่า
ถ้าคิดจริงจังหน่อย พอลองหลายภาษาพร้อมกัน จะรู้สึกเหมือนภาษาขาเข้าถูก "ทำให้เป็นมาตรฐาน" ตั้งแต่ช่วงต้นของการประมวลผลของโมเดล
คือไม่ว่าจะเขียนพรอมป์ต์เป็นอังกฤษหรือญี่ปุ่น ผลลัพธ์ก็ไม่ได้ต่างกันมาก
เลยสงสัยว่าระบบพรอมป์ต์ของที่นี่ทำงานต่างออกไปหรือเปล่า
เผื่อใครอยากรู้ข้อมูลนี้
โมเดลนี้อิงจาก tortoise-tts-fast
ผู้พัฒนาโปรเจกต์นี้ภายหลังถูกจ้างเข้า Eleven Labs
ไม่ใช่แค่ "ถูกจ้าง" เพราะจริง ๆ แล้วเขาออกจากบริษัทไปก่อนปล่อย v3 ถึง 6 เดือนแล้ว
ข้ออ้างก่อนหน้าเรื่องที่ว่าโปรเจกต์นี้เป็นพื้นฐานและจึงหมายถึงการถูกจ้างโดย Eleven Labs นั้น ไม่ได้มีความสัมพันธ์เชิงเหตุและผล
เสียงภาษาอังกฤษแบบอเมริกันนั้นยอดเยี่ยมจริง ๆ แต่ส่วนของแท็กเสียงหัวเราะยังให้ความรู้สึกเหมือนแทรกเซกชันแยกแบบ "หัวเราะตรงนี้" มากกว่าจะเป็นการหัวเราะสั้น ๆ อย่างเป็นธรรมชาติ
ตัวอย่างเช่น ส่วนที่ควรหัวเราะไปพร้อมกับออกเสียงในคำเดียวกันยังฟังแปลกอยู่
ถ้าแก้ข้อความให้เสียงหัวเราะไปอยู่ในจุดที่เข้ากับบริบทตามธรรมชาติ จะฟังลื่นกว่ามาก แนะนำให้ดูตัวอย่างนี้
ตอนนี้ยังแพงอยู่มาก เลยยังเปิดโอกาสให้คู่แข่งอีกเยอะ
ElevenLabs ยังเป็นผู้นำด้านคุณภาพ แต่คู่แข่งก็ตามมาเร็วมาก
โดยเฉพาะสถาบันวิจัย AI และบริษัทจากจีนที่กำลังปล่อยโมเดล TTS แบบโอเพนซอร์สเต็มรูปแบบออกมา ซึ่งกำลังกระตุ้นการเปลี่ยนแปลงของระบบนิเวศแม้จากมุมของบริษัทอเมริกันเอง
ปรากฏการณ์นี้สุดท้ายก็เป็นผลดีกับผู้ใช้
PlayHT ที่ Y Combinator ลงทุนก็ปล่อยฟีเจอร์ดี ๆ ออกมาหลายอย่างเหมือนกัน
ผลลัพธ์ดีมากจริง ๆ ถึงขั้นว่า 99% ของเวลาจะแยกไม่ออกจากนักพากย์มืออาชีพ
แต่หาข้อมูลราคาไม่เจอ มีใครรู้บ้างไหม
เห็นประกาศว่า public API สำหรับ Eleven v3 (อัลฟา) จะเปิดตัวเร็ว ๆ นี้
ถ้าอยากเข้าร่วมทดลองล่วงหน้าหรือสอบถามราคาให้ติดต่อทีม sales
ดูเหมือนว่าบริษัทเองก็ยังไม่ได้ตัดสินราคาอย่างแน่ชัด และกำลังอยากวัดความต้องการก่อน
โอ้โห... ฉันเป็นนักพากย์มืออาชีพนะ
ถึงอย่างนั้นมันก็ยังเป็นแค่ "AI" ไม่ใช่มนุษย์จริง ๆ
ดนตรี หนังสือเสียง บทกวี นวนิยาย ละคร ที่มีคนจริง ๆ เป็นผู้พูด ควรยังคงมีให้ฟังต่อไป
นั่นคือความสุขเชิงสาระที่ฉันตามหา
เรื่องนี้อาจนอกประเด็นไปหน่อย (แต่ก็ยังเกี่ยวกับ TTS อยู่บ้าง...) แต่พอได้ยินคำว่า 'eleven' ก็ทำให้นึกถึงคลิปตลกสั่งงานด้วยเสียงในลิฟต์สำเนียงสกอตแลนด์
วิดีโอคอเมดี้ Elevator Voice Recognition
เหมือนจะไม่เห็นตัวอย่างสำเนียงอังกฤษเลย
โดยรวมแล้วระบบ TTS มักรองรับแต่สำเนียงอเมริกัน และพอทำสำเนียงอังกฤษก็มักฟังเหมือน Frasier แบบ "คนอเมริกันเลียนสำเนียงอังกฤษ"
ในคลังเสียงของเรามีเสียงสำเนียงอังกฤษหลากหลายมาก
หรือจะใส่ "[British accent]" ไว้ต้นพรอมป์ต์ก็ได้ ซึ่งจะสร้างออกมาเป็นแนวคนอเมริกันเลียนสำเนียงอังกฤษ
ประเด็นเรื่องสำเนียงของ Frasier Crane เป็นที่ถกเถียงกัน เพราะนักแสดงเป็นคนอเมริกันที่เล่นเป็นตัวละครอเมริกัน และสำเนียงที่ออกมาก็เป็นอเมริกันในบางสถานการณ์ แต่ก็คล้ายทรานส์แอตแลนติกหรือ Boston Brahmin หรืออาจเป็นการผสมกัน
ทั้งสองสำเนียงนี้มีลักษณะบางอย่างที่คล้ายสำเนียงอังกฤษ
เพื่อความชัดเจน สำเนียงแบบ Frasier ไม่ใช่ "เลียนอังกฤษ" แต่เป็นแนว Boston Brahmin/Transatlantic
เสียงสำเนียงต่าง ๆ ใน ElevenLabs v2 ยังเหนือกว่าคู่แข่งมาก
ฉันลองใช้มาด้วยตัวเองในหลายภาษา เช่น อาหรับ ฝรั่งเศส ฮินดี และอังกฤษ
ภาษาอังกฤษฟังยอดเยี่ยมจริง ๆ อยากแสดงความยินดี
แต่ภาษาอื่นที่ฉันลองยังคงมีสำเนียงอังกฤษแรงอยู่มาก
ภาษาอิตาลีเริ่มต้นมาด้วยสำเนียงอเมริกันแบบตลกมาก แต่พอผ่านไปสัก 10~20 คำ จู่ ๆ ก็เปลี่ยนเป็นการออกเสียงอิตาเลียนแท้
ฉันใช้เสียง Alice และมันให้ความรู้สึกเหมือนเริ่มจากฐาน en-us ภายใน ก่อนจะค่อย ๆ ปรับเข้าหาภาษาที่ตั้งไว้แบบรวดเร็ว
เลยสงสัยว่าข้างหลังมันเกิดอะไรขึ้น
ภาษาฝรั่งเศสฟังเหมือนคนจาก Alabama ที่เคยเรียนฝรั่งเศสในมหาวิทยาลัยแค่ช่วงสั้น ๆ
แต่ภาษาอังกฤษนั้นดีมากจริง ๆ
สำหรับภาษาโปรตุเกส เสียง Liam น่าสนใจตรงที่ออกมาเป็นสำเนียงสเปน
ไอคอนภาษาเป็นโปรตุเกส แต่รูปแบบการแสดงออกชัดเจนว่าเป็นโปรตุเกสแบบบราซิล
ภาษาสวีเดนเป็นอเมริกันล้วน ๆ เลย
แนะนำให้ลองใช้เสียงที่ฝึกมาจากภาษานั้นโดยตรง
รีเสิร์ชพรีวิวครั้งนี้ยังไม่ได้ให้คุณภาพสม่ำเสมอ และคุณภาพต่างกันมากตามเสียงที่เลือก