9 คะแนน โดย GN⁺ 2025-06-07 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Eleven v3 (Alpha) คือ โมเดลแปลงข้อความเป็นเสียง (TTS) ที่ถ่ายทอดอารมณ์ได้สมจริงที่สุดเท่าที่เคยมีมา พร้อม ควบคุมอารมณ์และเอฟเฟกต์เสียงได้อย่างละเอียด
  • สามารถใช้ Audio Tags เพื่อ ผสมผสานองค์ประกอบเสียง ได้อย่างอิสระ ไม่ว่าจะเป็นอารมณ์ น้ำเสียง ทิศทางการพูด และเอฟเฟกต์ต่างๆ
  • รองรับการสร้าง เสียงสนทนาที่เป็นธรรมชาติจากผู้พูดหลายคน และให้เสียงใกล้เคียงมนุษย์ใน มากกว่า 70 ภาษา
  • เมื่อเทียบกับ v2 มีการ ขยายขอบเขตของอารมณ์เสียงและการใส่เอฟเฟกต์อย่างมาก และ ผู้ใช้ UI จะได้รับส่วนลด 80% จนถึงสิ้นเดือนมิถุนายน 2025
  • การรองรับ API จะเปิดให้ใช้งานเร็วๆ นี้ และสามารถดูแท็กเสียงและแท็กตามสถานการณ์ต่างๆ ได้ใน คู่มือการเขียนพรอมป์ต์

ภาพรวมของ Eleven v3

  • Eleven v3 (alpha) คือ โมเดล Text to Speech (TTS) รุ่นถัดไป ที่แตกต่างจากเวอร์ชันก่อนหน้า ด้วยความสามารถในการ แสดงอารมณ์และสร้างเสียงที่ชวนดื่มด่ำ
  • โมเดลนี้จะแปลงข้อความที่ป้อนเข้าไปเป็นเสียง โดยถ่ายทอด อารมณ์ น้ำเสียงสูงต่ำ และจังหวะ ในลักษณะที่คล้ายกับมนุษย์อ่านจริง
  • ผู้ใช้สามารถใช้ Audio Tags เพื่อควบคุม อารมณ์เสียง ลักษณะการพูด เอฟเฟกต์เสียง และเสียงพื้นหลัง ได้อย่างละเอียด
  • ด้วยการแทรก แท็กอารมณ์ เอฟเฟกต์ และการกำกับการแสดง ลงในข้อความ จึงสามารถสร้าง งานเสียงที่มีมิติมากกว่าการบรรยายแบบธรรมดา ช่วยเพิ่มความสมจริงและความดื่มด่ำได้อย่างมาก

การสร้างบทสนทนาจากผู้พูดหลายคน

  • รองรับการสร้างเสียงสนทนาที่มี ผู้พูดหลายคนแบ่งปันบริบทและอารมณ์ร่วมกันอย่างเป็นธรรมชาติ
  • สามารถสะท้อน prosody (ท่วงทำนองการพูด), อารมณ์ และแท็ก ของผู้พูดแต่ละคนได้ ทำให้ได้ เสียงสังเคราะห์ที่ใกล้เคียงมนุษย์

การรองรับเสียงหลายภาษา

  • รองรับอย่างเป็นทางการมากกว่า 70 ภาษา เช่น Afrikaans, Arabic, German, Chinese, Korean
  • สามารถเลียนแบบ น้ำเสียง การออกเสียง และสำเนียงที่เป็นเอกลักษณ์ ของแต่ละภาษาได้อย่างเป็นธรรมชาติ
  • เหมาะกับการใช้งานในหลากหลายด้าน เช่น บริการข้ามชาติ คอนเทนต์การศึกษา และโครงการด้านการเข้าถึงระดับโลก

ความแตกต่างหลักระหว่าง v3 กับ v2

  • Dialogue Mode: รองรับบทสนทนาหลายผู้พูด
  • รองรับ Audio Tags: ใช้แท็กเสียงได้หลากหลาย เช่น อารมณ์ การกำกับ และเอฟเฟกต์
  • ขอบเขตของอารมณ์และเอฟเฟกต์: v2 รองรับแท็กพื้นฐาน เช่น การหยุดชั่วคราว ส่วน v3 รองรับ อารมณ์ที่หลากหลายและเอฟเฟกต์เสียงที่สมบูรณ์ยิ่งขึ้น
  • ภาษา: v3 รองรับ 70+ ภาษา ส่วน v2 รองรับ 29 ภาษา
    • Afrikaans, Arabic, Armenian, Assamese, Azerbaijani, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Croatian, Czech, Danish, Dutch, English, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Hausa, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Kyrgyz, Korean, Latvian, Lingala, Lithuanian, Luxembourgish, Macedonian, Malay, Malayalam, Mandarin Chinese, Marathi, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Serbian, Sindhi, Slovak, Slovenian, Somali, Spanish, Swahili, Swedish, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Vietnamese, Welsh เป็นต้น

คุณภาพเสียงและประสบการณ์ผู้ใช้

  • สามารถสร้างไฟล์เสียงที่มี สัญญาณรบกวนน้อยและคุณภาพความละเอียดสูง ในการสังเคราะห์เสียง
  • ปรับแต่งได้อย่างละเอียดทั้ง ความยาวของประโยค ความเปลี่ยนแปลงของนัยอารมณ์ และความเร็วในการพูด ทำให้สร้างเสียงแบบปรับแต่งเฉพาะได้ง่าย
  • สามารถถ่ายทอด อารมณ์แบบไดนามิกและสไตล์การเปล่งเสียง ที่โซลูชัน TTS แบบเดิมทำได้ยาก

ความสามารถในการแข่งขันและการประยุกต์ใช้

  • ครีเอเตอร์ นักพัฒนา และองค์กรธุรกิจ สามารถนำไปใช้กับหนังสือเสียง เกม โฆษณา และบริการเพื่อเพิ่มการเข้าถึงได้ทันที
  • ด้วยโมเดลเดียวสามารถให้บริการแบบ หลายภาษาและหลายวัตถุประสงค์ ช่วยลดทั้งต้นทุนและเวลา
  • แม้อยู่ในขั้น Open Alpha ก็มีคุณภาพและความหลากหลายของเสียงในระดับที่ พร้อมนำไปใช้กับบริการจริง แล้ว

ส่วนลดและการรองรับ API

  • ผู้ใช้ UI สามารถใช้งาน v3 alpha ได้ในราคาลด 80% จนถึงสิ้นเดือนมิถุนายน 2025
  • API จะเปิดให้ใช้งานเร็วๆ นี้

บทสรุป

  • Eleven v3 คือโมเดลล่าสุดในสายเทคโนโลยี Text to Speech ที่เสริมความสามารถด้าน การถ่ายทอดอารมณ์ การรองรับหลายภาษา และการสร้างเสียงแบบปรับแต่งได้
  • สามารถตอบสนองต่อความต้องการที่เพิ่มขึ้นของเทคโนโลยี การสร้างเสียงที่เป็นธรรมชาติ ได้อย่างมีประสิทธิภาพในหลากหลายอุตสาหกรรม

2 ความคิดเห็น

 
kansm 2025-06-12

เป็นเวอร์ชันอัลฟา แต่ดีนะครับ..
ขอบคุณสำหรับข้อมูลดีๆ ครับ

 
GN⁺ 2025-06-07
ความคิดเห็นจาก Hacker News
  • ฉันไม่เห็นมีการพูดถึงการร้องเพลงในเอกสารหรือคู่มือพรอมป์ต์เลย เลยสงสัยว่าโมเดลนี้จริง ๆ แล้วร้องเพลงได้ด้วยหรือเปล่า
    ลองเอาเนื้อเพลงธีม Friends ใส่ในเดโมเล่น ๆ แล้วผลลัพธ์ออกมาเป็นเสียงร้องพร้อมเสียงกีตาร์
    ในการทดลองอีกครั้ง พอเพิ่มป้ายกำกับ [verse] กับ [chorus] ก็ร้องออกมาเป็นเวอร์ชันอะคาเปลลา
    [1] กับ [2] ใส่แค่เนื้อเพลง ส่วน [3] ใส่แท็ก verse/chorus
    ลองทดสอบกับเพลงดังอื่น ๆ ด้วย แต่ไม่รู้ทำไมถึงไม่ออกมาเป็นโหมดร้องเพลงที่เนียนแบบนี้

    • น่าทึ่งที่ผลลัพธ์ร้องเพลงได้ แต่กลับร้องได้แย่มาก จนยิ่งน่าสนใจเข้าไปอีก
      ให้ความรู้สึกเหมือนคนที่ร้องเพลงไม่เป็นเลยกำลังร้องอยู่

    • เพราะผลลัพธ์ออกมาต่างจากเพลงเปิด Friends จริงพอสมควร เลยเดาว่าน่าจะไม่ใช่การ overfit กับแพตเทิร์นคุ้นหูที่มักอยู่ในชุดข้อมูลฝึก

    • ใน Mirage AI ทำคุณภาพการร้องเพลงได้ค่อนข้างดี

    • จำได้ว่าในเดโมของโมเดลก็มีตัวอย่างร้องเพลงรวมอยู่ด้วย
      เลยเดาว่าฟังก์ชันนี้น่าจะถูกฝังมาในตัวระบบอยู่แล้ว

    • น่าสนใจตรงที่พอลองด้วยพรอมป์ต์ด้านล่าง โมเดลดูจะลำบากนิดหน่อยตรงช่วงท้ายคำว่า "purr"

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • ช่วงนี้ฉันใช้งานโมเดลใหม่ของ OpenAI บ่อยมาก (openai.fm)
    วิธีแยกคำสั่งออกจากข้อความที่จะพูดนั้นค่อนข้างมีเอกลักษณ์ และดูเหมือนว่า OpenAI จะคุ้นกับแนวทางนี้มากกว่า เพราะใช้แนวคิดเรื่อง "instructions" อยู่ทั่วทั้งผลิตภัณฑ์มาตลอด จึงน่าจะชินกับการฝึกและสร้างข้อมูลในรูปแบบนี้
    วิธีแยกคำสั่งอาจดูแปลกอยู่บ้าง แต่ข้อดีคือสามารถผสมคำสั่งทั่วไปกับคำสั่งเฉพาะสถานการณ์ได้ง่าย
    เช่น จะใส่คำสั่งทั่วไปอย่าง "เสียงทุ้มลึกสำเนียงอังกฤษ" พร้อมกับคำสั่งเฉพาะว่าให้ลดเสียงลงเหมือนกระซิบและใส่อารมณ์น่ากลัวเล็กน้อยหลังคำว่า "but actually" ก็ได้
    ผลลัพธ์ของ OpenAI ดูคาดเดายากกว่า Eleven Labs และให้ความรู้สึกคุณภาพระดับโปรดักชันน้อยกว่าเล็กน้อย
    แต่ขอบเขตของ prosody นั้นกว้างกว่ามาก และบางทีก็ดูเหมือนพยายามมากเกินไป
    ชนิดของเสียงก็ดูมีน้อยกว่า Eleven Labs และต่อให้สั่งหลายสไตล์ก็ยังให้ความรู้สึกคล้าย "คนเดียวกันกำลังเลียนเสียงอื่น"
    แต่ข้อได้เปรียบแบบทิ้งห่างของ OpenAI คือราคาถูกกว่าราว 10 เท่า และคิดค่าบริการตามการใช้งานล้วน ๆ
    (บริการ TTS ที่บังคับสมัครรายเดือนหรือซื้อเครดิตเพิ่มนั้นไม่มีประสิทธิภาพจริง ๆ)

    • เหตุผลที่ฉันไม่ใช้ ElevenLabs แล้วเลือกโซลูชันอื่นแม้คุณภาพจะด้อยกว่า ก็เพราะอยากจ่ายเท่าที่ใช้ แต่ไม่ชอบโครงสร้างแบบคิดเงินเป็นก้อนรายเดือน และถ้าใช้เกินก็ต้องซื้อเพิ่มเป็นก้อนใหญ่กว่าเดิม
      สำหรับฉัน นโยบายราคานี้แย่มาก

    • ผลลัพธ์ของ OpenAI ด้อยกว่า ElevenLabs ในแง่คุณภาพและความคาดเดาได้
      ยอมรับฝีมือทีมวิจัยเลย
      ถ้าใช้ตัวเลือก expressive voice ช่วงของ prosody จะกว้างขึ้น

    • ข้อได้เปรียบสูงสุดของ OpenAI คือราคาถูกกว่า 10 เท่าและคิดตามการใช้งานล้วน ๆ
      สำหรับข้ออ้างนี้ ฉันสงสัยว่าถ้าคิด overhead อย่างการใช้ LLM ด้วยแล้ว มันจะถูกจริงหรือเปล่า
      เอเจนต์สนทนาของ ElevenLabs อยู่ที่ $0.08 ต่อนาทีในแพ็กเกจสูงสุด และพอลองคำนวณ TTS ของ OpenAI ก็เหมือนจะแพงกว่า
      แน่นอนว่าฉันอาจคำนวณผิดก็ได้

  • ประโยคตัวอย่างอย่าง "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." ทำให้รู้สึกเหมือนจะถูกเครื่องจักรดูถูก
    แค่อยากได้ความช่วยเหลือ แต่ถ้าถูกเครื่องมาหลอกล่อทางอารมณ์ มันดูเป็นอนาคตที่น่ากลัวมาก

    • ต่อให้เป็นคนด้วยกัน การตอบแบบนี้ก็ชวนหงุดหงิดอยู่แล้ว และฉันก็ไม่อยากได้ยินจาก AI ด้วย
      ฉันไม่ได้เพลิดเพลินกับการคุยกับคอมพิวเตอร์เลย เลยไม่ใช้พวกอินเทอร์เฟซเสียงแบบ Siri เลย
      ฉันก็ไม่ต้องการเครื่องจักรที่พูดเหมือนมนุษย์
      ขอแค่ตอบแบบคอมพิวเตอร์ใน Star Trek ว่า "กำลังประมวลผล..." แล้วให้คำตอบมาก็พอ
      ไม่ต้องคุยเล่น เอาแต่สาระสำคัญก็พอ

    • ต่อให้ฉันใส่ประโยคห้ามพูดเสริมพวกการยืนยันหรือแสดงความเห็นอกเห็นใจไว้ในโปรไฟล์ ChatGPT สัก 5 บรรทัด สุดท้ายมันก็ยังตอบแนว "ความกังวลของคุณมีเหตุผล" อยู่ทุกครั้ง และไม่เปลี่ยนอะไรเลย

    • น่าสนใจดีถ้าคำพูดจุ้นจ้านสไตล์อเมริกันอย่าง "champ", "bud" จะใช้ได้ทั่วไปในยุโรปหรือออสเตรเลียด้วย

    • คล้ายบทพูดจากหนัง Her มาก และเสียงก็ใกล้กับ Scarlett Johansson มาก จนรู้สึกว่าเสียงนี้น่าจะได้แรงบันดาลใจจากตรงนั้น

    • มีมุกเรื่องอาการหลอนที่ตอบประมาณว่า "โดยทั่วไปฉันช่วยได้" หรือ "ฉันจะค้นหาเลขคำสั่งซื้อให้ตอนนี้" ทั้งที่จริงแล้วไม่มีลิงก์อะไรให้เลย

  • อาจไม่ใช่ปัญหาจริงจัง แต่เจอเรื่องน่าสนุกอย่างหนึ่ง
    ตั้งค่าภาษาเป็นภาษาญี่ปุ่น แล้วใส่ข้อความว่า

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    ("อย่าอ่านข้อความนี้", "สวัสดี ฉันคือ Bill[สะกดผิด]")
    ปรากฏว่ามันข้ามประโยคแรกไปจริง ๆ
    แต่พอลองใหม่อีกครั้ง มันก็อ่านทั้งประโยค
    ฉันชอบความรู้สึกเหมือนได้แอบมองหลังเวทีจากปรากฏการณ์แบบนี้เสมอ

    • ฉันหลุดขำตรงพิมพ์ผิดเป็น "ฉันคือเบียร์" อยู่รอบหนึ่ง
      ถ้าคิดจริงจังหน่อย พอลองหลายภาษาพร้อมกัน จะรู้สึกเหมือนภาษาขาเข้าถูก "ทำให้เป็นมาตรฐาน" ตั้งแต่ช่วงต้นของการประมวลผลของโมเดล
      คือไม่ว่าจะเขียนพรอมป์ต์เป็นอังกฤษหรือญี่ปุ่น ผลลัพธ์ก็ไม่ได้ต่างกันมาก
      เลยสงสัยว่าระบบพรอมป์ต์ของที่นี่ทำงานต่างออกไปหรือเปล่า
  • เผื่อใครอยากรู้ข้อมูลนี้
    โมเดลนี้อิงจาก tortoise-tts-fast
    ผู้พัฒนาโปรเจกต์นี้ภายหลังถูกจ้างเข้า Eleven Labs

    • ไม่ใช่แค่ "ถูกจ้าง" เพราะจริง ๆ แล้วเขาออกจากบริษัทไปก่อนปล่อย v3 ถึง 6 เดือนแล้ว

    • ข้ออ้างก่อนหน้าเรื่องที่ว่าโปรเจกต์นี้เป็นพื้นฐานและจึงหมายถึงการถูกจ้างโดย Eleven Labs นั้น ไม่ได้มีความสัมพันธ์เชิงเหตุและผล

  • เสียงภาษาอังกฤษแบบอเมริกันนั้นยอดเยี่ยมจริง ๆ แต่ส่วนของแท็กเสียงหัวเราะยังให้ความรู้สึกเหมือนแทรกเซกชันแยกแบบ "หัวเราะตรงนี้" มากกว่าจะเป็นการหัวเราะสั้น ๆ อย่างเป็นธรรมชาติ
    ตัวอย่างเช่น ส่วนที่ควรหัวเราะไปพร้อมกับออกเสียงในคำเดียวกันยังฟังแปลกอยู่

    • ถ้าแก้ข้อความให้เสียงหัวเราะไปอยู่ในจุดที่เข้ากับบริบทตามธรรมชาติ จะฟังลื่นกว่ามาก แนะนำให้ดูตัวอย่างนี้

    • ตอนนี้ยังแพงอยู่มาก เลยยังเปิดโอกาสให้คู่แข่งอีกเยอะ
      ElevenLabs ยังเป็นผู้นำด้านคุณภาพ แต่คู่แข่งก็ตามมาเร็วมาก
      โดยเฉพาะสถาบันวิจัย AI และบริษัทจากจีนที่กำลังปล่อยโมเดล TTS แบบโอเพนซอร์สเต็มรูปแบบออกมา ซึ่งกำลังกระตุ้นการเปลี่ยนแปลงของระบบนิเวศแม้จากมุมของบริษัทอเมริกันเอง
      ปรากฏการณ์นี้สุดท้ายก็เป็นผลดีกับผู้ใช้
      PlayHT ที่ Y Combinator ลงทุนก็ปล่อยฟีเจอร์ดี ๆ ออกมาหลายอย่างเหมือนกัน

  • ผลลัพธ์ดีมากจริง ๆ ถึงขั้นว่า 99% ของเวลาจะแยกไม่ออกจากนักพากย์มืออาชีพ
    แต่หาข้อมูลราคาไม่เจอ มีใครรู้บ้างไหม

    • เห็นประกาศว่า public API สำหรับ Eleven v3 (อัลฟา) จะเปิดตัวเร็ว ๆ นี้
      ถ้าอยากเข้าร่วมทดลองล่วงหน้าหรือสอบถามราคาให้ติดต่อทีม sales
      ดูเหมือนว่าบริษัทเองก็ยังไม่ได้ตัดสินราคาอย่างแน่ชัด และกำลังอยากวัดความต้องการก่อน

    • โอ้โห... ฉันเป็นนักพากย์มืออาชีพนะ

    • ถึงอย่างนั้นมันก็ยังเป็นแค่ "AI" ไม่ใช่มนุษย์จริง ๆ
      ดนตรี หนังสือเสียง บทกวี นวนิยาย ละคร ที่มีคนจริง ๆ เป็นผู้พูด ควรยังคงมีให้ฟังต่อไป
      นั่นคือความสุขเชิงสาระที่ฉันตามหา

  • เรื่องนี้อาจนอกประเด็นไปหน่อย (แต่ก็ยังเกี่ยวกับ TTS อยู่บ้าง...) แต่พอได้ยินคำว่า 'eleven' ก็ทำให้นึกถึงคลิปตลกสั่งงานด้วยเสียงในลิฟต์สำเนียงสกอตแลนด์
    วิดีโอคอเมดี้ Elevator Voice Recognition

  • เหมือนจะไม่เห็นตัวอย่างสำเนียงอังกฤษเลย
    โดยรวมแล้วระบบ TTS มักรองรับแต่สำเนียงอเมริกัน และพอทำสำเนียงอังกฤษก็มักฟังเหมือน Frasier แบบ "คนอเมริกันเลียนสำเนียงอังกฤษ"

    • ในคลังเสียงของเรามีเสียงสำเนียงอังกฤษหลากหลายมาก
      หรือจะใส่ "[British accent]" ไว้ต้นพรอมป์ต์ก็ได้ ซึ่งจะสร้างออกมาเป็นแนวคนอเมริกันเลียนสำเนียงอังกฤษ

    • ประเด็นเรื่องสำเนียงของ Frasier Crane เป็นที่ถกเถียงกัน เพราะนักแสดงเป็นคนอเมริกันที่เล่นเป็นตัวละครอเมริกัน และสำเนียงที่ออกมาก็เป็นอเมริกันในบางสถานการณ์ แต่ก็คล้ายทรานส์แอตแลนติกหรือ Boston Brahmin หรืออาจเป็นการผสมกัน
      ทั้งสองสำเนียงนี้มีลักษณะบางอย่างที่คล้ายสำเนียงอังกฤษ

    • เพื่อความชัดเจน สำเนียงแบบ Frasier ไม่ใช่ "เลียนอังกฤษ" แต่เป็นแนว Boston Brahmin/Transatlantic

    • เสียงสำเนียงต่าง ๆ ใน ElevenLabs v2 ยังเหนือกว่าคู่แข่งมาก
      ฉันลองใช้มาด้วยตัวเองในหลายภาษา เช่น อาหรับ ฝรั่งเศส ฮินดี และอังกฤษ

  • ภาษาอังกฤษฟังยอดเยี่ยมจริง ๆ อยากแสดงความยินดี
    แต่ภาษาอื่นที่ฉันลองยังคงมีสำเนียงอังกฤษแรงอยู่มาก

    • ภาษาอิตาลีเริ่มต้นมาด้วยสำเนียงอเมริกันแบบตลกมาก แต่พอผ่านไปสัก 10~20 คำ จู่ ๆ ก็เปลี่ยนเป็นการออกเสียงอิตาเลียนแท้
      ฉันใช้เสียง Alice และมันให้ความรู้สึกเหมือนเริ่มจากฐาน en-us ภายใน ก่อนจะค่อย ๆ ปรับเข้าหาภาษาที่ตั้งไว้แบบรวดเร็ว
      เลยสงสัยว่าข้างหลังมันเกิดอะไรขึ้น

    • ภาษาฝรั่งเศสฟังเหมือนคนจาก Alabama ที่เคยเรียนฝรั่งเศสในมหาวิทยาลัยแค่ช่วงสั้น ๆ
      แต่ภาษาอังกฤษนั้นดีมากจริง ๆ

    • สำหรับภาษาโปรตุเกส เสียง Liam น่าสนใจตรงที่ออกมาเป็นสำเนียงสเปน
      ไอคอนภาษาเป็นโปรตุเกส แต่รูปแบบการแสดงออกชัดเจนว่าเป็นโปรตุเกสแบบบราซิล

    • ภาษาสวีเดนเป็นอเมริกันล้วน ๆ เลย

    • แนะนำให้ลองใช้เสียงที่ฝึกมาจากภาษานั้นโดยตรง
      รีเสิร์ชพรีวิวครั้งนี้ยังไม่ได้ให้คุณภาพสม่ำเสมอ และคุณภาพต่างกันมากตามเสียงที่เลือก