Speech API ใหม่ของ Apple ให้การถอดเสียงแบบเรียลไทม์ที่เร็วกว่า Whisper อย่างเหนือชั้น

(macstories.net)

16 คะแนน โดย GN⁺ 2025-06-21 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

SpeechAnalyzer และ SpeechTranscriber ของ Apple รองรับการถอดเสียงเป็นข้อความแบบเรียลไทม์ด้วย ความเร็วที่เหนือกว่ามาก เมื่อเทียบกับ Whisper และมี คุณภาพระดับเดียวกัน
เมื่อนำไฟล์วิดีโอขนาด 7GB ความยาว 34 นาที มาแปลงด้วย เครื่องมือบรรทัดคำสั่ง Yap ใช้เวลาเพียง 45 วินาที ในการสร้างไฟล์ SRT ซึ่งเร็วกว่า MacWhisper 2.2 เท่า
เมื่อเทียบกับเครื่องมืออื่นอย่าง MacWhisper และ VidCap ความต่างด้านคุณภาพแทบไม่มี แต่ทั้งหมดก็ยังมีข้อผิดพลาดเล็กน้อยในการจัดการชื่อเฉพาะและคำประสม
สำหรับงานซ้ำๆ เช่น วิดีโอสำหรับนักพัฒนาที่ยาวนาน เลกเชอร์ หรือพอดแคสต์ ผลของ การประหยัดเวลาแบบสะสม นั้นสูงมาก
สามารถติดตั้ง Yap และใช้งานได้ทันทีบน macOS Tahoe เบตา (ต้องมีบัญชีนักพัฒนา) และคาดว่าในอนาคตจะมาแทนที่ Whisper บนแพลตฟอร์ม Apple ทั้งหมด (iPhone, iPad, Mac, Vision Pro)

Apple Speech API vs Whisper: นวัตกรรมความเร็วครั้งใหม่

SpeechAnalyzer และ SpeechTranscriber ที่เปิดตัวในงาน WWDC ล่าสุด ถูกรวมอยู่ในเบต้าล่าสุดของ macOS, iOS, iPadOS และ Vision Pro
ผู้เขียนไม่พอใจกับความช้าของเครื่องมือเดิมที่อิงกับ Whisper มานาน แต่ API ใหม่นี้แสดงประสิทธิภาพระดับ เปลี่ยนเกม ในการใช้งานจริง
สามารถใช้เครื่องมือบรรทัดคำสั่งแบบเรียบง่าย (Yap) เพื่อแปลงไฟล์เสียง/วิดีโอเป็น SRT และ TXT ได้อย่างรวดเร็ว
วิดีโอ 4K ความยาว 34 นาที ขนาด 7GB → Yap: 45 วินาที / MacWhisper(V3 Turbo): 1 นาที 41 วินาที / VidCap: 1 นาที 55 วินาที / MacWhisper(V2): 3 นาที 55 วินาที
ปัญหาการรู้จำ CamelCase (เช่น AppStories) และชื่อเฉพาะพบได้คล้ายกันในทุกเครื่องมือ (และแก้ภายหลังได้ง่าย)

การเปรียบเทียบความเร็วจริงและการใช้งานในเวิร์กโฟลว์

หากมองแค่วิดีโอเดียว ความต่าง 1–2 นาทีอาจดูไม่มาก แต่เมื่อประมวลผลวิดีโอหลายชั่วโมง ผลของการประหยัดเวลาแบบสะสม จะชัดเจนมาก
สำหรับงานแปลงจำนวนมากแบบแบตช์ เช่น วิดีโอ YouTube สามารถเชื่อมกับ yt-dlp เพื่อทำระบบอัตโนมัติได้อย่างมีประสิทธิภาพ
มอบเวิร์กโฟลว์ที่รวดเร็วสำหรับ ซับไตเติล การเรียนการสอน และการสรุปเนื้อหา แก่ผู้ใช้หลากหลายกลุ่ม เช่น ครีเอเตอร์ ยูทูบเบอร์ และนักเรียน
คาดว่าชุด SpeechAnalyzer/SpeechTranscriber จะเข้ามาแทนที่ Whisper ได้อย่างรวดเร็ว

การใช้งานจริงและวิธีติดตั้ง

ติดตั้ง macOS Tahoe เบตา (ขณะนี้ต้องใช้บัญชีนักพัฒนา)
ดาวน์โหลดและติดตั้งเครื่องมือบรรทัดคำสั่งจาก Yap GitHub repository
หลังรัน Yap แล้ว ให้ใส่ไฟล์เสียง/วิดีโอ จากนั้นจะสร้างไฟล์แปลง SRT/TXT ได้ทันที
ดูข้อมูลทางเทคนิคเพิ่มเติมได้จากเอกสาร Speech API อย่างเป็นทางการของ Apple และวิดีโอ WWDC (หมายเลข 277)

บทสรุปและแนวโน้ม

Apple Speech API แสดงให้เห็นถึง ความได้เปรียบด้านความเร็วอย่างท่วมท้น เมื่อเทียบกับ Whisper ขณะที่ยังคงรักษาคุณภาพในระดับเดียวกัน
มีความเป็นไปได้สูงที่จะกลายเป็น โมเดลมาตรฐาน สำหรับผู้ใช้ที่พึ่งพาเวิร์กโฟลว์การรู้จำและแปลงเสียงบนแพลตฟอร์ม Apple
คาดว่าจะช่วย เพิ่มประสิทธิภาพสะสมสูงสุด และยกระดับผลิตภาพในการทำงานสำหรับงานอัตโนมัติที่ทำซ้ำบ่อยๆ

6 ความคิดเห็น

brainer 2025-06-21

ไว้ต้องลองทดสอบภาษาเกาหลีดูสักครั้งเหมือนกันครับ

howudoin 2025-06-21

แค่ความเป็นแพลตฟอร์มของ Apple เองก็มีแนวคิดแบบปิดอยู่แล้ว เลยไม่ค่อยอยากแตะ

gera1d 2025-06-21

ไม่อยากเห็นคอมเมนต์แบบกันเองห้วน ๆ แต่ก็ไม่มีระบบบล็อกเลย

jk34011 2025-06-23

พูดแบบนั้น ความเห็นที่คุณเขียนก็เป็นภาษากันเองเหมือนกันนะ;;

crawler 2025-06-22

ถึงคุณอาจไม่ชอบที่มีคนวิจารณ์ Apple แต่ข้อความนั้นก็ไม่ใช่ภาษากันเองแบบไม่สุภาพหรอกนะ
นั่นคือสไตล์เขียนแบบตัดคำลงท้าย และสรุปพื้นฐานของ GeekNews เองก็ใช้สไตล์นี้อยู่แล้ว แล้วคุณอ่านบทความต่าง ๆ กันอย่างไรอยู่เหรอ...

2025-06-23

[ความคิดเห็นนี้ถูกซ่อน]