- SpeechAnalyzer และ SpeechTranscriber ของ Apple รองรับการถอดเสียงเป็นข้อความแบบเรียลไทม์ด้วย ความเร็วที่เหนือกว่ามาก เมื่อเทียบกับ Whisper และมี คุณภาพระดับเดียวกัน
- เมื่อนำไฟล์วิดีโอขนาด 7GB ความยาว 34 นาที มาแปลงด้วย เครื่องมือบรรทัดคำสั่ง Yap ใช้เวลาเพียง 45 วินาที ในการสร้างไฟล์ SRT ซึ่งเร็วกว่า MacWhisper 2.2 เท่า
- เมื่อเทียบกับเครื่องมืออื่นอย่าง MacWhisper และ VidCap ความต่างด้านคุณภาพแทบไม่มี แต่ทั้งหมดก็ยังมีข้อผิดพลาดเล็กน้อยในการจัดการชื่อเฉพาะและคำประสม
- สำหรับงานซ้ำๆ เช่น วิดีโอสำหรับนักพัฒนาที่ยาวนาน เลกเชอร์ หรือพอดแคสต์ ผลของ การประหยัดเวลาแบบสะสม นั้นสูงมาก
- สามารถติดตั้ง Yap และใช้งานได้ทันทีบน macOS Tahoe เบตา (ต้องมีบัญชีนักพัฒนา) และคาดว่าในอนาคตจะมาแทนที่ Whisper บนแพลตฟอร์ม Apple ทั้งหมด (iPhone, iPad, Mac, Vision Pro)
Apple Speech API vs Whisper: นวัตกรรมความเร็วครั้งใหม่
- SpeechAnalyzer และ SpeechTranscriber ที่เปิดตัวในงาน WWDC ล่าสุด ถูกรวมอยู่ในเบต้าล่าสุดของ macOS, iOS, iPadOS และ Vision Pro
- ผู้เขียนไม่พอใจกับความช้าของเครื่องมือเดิมที่อิงกับ Whisper มานาน แต่ API ใหม่นี้แสดงประสิทธิภาพระดับ เปลี่ยนเกม ในการใช้งานจริง
- สามารถใช้เครื่องมือบรรทัดคำสั่งแบบเรียบง่าย (Yap) เพื่อแปลงไฟล์เสียง/วิดีโอเป็น SRT และ TXT ได้อย่างรวดเร็ว
- วิดีโอ 4K ความยาว 34 นาที ขนาด 7GB → Yap: 45 วินาที / MacWhisper(V3 Turbo): 1 นาที 41 วินาที / VidCap: 1 นาที 55 วินาที / MacWhisper(V2): 3 นาที 55 วินาที
- ปัญหาการรู้จำ CamelCase (เช่น AppStories) และชื่อเฉพาะพบได้คล้ายกันในทุกเครื่องมือ (และแก้ภายหลังได้ง่าย)
การเปรียบเทียบความเร็วจริงและการใช้งานในเวิร์กโฟลว์
- หากมองแค่วิดีโอเดียว ความต่าง 1–2 นาทีอาจดูไม่มาก แต่เมื่อประมวลผลวิดีโอหลายชั่วโมง ผลของการประหยัดเวลาแบบสะสม จะชัดเจนมาก
- สำหรับงานแปลงจำนวนมากแบบแบตช์ เช่น วิดีโอ YouTube สามารถเชื่อมกับ yt-dlp เพื่อทำระบบอัตโนมัติได้อย่างมีประสิทธิภาพ
- มอบเวิร์กโฟลว์ที่รวดเร็วสำหรับ ซับไตเติล การเรียนการสอน และการสรุปเนื้อหา แก่ผู้ใช้หลากหลายกลุ่ม เช่น ครีเอเตอร์ ยูทูบเบอร์ และนักเรียน
- คาดว่าชุด SpeechAnalyzer/SpeechTranscriber จะเข้ามาแทนที่ Whisper ได้อย่างรวดเร็ว
การใช้งานจริงและวิธีติดตั้ง
- ติดตั้ง macOS Tahoe เบตา (ขณะนี้ต้องใช้บัญชีนักพัฒนา)
- ดาวน์โหลดและติดตั้งเครื่องมือบรรทัดคำสั่งจาก Yap GitHub repository
- หลังรัน Yap แล้ว ให้ใส่ไฟล์เสียง/วิดีโอ จากนั้นจะสร้างไฟล์แปลง SRT/TXT ได้ทันที
- ดูข้อมูลทางเทคนิคเพิ่มเติมได้จากเอกสาร Speech API อย่างเป็นทางการของ Apple และวิดีโอ WWDC (หมายเลข 277)
บทสรุปและแนวโน้ม
- Apple Speech API แสดงให้เห็นถึง ความได้เปรียบด้านความเร็วอย่างท่วมท้น เมื่อเทียบกับ Whisper ขณะที่ยังคงรักษาคุณภาพในระดับเดียวกัน
- มีความเป็นไปได้สูงที่จะกลายเป็น โมเดลมาตรฐาน สำหรับผู้ใช้ที่พึ่งพาเวิร์กโฟลว์การรู้จำและแปลงเสียงบนแพลตฟอร์ม Apple
- คาดว่าจะช่วย เพิ่มประสิทธิภาพสะสมสูงสุด และยกระดับผลิตภาพในการทำงานสำหรับงานอัตโนมัติที่ทำซ้ำบ่อยๆ
6 ความคิดเห็น
ไว้ต้องลองทดสอบภาษาเกาหลีดูสักครั้งเหมือนกันครับ
แค่ความเป็นแพลตฟอร์มของ Apple เองก็มีแนวคิดแบบปิดอยู่แล้ว เลยไม่ค่อยอยากแตะ
ไม่อยากเห็นคอมเมนต์แบบกันเองห้วน ๆ แต่ก็ไม่มีระบบบล็อกเลย
พูดแบบนั้น ความเห็นที่คุณเขียนก็เป็นภาษากันเองเหมือนกันนะ;;
ถึงคุณอาจไม่ชอบที่มีคนวิจารณ์ Apple แต่ข้อความนั้นก็ไม่ใช่ภาษากันเองแบบไม่สุภาพหรอกนะ
นั่นคือสไตล์เขียนแบบตัดคำลงท้าย และสรุปพื้นฐานของ GeekNews เองก็ใช้สไตล์นี้อยู่แล้ว แล้วคุณอ่านบทความต่าง ๆ กันอย่างไรอยู่เหรอ...