Whisper: เปรียบเทียบ MLX บน RTX 4090 ของ Nvidia กับ M1 Pro
(owehrens.com)เปรียบเทียบประสิทธิภาพของเฟรมเวิร์ก Apple MLX กับ Nvidia RTX 4090
- Apple เปิดตัวเฟรมเวิร์กแมชชีนเลิร์นนิงสำหรับ Apple Silicon
- เพื่อเบนช์มาร์กประสิทธิภาพของเฟรมเวิร์กนี้ จึงใช้ตัวอย่าง Whisper
- ทำการวัดประสิทธิภาพกับไฟล์เสียงผ่านโค้ด Python
ผลลัพธ์
- การประมวลผลไฟล์เสียงความยาว 10 นาทีใช้เวลา 216 วินาทีบน M1 Pro และ 186 วินาทีบน Nvidia 4090
- หากใช้โมเดลที่ปรับแต่งมาสำหรับ Nvidia จะประมวลผลได้ในเวลาเพียง 8 วินาที
- มีการระบุสเปกฮาร์ดแวร์ของ Macbook และ PC ไว้อย่างละเอียด
Whisper ที่เร็วอย่างน่าทึ่ง
- บทความนี้กลายเป็นประเด็นพูดถึงบน HackerNews โดยมีผู้ใช้แชร์กรณีที่ประมวลผลได้ใน 8 วินาทีด้วย Nvidia 4090
- มีการทดลองบน MacOS ด้วยเช่นกัน และผลลัพธ์ช้ากว่าเวอร์ชัน MLX
อัปเดต M2 Ultra / M3 Max
- เมื่อนำไฟล์เสียงเดียวกันไปประมวลผลบน M2 Ultra และ M3 Max พบว่าเร็วกว่า M1 มาก แต่ความเร็วระหว่าง GPU ทั้งสองใกล้เคียงกัน
การเปรียบเทียบ
- แม้อาจไม่แม่นยำทั้งหมดเพราะมีหลายปัจจัยเกี่ยวข้อง แต่ก็พอใช้เปรียบเทียบประสิทธิภาพโดยคร่าว ๆ ได้
การใช้พลังงาน
- มีการวัดความแตกต่างของการใช้พลังงานระหว่าง PC และ Macbook
- ความต่างของการใช้พลังงานของ PC ระหว่างตอนที่ Nvidia 4090 ทำงานกับตอนว่างอยู่คือ 242W ส่วนความต่างของการใช้พลังงานของ Macbook ระหว่างตอนที่คอร์ GPU ของ M1 ทำงานกับตอนว่างอยู่คือ 38W
ทำไมถึงทำการทดสอบนี้?
- ผู้เขียนให้บริการเสิร์ชเอนจินสำหรับพอดแคสต์ที่ https://podpodgogo.com โดยถอดเสียงเอพิโสดหลายพันตอนเพื่อให้ค้นหาแบบ full-text ได้และใช้ทำ data mining
ความเห็นของ GN⁺:
- ประเด็นสำคัญที่สุดของบทความนี้คือ ประสิทธิภาพของเฟรมเวิร์กแมชชีนเลิร์นนิงสำหรับ Apple Silicon สามารถแข่งขันได้เมื่อเทียบกับกราฟิกการ์ดสำหรับผู้บริโภครุ่นล่าสุดของ Nvidia
- โดยเฉพาะอย่างยิ่ง การที่สามารถให้ประสิทธิภาพระดับนี้บนแล็ปท็อปได้เป็นเรื่องที่น่าสนใจมาก และอาจเป็นตัวเลือกที่น่าดึงดูดสำหรับผู้ใช้ที่ต้องการสมดุลระหว่างความพกพาและประสิทธิภาพสำหรับงานแมชชีนเลิร์นนิง
- ในด้านการใช้พลังงาน Macbook ยังถูกเน้นว่ามีประสิทธิภาพดีกว่าในเชิงสัมพัทธ์ ซึ่งเป็นข้อมูลสำคัญสำหรับผู้ใช้ที่ให้ความสำคัญกับความยั่งยืนด้านสิ่งแวดล้อมและความคุ้มค่าด้านต้นทุน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ดูเหมือนว่าจะใช้ repository ของ OpenAI Whisper สำหรับการเปรียบเทียบที่ยุติธรรม ควรนำ MLX ไปเทียบกับ faster-whisper หรือ insanely-fast-whisper ที่รันบน 4090
ใช้รีลีสล่าสุดของ Apple MLX และเป็นโค้ดที่ใช้การปรับแต่งเฉพาะทางของ Apple
สงสัยว่าเลือก Whisper เพราะลักษณะการทำงานแบบลำดับและคณิตศาสตร์จำนวนเต็มหรือไม่ และผลลัพธ์แบบนี้จะใช้กับโมเดลอื่นได้หรือเปล่า
การรัน Whisper บน Mac M1 ทำได้ง่าย แต่ไม่ได้ใช้ MLX เป็นค่าเริ่มต้น
แม้อาจมีการถกเถียงกันมากว่าอะไรคือทางเลือกที่ดีที่สุดสำหรับงานแบบ X แต่การได้ระดับประสิทธิภาพนี้ที่ใช้พลังงานต่ำก็น่าสนใจ
เมื่อพิจารณา Vision Pro ของ Apple บนแล็ปท็อปอาจไม่ได้มีความหมายมากนัก แต่สำหรับเฮดเซ็ตที่กินไฟสูงถือเป็นข้อได้เปรียบสำคัญ
ขอคำแนะนำเกี่ยวกับแอปหรือเวิร์กโฟลว์โอเพนซอร์สที่ดีสำหรับการถอดเสียงและการระบุผู้พูด
แนะนำให้ใช้ repository สาย Whisper ที่สามารถถอดเสียงไฟล์เสียงยาว 1 ชั่วโมงได้ภายในไม่ถึง 1 นาทีบน GPU ส่วนใหญ่