2 คะแนน โดย GN⁺ 2023-12-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปรียบเทียบประสิทธิภาพของเฟรมเวิร์ก Apple MLX กับ Nvidia RTX 4090

  • Apple เปิดตัวเฟรมเวิร์กแมชชีนเลิร์นนิงสำหรับ Apple Silicon
  • เพื่อเบนช์มาร์กประสิทธิภาพของเฟรมเวิร์กนี้ จึงใช้ตัวอย่าง Whisper
  • ทำการวัดประสิทธิภาพกับไฟล์เสียงผ่านโค้ด Python

ผลลัพธ์

  • การประมวลผลไฟล์เสียงความยาว 10 นาทีใช้เวลา 216 วินาทีบน M1 Pro และ 186 วินาทีบน Nvidia 4090
  • หากใช้โมเดลที่ปรับแต่งมาสำหรับ Nvidia จะประมวลผลได้ในเวลาเพียง 8 วินาที
  • มีการระบุสเปกฮาร์ดแวร์ของ Macbook และ PC ไว้อย่างละเอียด

Whisper ที่เร็วอย่างน่าทึ่ง

  • บทความนี้กลายเป็นประเด็นพูดถึงบน HackerNews โดยมีผู้ใช้แชร์กรณีที่ประมวลผลได้ใน 8 วินาทีด้วย Nvidia 4090
  • มีการทดลองบน MacOS ด้วยเช่นกัน และผลลัพธ์ช้ากว่าเวอร์ชัน MLX

อัปเดต M2 Ultra / M3 Max

  • เมื่อนำไฟล์เสียงเดียวกันไปประมวลผลบน M2 Ultra และ M3 Max พบว่าเร็วกว่า M1 มาก แต่ความเร็วระหว่าง GPU ทั้งสองใกล้เคียงกัน

การเปรียบเทียบ

  • แม้อาจไม่แม่นยำทั้งหมดเพราะมีหลายปัจจัยเกี่ยวข้อง แต่ก็พอใช้เปรียบเทียบประสิทธิภาพโดยคร่าว ๆ ได้

การใช้พลังงาน

  • มีการวัดความแตกต่างของการใช้พลังงานระหว่าง PC และ Macbook
  • ความต่างของการใช้พลังงานของ PC ระหว่างตอนที่ Nvidia 4090 ทำงานกับตอนว่างอยู่คือ 242W ส่วนความต่างของการใช้พลังงานของ Macbook ระหว่างตอนที่คอร์ GPU ของ M1 ทำงานกับตอนว่างอยู่คือ 38W

ทำไมถึงทำการทดสอบนี้?

  • ผู้เขียนให้บริการเสิร์ชเอนจินสำหรับพอดแคสต์ที่ https://podpodgogo.com โดยถอดเสียงเอพิโสดหลายพันตอนเพื่อให้ค้นหาแบบ full-text ได้และใช้ทำ data mining

ความเห็นของ GN⁺:

  • ประเด็นสำคัญที่สุดของบทความนี้คือ ประสิทธิภาพของเฟรมเวิร์กแมชชีนเลิร์นนิงสำหรับ Apple Silicon สามารถแข่งขันได้เมื่อเทียบกับกราฟิกการ์ดสำหรับผู้บริโภครุ่นล่าสุดของ Nvidia
  • โดยเฉพาะอย่างยิ่ง การที่สามารถให้ประสิทธิภาพระดับนี้บนแล็ปท็อปได้เป็นเรื่องที่น่าสนใจมาก และอาจเป็นตัวเลือกที่น่าดึงดูดสำหรับผู้ใช้ที่ต้องการสมดุลระหว่างความพกพาและประสิทธิภาพสำหรับงานแมชชีนเลิร์นนิง
  • ในด้านการใช้พลังงาน Macbook ยังถูกเน้นว่ามีประสิทธิภาพดีกว่าในเชิงสัมพัทธ์ ซึ่งเป็นข้อมูลสำคัญสำหรับผู้ใช้ที่ให้ความสำคัญกับความยั่งยืนด้านสิ่งแวดล้อมและความคุ้มค่าด้านต้นทุน

1 ความคิดเห็น

 
GN⁺ 2023-12-14
ความคิดเห็นจาก Hacker News
  • ดูเหมือนว่าจะใช้ repository ของ OpenAI Whisper สำหรับการเปรียบเทียบที่ยุติธรรม ควรนำ MLX ไปเทียบกับ faster-whisper หรือ insanely-fast-whisper ที่รันบน 4090

    • พบว่าในกรณีใช้งานจริง faster-whisper ให้คุณภาพดีกว่าเมื่อรวมข้อความจากเซกเมนต์ก่อนหน้า
    • faster-whisper เร็วกว่า OpenAI/whisper ราว 4-5 เท่า และ insanely-fast-whisper ก็ยังเร็วกว่า faster-whisper อีก 3-4 เท่า
    • ถ้า Whisper ที่รันบน 4090 ยังไม่ได้รับการปรับแต่งอย่างมาก ผลลัพธ์เหล่านี้ก็น่าสงสัย
  • ใช้รีลีสล่าสุดของ Apple MLX และเป็นโค้ดที่ใช้การปรับแต่งเฉพาะทางของ Apple

    • คาดว่า MLX จะได้รับความสนใจเมื่อมีการออก Swift binding สำหรับ Mac และ iOS
    • ตอนนี้อาจมีปัญหาเรื่องการคอมไพล์ C++20
  • สงสัยว่าเลือก Whisper เพราะลักษณะการทำงานแบบลำดับและคณิตศาสตร์จำนวนเต็มหรือไม่ และผลลัพธ์แบบนี้จะใช้กับโมเดลอื่นได้หรือเปล่า

    • ยังมี operation บางอย่างใน MLX ที่ยังไม่ได้รับการปรับแต่ง
    • ตัวเลขเหล่านี้น่าประทับใจในมุมของข้อได้เปรียบจาก RAM ความเร็วสูงมากที่เชื่อมตรงกับ CPU/GPU และผลด้าน latency/การเข้าถึงร่วมกันที่ตามมา
    • ควรคำนึงด้วยว่าระบบ M3 Max มีราคาประมาณ 2 เท่าของ 4090
  • การรัน Whisper บน Mac M1 ทำได้ง่าย แต่ไม่ได้ใช้ MLX เป็นค่าเริ่มต้น

    • ใช้เวลาหลายชั่วโมงเพื่อหาวิธีตั้งค่าให้ใช้งาน MLX
    • แต่เช่า VM ที่มี GPU แล้วเริ่มใช้ Whisper ได้ภายในไม่กี่นาที
  • แม้อาจมีการถกเถียงกันมากว่าอะไรคือทางเลือกที่ดีที่สุดสำหรับงานแบบ X แต่การได้ระดับประสิทธิภาพนี้ที่ใช้พลังงานต่ำก็น่าสนใจ

  • เมื่อพิจารณา Vision Pro ของ Apple บนแล็ปท็อปอาจไม่ได้มีความหมายมากนัก แต่สำหรับเฮดเซ็ตที่กินไฟสูงถือเป็นข้อได้เปรียบสำคัญ

  • ขอคำแนะนำเกี่ยวกับแอปหรือเวิร์กโฟลว์โอเพนซอร์สที่ดีสำหรับการถอดเสียงและการระบุผู้พูด

    • ลองดูมาบางตัวแล้วแต่ทำงานได้ไม่ดีและล่ม
  • แนะนำให้ใช้ repository สาย Whisper ที่สามารถถอดเสียงไฟล์เสียงยาว 1 ชั่วโมงได้ภายในไม่ถึง 1 นาทีบน GPU ส่วนใหญ่