10 คะแนน โดย xguru 2024-04-11 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจ็กต์ใหม่ของ Bellard ผู้สร้าง FFMPEG/QEMU
  • TSAC เป็นยูทิลิตีบีบอัดเสียงที่ให้คุณภาพเสียงดี แม้จะทำบิตเรตได้ต่ำมาก เช่น โมโน 5.5kb/s หรือสเตอริโอ 7.5kb/s ที่ 44.1kHz
  • TSAC สามารถบีบอัดเพลงสเตอริโอยาว 3.5 นาทีให้เป็นไฟล์ขนาด 192KiB ได้
  • เพื่อการทำงานที่รวดเร็ว จำเป็นต้องใช้ Nvidia GPU โดยรองรับการทำงานด้วย CPU เพียงอย่างเดียวเช่นกัน แต่จะช้ากว่า

ข้อมูลทางเทคนิค

  • TSAC อิงจากเวอร์ชันดัดแปลงของ Descript Audio Codec ที่ขยายให้รองรับสเตอริโอ และโมเดล Transformer เพื่อเพิ่มอัตราการบีบอัดให้สูงขึ้นอีก ทั้งสองโมเดลถูกควอนไทซ์เป็น 8 บิตต่อพารามิเตอร์
  • โมเดล Transformer ถูกประเมินผลด้วยวิธีที่เป็นเชิงกำหนดและทำซ้ำได้ ดังนั้นผลลัพธ์จึงไม่ขึ้นอยู่กับรุ่นของ GPU หรือ CPU ที่ใช้ หรือจำนวนเธรดที่ตั้งค่าไว้ กล่าวคือ ไฟล์ที่ถูกบีบอัดแล้วสามารถถอดรหัสได้โดยใช้ฮาร์ดแวร์หรือการตั้งค่าซอฟต์แวร์ที่แตกต่างกัน

5 ความคิดเห็น

 
botplaysdice 2024-04-11

ดูจากหน้าเว็บ เห็นว่าเขาเคยสนใจ LLM อยู่ช่วงหนึ่งเหมือนกัน;;;; พอเห็นแบบนี้ก็อดคิดไม่ได้ว่าคนแบบนี้จะมาทำเทคโนโลยีล้ำสมัยแบบนี้ได้ด้วยเหรอ? แล้วก็ยิ่งรู้สึกว่า AI คือกระแสหลักจริง ๆ

 
xguru 2024-04-11

ถ้าจะอัปเดตบทแนะนำเกี่ยวกับคุณลุงระดับสัตว์ประหลาด Fabrice Bellard ที่เคยเขียนไว้ก่อนหน้านี้..

Fabrice Bellard

ปี 1989 พัฒนา LZEXE

ปี 1996 พัฒนา Harissa - เป็นทั้ง Java Virtual Machine และคอมไพเลอร์ที่แปลง Java เป็นโค้ด C

ปี 1997 เผยแพร่สูตรสำหรับหาค่าของหลักบางตำแหน่งของพาย (π) เมื่อนำมาเขียนในเลขฐานสอง
-> คำนวณได้โดยไม่ต้องคำนวณหลักก่อนหน้าเลย หลักที่ 1 ล้านล้านคือ "1"
https://en.wikipedia.org/wiki/Bellard%27s_formula

ปี 1998 เปิดตัว TinyGL - อิมพลีเมนเทชัน OpenGL ขนาดเล็กที่ฝังตัวได้

ปี 2000 เปิดตัว FFMpeg ปัจจุบันวิดีโอเพลเยอร์ส่วนใหญ่ที่เราใช้งานกันอยู่ใช้มัน

ปี 2000 ชนะ IOCCC ด้วยโค้ด C ขนาด 448 ไบต์สำหรับค้นหาจำนวนเฉพาะที่ใหญ่ที่สุด โดยจำนวนเฉพาะนี้เป็นจำนวนที่ใหญ่ที่สุดที่ค้นพบจนถึงปี 2016

ปี 2001 เปิดตัว Tiny C Compiler - คอมไพเลอร์ C ที่เบามาก

ปี 2002 เปิดตัว QEmacs - โคลนของ Emacs แบบน้ำหนักเบามาก รองรับการเรนเดอร์และแก้ไข HTML/XML/CSS2 แบบ WYSIWYG (มีเอนจินเบราว์เซอร์ในตัว)

ปี 2003 เปิดตัว QEMU - ตัวจำลอง CPU ที่มีความสามารถด้านฮาร์ดแวร์เวอร์ชวลไลเซชัน

ปี 2004 เปิดตัว TinyCC Boot Loader - บูตโหลดเดอร์ที่สามารถคอมไพล์ลินุกซ์เคอร์เนลโดยตรงแล้วบูตได้

ปี 2005 เปิดตัวเครื่องสร้างสัญญาณ DVB-T : สามารถส่งสัญญาณดิจิทัลทีวีจากเดสก์ท็อปได้แทนเครื่องส่งราคาแพง อันนี้ไม่ได้เปิดเผยซอร์สโค้ด

ปี 2009 คำนวณค่า π ได้ถึงตำแหน่งทศนิยม 2.7 ล้านล้านหลักและสร้างสถิติโลกใหม่ โดยบอกว่าใช้เดสก์ท็อปของตัวเองคำนวณอยู่ 131 วัน
-> บอกว่าสนใจความท้าทายด้านการเขียนโปรแกรมคอมพิวเตอร์มากกว่าตัวเลขขนาดใหญ่เสียอีก

ปี 2011 เปิดตัว JSLinux ลินุกซ์ที่ทำงานอยู่ในเว็บเบราว์เซอร์

ปี 2019 เปิดตัว QuickJS JavaScript Engine เอนจิน JavaScript ขนาดเล็ก เร็ว และฝังตัวได้

ปี 2022 เปิดตัว TextSynth ซึ่งเป็น SaaS ที่สร้างด้วย gpt2tc(GPT-2)

นอกจากนี้ยังมี BPG ฟอร์แมตภาพที่อิง HEVC และมีอัตราการบีบอัดดีกว่า JPG (มี JavaScript decoder ให้ จึงใช้งานได้บนทุกเบราว์เซอร์)

ยังทำให้ 4G LTE/5G NR base station สามารถสร้างได้ในต้นทุนต่ำบนพื้นฐาน PC และนำไปทำเป็นสินค้าเชิงพาณิชย์ผ่านบริษัทของตัวเองชื่อ Amarisoft

เป็นคนที่ทุกครั้งที่ทำอะไรออกมา ก็ทำให้อดทึ่งไม่ได้ว่านี่เป็นผลงานของคนเพียงคนเดียวจริงๆ

 
mdisprgm 2024-04-11

ว้าว..

 
botplaysdice 2024-04-11

เมื่อก่อนสักครั้งใน HN มีโพสต์เกี่ยวกับโค้ดที่คนนี้เขียนไว้...

มีคนถามว่า 'Bellard ไม่มาโพสต์ที่นี่ (HN) เองเหรอ?' แล้วก็มีคนตอบประมาณว่า 'คนที่ productive ขนาดนั้นจะมานั่งเขียนโพสต์อยู่ที่นี่เหรอ' ... ฮ่าๆ

เป็นสัตว์ประหลาดของจริงเลย....

 
xguru 2024-04-11

ความคิดเห็นจาก Hacker News

สรุป:

  • มีเสียงตอบรับเชิงบวกต่อ TSAC ซึ่งเป็นออดิโอโคเดกใหม่ของ Bellard อยู่มาก โดยเฉพาะประสิทธิภาพที่บิตเรตต่ำซึ่งดูดีกว่าโคเดกเดิม ๆ
  • เมื่อทำให้ไฟล์บีบอัดของ TSAC เสียหาย จะได้ผลลัพธ์ที่น่าสนใจ เสียงของโหมด Fast และโหมดปกติต่างกัน
  • สำหรับการประมวลผลแบบเรียลไทม์จำเป็นต้องใช้ NVIDIA GPU และการถอดรหัสบนอุปกรณ์พกพาอาจเป็นภาระ ทำให้การใช้งานบนระบบฝังตัวสเปกต่ำอาจมีข้อจำกัด
  • ขนาดไฟล์บีบอัดของตัวถอดรหัส TSAC ใหญ่ถึง 237MB จนน่าฉงน และมีการตั้งข้อสงสัยว่าอาจมีตัวอย่างเสียงรวมอยู่ในตัวถอดรหัสหรือไม่
  • มีความสงสัยว่าเมื่อเทียบกับโคเดกที่รองรับบิตเรตต่ำกว่านี้ เช่น Codec2 แล้วจะเป็นอย่างไร
  • มีคอมเมนต์เกี่ยวกับ TSAC จากผู้พัฒนา DAC (โคเดกพื้นฐานของ TSAC) โดยแนวทางการปรับปรุงด้วย Transformer นั้นน่าสนใจ
  • วิธีการทำงานของ TSAC คล้ายกับโมเดลสร้างเพลงด้วย AI บางแบบ โดยบางส่วนป้อนโทเคนเข้า language model เพื่อสร้างเพลง และบางส่วนแทนที่การทำโทเคนไนซ์ด้วยการให้ตัวแทนแบบต่อเนื่องสำหรับโมเดล Diffusion
  • มีการตั้งคำถามต่อวิธีประเมินผลของ TSAC ว่ากำหนดได้แน่นอนและทำซ้ำได้หรือไม่ รวมถึงสงสัยว่าใช้ floating point และการทำงานพร้อมกันหรือไม่ และการพอร์ตไปยัง AMD GPU อาจส่งผลต่อการทำงานแบบกำหนดแน่นอนได้
  • เทคโนโลยีบีบอัดสื่อส่วนใหญ่มุ่งเน้นไปที่สถานการณ์บิตเรตต่ำ จึงมีความสงสัยว่าที่บิตเรตสูงผลการปรับปรุงจะมากน้อยเพียงใด เช่น ความต่างด้านประสิทธิภาพของ AV1 ที่ 10Mbps เมื่อเทียบกับ AAC 256kbps