- AV2 คือ โอเพนวิดีโอโค้ดกรุ่นถัดไป ที่กำลังพัฒนาโดย Alliance for Open Media และหลังพัฒนามา 5 ปี ก็กำลังจะ เผยแพร่มาตรฐานสุดท้ายในช่วงปลายปี 2025
- ผลการทดสอบระบุว่า AV2 สามารถทำ บิตเรตต่ำกว่า AV1 ราว 30% ที่คุณภาพภาพเท่ากัน และทำสถิติ ปรับปรุงตามเกณฑ์ VMAF ได้ 32.59%
- จุดเด่นคือเพิ่มประสิทธิภาพด้วย การทำให้เหมาะสมทางคณิตศาสตร์และการปรับปรุงอัลกอริทึม มากกว่านวัตกรรมที่อาศัย AI
- ด้วย ซูเปอร์บล็อก 256×256, การแบ่งแบบเรียกซ้ำเต็มรูปแบบ, โหมดทำนายที่อิงข้อมูล, TIP(Temporal Interpolation) เป็นต้น จึงช่วยยกระดับการประมวลผลภาพความละเอียดสูงและฉากที่มีการเคลื่อนไหวเร็ว
- ยืนยันประสิทธิภาพด้านฮาร์ดแวร์แล้ว และจากนี้จุดโฟกัสของการพัฒนาจะย้ายไปที่ การปรับแต่ง encoder และการขยายโปรไฟล์ที่รองรับ AI
สถานะการพัฒนา AV2
- AV2 ยังคง โครงสร้างแบบไฮบริดที่อิงบล็อกของ AV1 ไว้ แต่เพิ่ม ซูเปอร์บล็อกขนาดใหญ่ขึ้นเป็น 256×256 และใช้วิธี การแบ่งแบบเรียกซ้ำอย่างสมบูรณ์
- แยกการแบ่งของ luma และ chroma ออกจากกัน ทำให้การทำนายมีความละเอียดมากขึ้น
- ระบบทำนายมาพร้อม โหมด intra ที่อิงข้อมูล, โมเดล chroma-from-luma ที่ปรับปรุงแล้ว, และ ระบบอ้างอิงแบบจัดอันดับที่ใช้เฟรมอ้างอิงได้สูงสุด 7 เฟรม
- มีการเพิ่มฟีเจอร์ TIP(Temporal Interpolation Prediction) เพื่อเพิ่มประสิทธิภาพการชดเชยการเคลื่อนไหวในฉากที่เคลื่อนที่เร็วหรือมีความละเอียดสูง
คุณภาพและประสิทธิภาพการบีบอัด
- Andrey Norkin จาก Netflix ประกาศว่ายืนยันการ ลดบิตเรตได้ 28.63% ตามเกณฑ์ PSNR-YUV และ 32.59% ตามเกณฑ์ VMAF
- VMAF(Video Multi-Method Assessment Fusion) คือดัชนีวัดคุณภาพวิดีโอที่ Netflix พัฒนาขึ้น โดยสะท้อนการประเมินคุณภาพภาพเชิงอัตวิสัย
- การปรับปรุงเหล่านี้เป็นผลจาก การสร้างแบบจำลองทางคณิตศาสตร์และนวัตกรรมอัลกอริทึม ไม่ใช่ AI โดยแม้ว่า กลุ่ม AOM จะกล่าวถึงความเป็นไปได้ในการขยายด้วย AI แต่ตัวโค้ดกเองยังคงอิงแนวทางดั้งเดิม
ระบบแปลงและควอนไทซ์
- มีการนำ quantizer แบบ exponential แบบรวมศูนย์ มาใช้ เพื่อรองรับ วิดีโอ 8, 10, 12 บิต ได้ด้วยช่วงที่กว้างขึ้นและความแม่นยำสูงขึ้น
- ด้วย Trellis-based quantization และ เมทริกซ์ที่ผู้ใช้กำหนดเอง จึงควบคุมรายละเอียดได้ดีแม้ในบิตเรตต่ำ
- ใช้ transform แบบอิงการเรียนรู้ และ cross-component transform เพื่อลด artifact จากการบีบอัดพร้อมคงพื้นผิวของภาพไว้
- coefficient coding ได้รับการปรับปรุงให้เหมาะกับคอนเทนต์บนหน้าจอและคอนเทนต์แบบผสม
การกรองและการประมวลผลหลังบ้าน
- deblocker แบบทั่วไปที่รวมเป็นหนึ่งเดียว ช่วยรักษารายละเอียดพื้นผิวได้ดีขึ้น และ
ฟิลเตอร์ใหม่อย่าง Guided Detail Filter และ Cross-Component Sample Offset ก็ช่วยเพิ่มประสิทธิภาพการลดนอยส์
- film grain synthesis สามารถนำไปใช้ได้อย่างยืดหยุ่นมากขึ้น
- รองรับ วิดีโอหลายชั้น (multi-layer) และ วิดีโอสเตอริโอ (stereo video) เพื่อรองรับฟอร์แมตมัลติมีเดียยุคถัดไป
แผนต่อจากนี้
- เครื่องมือทั้งหมดของ AV2 ผ่านการยืนยันประสิทธิภาพด้านฮาร์ดแวร์แล้ว
- ขั้นถัดไปจะมุ่งเน้นไปที่ การปรับแต่ง encoder และการพัฒนา โปรไฟล์สำหรับความลึกบิตสูงและการขยายด้วย AI
- มาตรฐานสุดท้าย (specification) มีกำหนด ประกาศในช่วงปลายปี 2025 และหลังจากนั้นคาดว่าจะเริ่มนำไปใช้เชิงพาณิชย์บนแพลตฟอร์มและบริการสตรีมมิงหลักอย่างต่อเนื่อง
3 ความคิดเห็น
ตอนแรกก็คิดว่าชื่อ AV1 แปลกดี ที่แท้ก็วางแผนกันไว้หมดแล้วนี่เอง...
นึกว่า AV1 จะเป็นจุดสิ้นสุดแล้วเสียอีก แต่ยังมีโอกาสพัฒนาไปได้อีกงั้นเหรอ?!
เทคโนโลยีนี่ช่างคาดเดาไม่ได้จริง ๆ...
ความเห็นจาก Hacker News
สงสัยว่าบริการสตรีมมิงจะเลิกบีบอัดเกินพอดีกันเมื่อไหร่ ทั้งที่ใช้ทีวี 4K ระดับท็อปกับอินเทอร์เน็ตกิกะบิตอยู่ แต่ภาพกลับดูเหมือนโป๊วเพราะอาร์ติแฟกต์จากการบีบอัด คุณภาพภาพที่ดีที่สุดที่เคยเห็นจริง ๆ กลับเป็นตอนดูผ่านเสาอากาศดิจิทัลง่าย ๆ เมื่อ 20 ปีก่อน โดยเฉพาะฉากไล่เฉดหรือฉากมืดในหนังที่ร่องรอยการบีบอัดชัดมาก อนึ่ง ทีวีของฉันคาลิเบรตไว้สมบูรณ์แล้ว และก็ใช้แพ็กเกจสตรีมมิงที่แบนด์วิดท์สูงสุดอยู่ด้วย ตัวอย่างภาพที่คล้ายกันในเชิงภาพดูได้จากลิงก์ ที่นี่
ในมุมของบริการสตรีมมิง ค่าใช้จ่ายในการส่งคอนเทนต์มหาศาลมาก และเป็นต้นทุนก้อนใหญ่ที่สุดหลังจากผลิตคอนเทนต์เสร็จแล้ว จึงต้องใช้วิธีสุดโต่งเพื่อลดบิตเรต นั่นจึงเป็นเหตุผลที่ Netflix นำอัลกอริทึมลบ film grain (noise) ออก แล้วเพิ่ม noise ที่สร้างขึ้นเทียมฝั่งไคลเอนต์เข้าไป และยังมีกรณีที่ YouTube Shorts เพิ่งใช้เทคนิค denoise แบบสุดโต่งด้วย Noise เป็นข้อมูลสุ่มจึงบีบอัดได้ยากมาก เลยอยากกำจัดออกให้มากที่สุด แต่พอลบ noise ออกจากวิดีโอที่ถ่ายจากกล้องจริง ก็มีผลข้างเคียงคือรายละเอียดเล็กจิ๋วหายไปด้วย ดูการถกเถียงที่เกี่ยวข้องได้ที่นี่
การที่เห็นร่องรอยการบีบอัดในฉากไล่เฉดหรือฉากมืด เป็นอาการที่มักเกิดเมื่อคาลิเบรตทีวีไม่ถูกต้อง หลายครั้งเกิดจากตั้ง contrast สูงเกินไป ผู้คนมักชอบปรับเพื่อให้เห็นรายละเอียดในฉากมืดทั้งหมด แต่จริง ๆ แล้วมีส่วนที่ไม่ควรเห็น ถ้าจอดิสเพลย์ปรับถูกต้อง บริเวณมืดควรแทบมองไม่เห็นเลย โคเดกส่วนใหญ่ก็ออกแบบมาให้ตัดรายละเอียดในฉากมืดออกอยู่แล้ว แน่นอนว่าบริการสตรีมมิงเองก็ใช้หลักนี้หนักเกินไปจริง แต่ความขัดแย้งแบบนี้ส่วนหนึ่งก็มาจากคนจำนวนมากปรับจอผิดด้วย
ก่อนโควิด Netflix เคยใช้ราว 8Mbps สำหรับคอนเทนต์ 1080P ซึ่งถือว่าดีพอสมควรด้วย x264/beamr และยิ่งดีกว่าใน HEVC แต่หลังโควิด บริการสตรีมมิงทั้งหมดลดคุณภาพภาพลงเพราะความต้องการพุ่งสูงและข้อจำกัดด้านแบนด์วิดท์ หลังจากนั้นลูกค้าก็ชินกับคุณภาพต่ำลงแล้ว และคงไม่ยกกลับขึ้นไปอีก จากการทดสอบล่าสุดอยู่ที่ราว 3~5Mbps แม้โคเดก HEVC/AV1/AV2 จะลดบิตเรตได้มากกว่า 50% เมื่อเทียบกับ H.264 แต่เมื่อเกินช่วง 0.5~4Mbps ไปแล้ว ส่วนต่างที่ลดได้จะหดลงเร็วมาก และ x264 encoder อาจกลับดูดีกว่าในบิตเรตสูงก็ได้
ไม่ใช่ว่าทุกบริการจะใช้ค่าเฉลี่ยบิตเรตต่ำสุดโต่งแบบ Netflix เสมอไป แต่ละเจ้าต่างกัน หากดูจากตัวอย่างข้อมูล Netflix เรื่อง Kate อยู่ที่ 11.15 Mbps, Disney เรื่อง Andor อยู่ที่ 15.03 Mbps, Amazon เรื่อง Jack Ryan อยู่ที่ 15.02 Mbps, Max เรื่อง The Last of Us อยู่ที่ 19.96 Mbps และ Apple เรื่อง For All Mankind อยู่ที่ 25.12 Mbps ดูตัวเลขและการเปรียบเทียบเพิ่มเติมได้ที่ลิงก์นี้
สำหรับคุณแล้ว ของเถื่อนอาจเหมาะกว่าเสียอีก
ยังน่าทึ่งมากที่ผู้คนยังคิดวิธีลดขนาดวิดีโอได้อีก อยากรู้ว่าเป็นแค่ไอเดียของคนเก่ง ๆ หรือเป็นเพราะมีพลังประมวลผลที่แรงขึ้นในกระบวนการถอดรหัส/เข้ารหัสด้วย
ถูกทั้งสองอย่าง เมื่อฟอร์แมตพัฒนา ก็สามารถใช้วิธีที่สร้างสรรค์ขึ้นหรือทุ่มทรัพยากรคำนวณได้มากขึ้น ตัวอย่างเช่น การเปลี่ยนแปลงของเฟรมจะถูกเข้ารหัสเป็นหน่วย "superblock" (คล้ายกับ<a href="https://en.wikipedia.org/wiki/Macroblock">macroblock</a>) บล็อกเหล่านี้จะอ้างอิงส่วนอื่นในเฟรมหรือเฟรมก่อนหน้าเพื่อประมาณการความเปลี่ยนแปลง ยิ่งกำหนดขอบเขตบริเวณที่เปลี่ยนแปลงของบล็อกได้แม่นยำเท่าไร ก็ยิ่งมีประสิทธิภาพมากขึ้น แต่การอธิบายตำแหน่งของบล็อกเองก็ต้องใช้ข้อมูลด้วย จึงมีข้อจำกัดเพื่อให้คำอธิบายนี้น้อยที่สุด ใน AV2 วิธีนิยามบล็อกเปลี่ยนไป ทำให้เข้ากับบริเวณที่เปลี่ยนแปลงได้ง่ายขึ้น และขนาดบล็อกสูงสุดก็เพิ่มเป็น 2 เท่า ทำให้บีบอัดการเคลื่อนไหวขนาดใหญ่ได้มีประสิทธิภาพขึ้นด้วยจำนวนบล็อกที่น้อยลง นอกจากนี้ยังมีการเปลี่ยนแปลงอีกหลากหลายอย่าง และความสร้างสรรค์เชิงอัลกอริทึมของ encoder ก็ยังพัฒนาต่อเนื่อง การนำความก้าวหน้าเหล่านี้ไปใช้จริงจำเป็นต้องมีฉันทามติในมาตรฐานเกี่ยวกับ transformation, เทคนิค prediction และอื่น ๆ ที่อนุญาตใน bitstream วิดีโออ้างอิงดูได้ที่นี่
สิทธิบัตรยังคงมีบทบาทใหญ่ เทคโนโลยีใหม่ต้องระวังมากไม่ให้ละเมิดสิทธิบัตรเดิม ดังนั้นจึงอาจมีทริกหรือเทคนิคที่ใช้ใน AV1/AV2 ไม่ได้
ต้องมีทั้งสองอย่าง โคเดกล่าสุดต่างมี trade-off คนละแบบในด้านคุณภาพภาพ (PSNR, SSIM), ความซับซ้อนในการประมวลผล (CPU vs DSP vs หน่วยความจำ), พื้นที่จัดเก็บ และบิตเรต จึงไม่มีโคเดกหนึ่งเดียวที่เหมาะที่สุดสำหรับทุกสถานการณ์
สงสัยว่าวันที่โคเดกแบบ generative AI จะถูกใช้ในโปรดักชันจริงจะมาถึงเมื่อไร แนวคิดค่อนข้างตรงไปตรงมา คือ encoder รู้ว่า decoder จะใช้โมเดลไหนแน่ชัด ส่งมาแค่พิกเซลหลัก แล้วให้ decoder เติมส่วนที่เหลือด้วย AI เช่น สร้างใบหน้าคนสุ่มในฝูงชน หรือถ้าจำเป็นก็ส่งข้อมูลเพิ่มเข้าไปในบริเวณนั้นเพื่อชี้นำให้เป็นหน้ามาสคอตของทีมใดทีมหนึ่งได้ หากบีบอัดไปสุดทาง สิ่งที่เหลืออาจไม่ใช่วิดีโออีกต่อไป แต่เป็นข้อมูลคล้ายสคริปต์ข้อความที่อธิบายฉากแทน
ฉันไม่ได้รู้รายละเอียด AV2 มากนัก แต่ตอนเปลี่ยนจาก H.265 ไป H.266 มุม angular prediction เพิ่มขึ้น 2 เท่า และมีการเพิ่มเทคนิคหลายอย่างแม้แค่ใน intra prediction เช่นเครื่องมือทำนาย chroma จาก luma, การคัดลอกบล็อกพิกเซล เป็นต้น ส่วน inter prediction ก็พัฒนาอย่างมาก ทั้งหมดนี้กินตรรกะวงจร/พื้นที่ซิลิคอนของฮาร์ดแวร์ดีโคเดอร์พอสมควร แต่ช่วยลดบิตเรตได้มาก ภาระการคำนวณที่เพิ่มขึ้นสำหรับดีโคเดอร์บน CPU ไม่ได้หนักมากนัก ต้นทุนที่แท้จริงอยู่ฝั่ง encoding เพราะยิ่งมีเครื่องมือ prediction ให้เลือกมาก ก็ยิ่งใช้เวลา encoding นานขึ้นหากต้องการรีดประสิทธิภาพการบีบอัดให้สูงสุด นี่จึงเป็นเหตุผลที่ Google ใช้การเข้ารหัส AV1 เฉพาะกับวิดีโอที่มียอดวิวสูงมากเท่านั้น
นี่เป็นการออกตัวครั้งที่สองแล้ว ก็หวังว่าคราวนี้จะออกมาสมบูรณ์กว่านี้ กำลังรอ ไลฟ์เซสชัน ของ AOM วันที่ 20 ตุลาคมอยู่ เขาวางแผนจะพูดถึงข้อมูลและตัวเลขเพิ่มเติม ความซับซ้อนของการเข้ารหัส/ถอดรหัส โรดแมปฮาร์ดแวร์ดีโคเดอร์ ชุดคิตสำหรับการทดสอบและการตรวจตามสเปก โปรไฟล์ในอนาคต การปรับปรุงของ AVIF และ AV2 รวมถึงการเปรียบเทียบกับ JPEG-XL อยากรู้ว่า 30% BDRATE นี้เทียบกับ AV1 encoder รุ่นล่าสุด หรือเทียบกับ 1.0 กันแน่ และก็น่าจะพูดถึงการปรับปรุง live encoding ด้วย
ลดได้ 30% เมื่อเทียบกับ AV1 นี่โหดมาก รู้สึกเหมือนเพิ่งออกมาไม่นาน แต่จริง ๆ ออกตั้งแต่ปี 2019 แล้ว
ฉันเองก็เพิ่งได้ใช้อุปกรณ์เครื่องแรกที่รองรับฮาร์ดแวร์ AV1 เมื่อปีที่แล้ว ความก้าวหน้าของโคเดกที่รวดเร็วมีข้อเสียเสมอ คือคอนเทนต์ต้องถูกเก็บไว้หลายฟอร์แมตต่อไปเรื่อย ๆ หรือไม่ก็ต้องให้ฝั่งไคลเอนต์ถอดรหัสด้วยซอฟต์แวร์จนกินแบตมาก ซึ่ง YouTube เลือกแนวทางหลังชัดเจน
มันน่าทึ่งจนชวนให้สงสัยเลย ถ้าเป็นจริงก็คงยอดเยี่ยมมาก
งานทำ implementation และ optimization ของโคเดกน่าจะเป็นหนึ่งในงานที่สนุกที่สุดที่ฉันเคยทำในชีวิต อยากลองขุด AV2 แบบลึก ๆ มาก แต่ตอนนี้ไม่มีเวลา
ในที่สุดก็มีโคเดกที่ชื่อไม่เหมือน AVI สักที ดีใจมาก
อินเทอร์เน็ตใยแก้วความเร็วสูงนี่ชักจะดูไม่มีความหมายขึ้นทุกที...
คนส่วนใหญ่ของโลกยังคงใช้เครือข่ายมือถือเป็นหลักในการบริโภคข้อมูลและวิดีโอ
ใช่เลย โชคดีที่ตอนนี้ยังอยู่ในช่วงคืนเงินของ microSD 1TB อยู่พอดี
ต่อไปอาจเริ่มมีการสตรีมคอนเทนต์ 8K หรือไม่ก็เอาไปใช้กับวิดีโอ VR 16K ได้
อุดมคติคือไล่ให้ได้ทั้งประสิทธิภาพสูงสุดและการเข้าถึงสูงสุดพร้อมกัน หลักการเดียวกันนี้ใช้ได้กับพลังประมวลผลหรือแม้แต่ตลาดพลังงานด้วย
ยิ่งมีสื่อมาก ความต้องการด้านความเร็วก็ยิ่งเพิ่ม และพอความเร็วเพิ่ม สื่อก็ยิ่งมากขึ้นอีก เป็นลูปไม่รู้จบ
ฉันเคยคิดว่าชื่อ AV1 เป็นการอ้างอิงหรือเล่นมุกกับ AVI (audio video interlace) แต่พอเป็น AV2 ความรู้สึกแบบนั้นหายไป AV1 มีทั้งไฟล์นามสกุล .av1 และ MIME type แบบ video/AV1 แล้วถ้ามี AV2 ต่อไปก็ต้องซ้ำเป็น .av2 กับ video/AV2 อีกหรือเปล่า แล้ว AVIF จะเป็นอย่างไรต่อก็สงสัยเหมือนกัน
นามสกุล .av1 คือไฟล์ข้อมูล AV1 แบบดิบ ส่วน AV2 ก็น่าจะใช้ .av2 และทั้งสองอย่างไม่เข้ากัน ในทางปฏิบัติจริง วิดีโอสตรีมจะถูกใส่ไว้ในคอนเทนเนอร์อย่าง Matroska(.mkv), WebM หรือ MP4 แล้วระบุรหัสชนิดโคเดกไว้ (av01, av02) ส่วน AVIF ก็เป็นคอนเทนเนอร์เช่นกัน แม้ชื่อจะย่อมาจาก AV1 image format แต่ถ้าต้องการก็สามารถขยายให้รองรับ AV2 ได้ ถ้าอยากให้ตรงชัด ๆ ก็เปลี่ยนชื่อเป็น AOMedia Video Image Format ไปเลย
หมายความว่านามสกุลไฟล์ควรสะท้อนแค่รูปแบบไฟล์เท่านั้น และแยกจากโคเดกภายในอย่างนั้นหรือ? ในอดีตก็เคยมีปัญหาจากการทำแบบนั้นเหมือนกัน การดูแค่นามสกุลแล้วพอรู้ได้ว่าไฟล์จะอ่านได้ไหมก็ค่อนข้างสะดวก
มีใครขึ้นข้อความบล็อกจาก Cloudflare กับฟอร์แมต AV1 หรือ AV2 บ้างไหม?
สงสัยว่าเมื่อไรจะมีโคเดกวิดีโอที่อิงกับ gaussian splatting ออกมา