- Meta Fundamental AI Research (FAIR) เปิดเผยผลงานวิจัยใหม่หลายรายการ
- รวมผลงานวิจัย 6 รายการที่มุ่งเน้นธีมหลักด้านนวัตกรรม ความคิดสร้างสรรค์ ประสิทธิภาพ และความรับผิดชอบ
Meta Chameleon
- โมเดลสถาปัตยกรรมแบบรวมศูนย์ที่รับข้อความและภาพเป็นอินพุต และสามารถสร้างผลลัพธ์เป็นการผสมกันของข้อความและภาพได้
- ใช้ Tokenization แทนการฝึกแบบอิง Diffusion ในการประมวลผลข้อความและภาพ จึงทำให้ใช้แนวทางแบบบูรณาการได้ และง่ายต่อการออกแบบ การบำรุงรักษา และการขยายต่อ
- เปิดเผยองค์ประกอบหลักของโมเดล Chameleon 7B และ 34B ภายใต้ไลเซนส์สำหรับงานวิจัยเท่านั้น
- โมเดลสร้างภาพยังไม่ได้เปิดเผยในตอนนี้
Multi-Token Prediction
- เสนอแนวทางใหม่ที่ทำนายหลายคำพร้อมกัน แทนวิธีเดิมที่ทำนายทีละคำ
- ประสิทธิภาพของโมเดลและประสิทธิภาพการฝึกดีขึ้น และความเร็วก็เพิ่มขึ้นด้วย
- เปิดเผยโมเดลที่ผ่านการพรีเทรนสำหรับ code completion ภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์/เพื่อการวิจัยเท่านั้น
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- โมเดลสร้างเพลงจากข้อความที่แปลง text prompt ให้เป็นคลิปเพลง
- สามารถรับอินพุตได้หลากหลาย เช่น คอร์ดหรือบีตเฉพาะ เพื่อควบคุมผลลัพธ์เพลงที่สร้างขึ้นได้ดียิ่งขึ้น
- ใช้ Information bottleneck layer และ temporal blurring เพื่อดึงข้อมูลที่เกี่ยวข้องกับการควบคุมเฉพาะด้าน
- ผลการประเมินพบว่าคุณภาพการสร้างใกล้เคียงกับโมเดลอ้างอิง แต่ควบคุมได้หลากหลายกว่ามาก
- เปิดเผยงานวิจัยและหน้าตัวอย่างแล้ว และมีแผนจะเปิดเผยโค้ดสำหรับการอนุมานและโมเดลพรีเทรนในภายหลัง
AudioSeal
- เทคนิค audio watermarking สำหรับตรวจจับเสียงที่สร้างโดย AI
- สามารถระบุตำแหน่งส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในคลิปเสียงที่ยาวกว่า
- ใช้วิธีตรวจจับแบบเฉพาะจุดแทนอัลกอริทึมถอดรหัสที่ซับซ้อนแบบเดิม จึงเพิ่มความเร็วและประสิทธิภาพ
- เปิดเผยภายใต้ไลเซนส์เชิงพาณิชย์ และเป็นส่วนหนึ่งของงานวิจัยเพื่อป้องกันการนำเครื่องมือ generative AI ไปใช้ในทางที่ผิด
สนับสนุนการเปิดเผยชุดข้อมูล PRISM
- การรับฟีดแบ็กจากผู้คนที่หลากหลายเป็นสิ่งสำคัญในการปรับปรุง LLM
- ชุมชนนักวิจัยได้ตั้งคำถามเกี่ยวกับวิธีการ โดเมน และเป้าหมายของกระบวนการให้ฟีดแบ็ก
- Meta สนับสนุนการเปิดเผยชุดข้อมูล PRISM ที่แมปข้อมูลประชากรสังคมและความชอบของผู้เข้าร่วมที่หลากหลาย 1,500 คนจาก 75 ประเทศ
- ชุดข้อมูลนี้แมปความชอบและฟีดแบ็กแบบละเอียดของแต่ละคนต่อบทสนทนาแบบเรียลไทม์ 8,011 รายการกับ LLM 21 ตัว
- หวังว่าจะช่วยส่งเสริมการมีส่วนร่วมในวงกว้างขึ้นในการพัฒนา AI และแนวทางการออกแบบเทคโนโลยีที่ครอบคลุมมากขึ้น
การวัดและปรับปรุงช่องว่างทางภูมิศาสตร์ของระบบสร้างภาพจากข้อความ
- สิ่งสำคัญคือโมเดล text-to-image ต้องทำงานได้ดีกับทุกคน และสะท้อนความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก
- พัฒนาตัวชี้วัดอัตโนมัติชื่อ "DIG In" เพื่อประเมินช่องว่างทางภูมิศาสตร์ที่อาจเกิดขึ้น
- รวบรวมคำอธิบายประกอบมากกว่า 65,000 รายการและคำตอบแบบสำรวจมากกว่า 20 ชุด เพื่อศึกษาว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์อย่างไร
- พบว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์จากองค์ประกอบเฉพาะภายในภาพ มากกว่าจากภาพรวมทั้งภาพ
- จากสิ่งนี้จึงสำรวจวิธีปรับปรุงความหลากหลายของเอาต์พุตจากโมเดล text-to-image
- นำ Contextualized Vendi Score guidance มาใช้ เพื่อเพิ่มความหลากหลายของการแทนภาพในตัวอย่างที่สร้างขึ้น โดยยังคงคุณภาพของภาพและความสอดคล้องระหว่าง prompt กับผลลัพธ์ที่สร้างไว้
ยังไม่มีความคิดเห็น