• Meta Fundamental AI Research (FAIR) เปิดเผยผลงานวิจัยใหม่หลายรายการ
  • รวมผลงานวิจัย 6 รายการที่มุ่งเน้นธีมหลักด้านนวัตกรรม ความคิดสร้างสรรค์ ประสิทธิภาพ และความรับผิดชอบ

Meta Chameleon

  • โมเดลสถาปัตยกรรมแบบรวมศูนย์ที่รับข้อความและภาพเป็นอินพุต และสามารถสร้างผลลัพธ์เป็นการผสมกันของข้อความและภาพได้
    • ใช้ Tokenization แทนการฝึกแบบอิง Diffusion ในการประมวลผลข้อความและภาพ จึงทำให้ใช้แนวทางแบบบูรณาการได้ และง่ายต่อการออกแบบ การบำรุงรักษา และการขยายต่อ
    • เปิดเผยองค์ประกอบหลักของโมเดล Chameleon 7B และ 34B ภายใต้ไลเซนส์สำหรับงานวิจัยเท่านั้น
    • โมเดลสร้างภาพยังไม่ได้เปิดเผยในตอนนี้

Multi-Token Prediction

  • เสนอแนวทางใหม่ที่ทำนายหลายคำพร้อมกัน แทนวิธีเดิมที่ทำนายทีละคำ
    • ประสิทธิภาพของโมเดลและประสิทธิภาพการฝึกดีขึ้น และความเร็วก็เพิ่มขึ้นด้วย
    • เปิดเผยโมเดลที่ผ่านการพรีเทรนสำหรับ code completion ภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์/เพื่อการวิจัยเท่านั้น

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • โมเดลสร้างเพลงจากข้อความที่แปลง text prompt ให้เป็นคลิปเพลง
    • สามารถรับอินพุตได้หลากหลาย เช่น คอร์ดหรือบีตเฉพาะ เพื่อควบคุมผลลัพธ์เพลงที่สร้างขึ้นได้ดียิ่งขึ้น
    • ใช้ Information bottleneck layer และ temporal blurring เพื่อดึงข้อมูลที่เกี่ยวข้องกับการควบคุมเฉพาะด้าน
    • ผลการประเมินพบว่าคุณภาพการสร้างใกล้เคียงกับโมเดลอ้างอิง แต่ควบคุมได้หลากหลายกว่ามาก
    • เปิดเผยงานวิจัยและหน้าตัวอย่างแล้ว และมีแผนจะเปิดเผยโค้ดสำหรับการอนุมานและโมเดลพรีเทรนในภายหลัง

AudioSeal

  • เทคนิค audio watermarking สำหรับตรวจจับเสียงที่สร้างโดย AI
    • สามารถระบุตำแหน่งส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในคลิปเสียงที่ยาวกว่า
    • ใช้วิธีตรวจจับแบบเฉพาะจุดแทนอัลกอริทึมถอดรหัสที่ซับซ้อนแบบเดิม จึงเพิ่มความเร็วและประสิทธิภาพ
    • เปิดเผยภายใต้ไลเซนส์เชิงพาณิชย์ และเป็นส่วนหนึ่งของงานวิจัยเพื่อป้องกันการนำเครื่องมือ generative AI ไปใช้ในทางที่ผิด

สนับสนุนการเปิดเผยชุดข้อมูล PRISM

  • การรับฟีดแบ็กจากผู้คนที่หลากหลายเป็นสิ่งสำคัญในการปรับปรุง LLM
    • ชุมชนนักวิจัยได้ตั้งคำถามเกี่ยวกับวิธีการ โดเมน และเป้าหมายของกระบวนการให้ฟีดแบ็ก
    • Meta สนับสนุนการเปิดเผยชุดข้อมูล PRISM ที่แมปข้อมูลประชากรสังคมและความชอบของผู้เข้าร่วมที่หลากหลาย 1,500 คนจาก 75 ประเทศ
    • ชุดข้อมูลนี้แมปความชอบและฟีดแบ็กแบบละเอียดของแต่ละคนต่อบทสนทนาแบบเรียลไทม์ 8,011 รายการกับ LLM 21 ตัว
    • หวังว่าจะช่วยส่งเสริมการมีส่วนร่วมในวงกว้างขึ้นในการพัฒนา AI และแนวทางการออกแบบเทคโนโลยีที่ครอบคลุมมากขึ้น

การวัดและปรับปรุงช่องว่างทางภูมิศาสตร์ของระบบสร้างภาพจากข้อความ

  • สิ่งสำคัญคือโมเดล text-to-image ต้องทำงานได้ดีกับทุกคน และสะท้อนความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก
    • พัฒนาตัวชี้วัดอัตโนมัติชื่อ "DIG In" เพื่อประเมินช่องว่างทางภูมิศาสตร์ที่อาจเกิดขึ้น
    • รวบรวมคำอธิบายประกอบมากกว่า 65,000 รายการและคำตอบแบบสำรวจมากกว่า 20 ชุด เพื่อศึกษาว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์อย่างไร
    • พบว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์จากองค์ประกอบเฉพาะภายในภาพ มากกว่าจากภาพรวมทั้งภาพ
    • จากสิ่งนี้จึงสำรวจวิธีปรับปรุงความหลากหลายของเอาต์พุตจากโมเดล text-to-image
    • นำ Contextualized Vendi Score guidance มาใช้ เพื่อเพิ่มความหลากหลายของการแทนภาพในตัวอย่างที่สร้างขึ้น โดยยังคงคุณภาพของภาพและความสอดคล้องระหว่าง prompt กับผลลัพธ์ที่สร้างไว้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น