ชุดข้อมูลใหม่

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) เปิดเผยผลงานวิจัยใหม่หลายรายการ รวมผลงานวิจัย 6 รายการที่มุ่งเน้นธีมหลักด้านนวัตกรรม ความคิดสร้างสรรค์ ประสิทธิภาพ และความรับผิดชอบ Meta Chameleon โมเดลสถาปัตยกรรมแบบรวมศูนย์ที่รับข้อความและภาพเป็นอินพุต และสามารถสร้างผลลัพธ์เป็นการผสมกันของข้อความและภาพได้ ใช้ Tokenization แทนการฝึกแบบอิง Diffusion ในการประมวลผลข้อความและภาพ จึงทำให้ใช้แนวทางแบบบูรณาการได้ และง่ายต่อการออกแบบ การบำรุงรักษา และการขยายต่อ เปิดเผยองค์ประกอบหลักของโมเดล Chameleon 7B และ 34B ภายใต้ไลเซนส์สำหรับงานวิจัยเท่านั้น โมเดลสร้างภาพยังไม่ได้เปิดเผยในตอนนี้ Multi-Token Prediction เสนอแนวทางใหม่ที่ทำนายหลายคำพร้อมกัน แทนวิธีเดิมที่ทำนายทีละคำ ประสิทธิภาพของโมเดลและประสิทธิภาพการฝึกดีขึ้น และความเร็วก็เพิ่มขึ้นด้วย เปิดเผยโมเดลที่ผ่านการพรีเทรนสำหรับ code completion ภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์/เพื่อการวิจัยเท่านั้น JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) โมเดลสร้างเพลงจากข้อความที่แปลง text prompt ให้เป็นคลิปเพลง สามารถรับอินพุตได้หลากหลาย เช่น คอร์ดหรือบีตเฉพาะ เพื่อควบคุมผลลัพธ์เพลงที่สร้างขึ้นได้ดียิ่งขึ้น ใช้ Information bottleneck layer และ temporal blurring เพื่อดึงข้อมูลที่เกี่ยวข้องกับการควบคุมเฉพาะด้าน ผลการประเมินพบว่าคุณภาพการสร้างใกล้เคียงกับโมเดลอ้างอิง แต่ควบคุมได้หลากหลายกว่ามาก เปิดเผยงานวิจัยและหน้าตัวอย่างแล้ว และมีแผนจะเปิดเผยโค้ดสำหรับการอนุมานและโมเดลพรีเทรนในภายหลัง AudioSeal เทคนิค audio watermarking สำหรับตรวจจับเสียงที่สร้างโดย AI สามารถระบุตำแหน่งส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในคลิปเสียงที่ยาวกว่า ใช้วิธีตรวจจับแบบเฉพาะจุดแทนอัลกอริทึมถอดรหัสที่ซับซ้อนแบบเดิม จึงเพิ่มความเร็วและประสิทธิภาพ เปิดเผยภายใต้ไลเซนส์เชิงพาณิชย์ และเป็นส่วนหนึ่งของงานวิจัยเพื่อป้องกันการนำเครื่องมือ generative AI ไปใช้ในทางที่ผิด สนับสนุนการเปิดเผยชุดข้อมูล PRISM การรับฟีดแบ็กจากผู้คนที่หลากหลายเป็นสิ่งสำคัญในการปรับปรุง LLM ชุมชนนักวิจัยได้ตั้งคำถามเกี่ยวกับวิธีการ โดเมน และเป้าหมายของกระบวนการให้ฟีดแบ็ก Meta สนับสนุนการเปิดเผยชุดข้อมูล PRISM ที่แมปข้อมูลประชากรสังคมและความชอบของผู้เข้าร่วมที่หลากหลาย 1,500 คนจาก 75 ประเทศ ชุดข้อมูลนี้แมปความชอบและฟีดแบ็กแบบละเอียดของแต่ละคนต่อบทสนทนาแบบเรียลไทม์ 8,011 รายการกับ LLM 21 ตัว หวังว่าจะช่วยส่งเสริมการมีส่วนร่วมในวงกว้างขึ้นในการพัฒนา AI และแนวทางการออกแบบเทคโนโลยีที่ครอบคลุมมากขึ้น การวัดและปรับปรุงช่องว่างทางภูมิศาสตร์ของระบบสร้างภาพจากข้อความ สิ่งสำคัญคือโมเดล text-to-image ต้องทำงานได้ดีกับทุกคน และสะท้อนความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก พัฒนาตัวชี้วัดอัตโนมัติชื่อ "DIG In" เพื่อประเมินช่องว่างทางภูมิศาสตร์ที่อาจเกิดขึ้น รวบรวมคำอธิบายประกอบมากกว่า 65,000 รายการและคำตอบแบบสำรวจมากกว่า 20 ชุด เพื่อศึกษาว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์อย่างไร พบว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์จากองค์ประกอบเฉพาะภายในภาพ มากกว่าจากภาพรวมทั้งภาพ จากสิ่งนี้จึงสำรวจวิธีปรับปรุงความหลากหลายของเอาต์พุตจากโมเดล text-to-image นำ Contextualized Vendi Score guidance มาใช้ เพื่อเพิ่มความหลากหลายของการแทนภาพในตัวอย่างที่สร้างขึ้น โดยยังคงคุณภาพของภาพและความสอดคล้องระหว่าง prompt กับผลลัพธ์ที่สร้างไว้

(ai.meta.com)

3 คะแนน โดย xguru 2024-06-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Meta Fundamental AI Research (FAIR) เปิดเผยผลงานวิจัยใหม่หลายรายการ
รวมผลงานวิจัย 6 รายการที่มุ่งเน้นธีมหลักด้านนวัตกรรม ความคิดสร้างสรรค์ ประสิทธิภาพ และความรับผิดชอบ

Meta Chameleon

โมเดลสถาปัตยกรรมแบบรวมศูนย์ที่รับข้อความและภาพเป็นอินพุต และสามารถสร้างผลลัพธ์เป็นการผสมกันของข้อความและภาพได้
- ใช้ Tokenization แทนการฝึกแบบอิง Diffusion ในการประมวลผลข้อความและภาพ จึงทำให้ใช้แนวทางแบบบูรณาการได้ และง่ายต่อการออกแบบ การบำรุงรักษา และการขยายต่อ
- เปิดเผยองค์ประกอบหลักของโมเดล Chameleon 7B และ 34B ภายใต้ไลเซนส์สำหรับงานวิจัยเท่านั้น
- โมเดลสร้างภาพยังไม่ได้เปิดเผยในตอนนี้

Multi-Token Prediction

เสนอแนวทางใหม่ที่ทำนายหลายคำพร้อมกัน แทนวิธีเดิมที่ทำนายทีละคำ
- ประสิทธิภาพของโมเดลและประสิทธิภาพการฝึกดีขึ้น และความเร็วก็เพิ่มขึ้นด้วย
- เปิดเผยโมเดลที่ผ่านการพรีเทรนสำหรับ code completion ภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์/เพื่อการวิจัยเท่านั้น
โฆษณา

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

โมเดลสร้างเพลงจากข้อความที่แปลง text prompt ให้เป็นคลิปเพลง
- สามารถรับอินพุตได้หลากหลาย เช่น คอร์ดหรือบีตเฉพาะ เพื่อควบคุมผลลัพธ์เพลงที่สร้างขึ้นได้ดียิ่งขึ้น
- ใช้ Information bottleneck layer และ temporal blurring เพื่อดึงข้อมูลที่เกี่ยวข้องกับการควบคุมเฉพาะด้าน
- ผลการประเมินพบว่าคุณภาพการสร้างใกล้เคียงกับโมเดลอ้างอิง แต่ควบคุมได้หลากหลายกว่ามาก
- เปิดเผยงานวิจัยและหน้าตัวอย่างแล้ว และมีแผนจะเปิดเผยโค้ดสำหรับการอนุมานและโมเดลพรีเทรนในภายหลัง

AudioSeal

เทคนิค audio watermarking สำหรับตรวจจับเสียงที่สร้างโดย AI
- สามารถระบุตำแหน่งส่วนที่สร้างโดย AI ได้อย่างแม่นยำภายในคลิปเสียงที่ยาวกว่า
- ใช้วิธีตรวจจับแบบเฉพาะจุดแทนอัลกอริทึมถอดรหัสที่ซับซ้อนแบบเดิม จึงเพิ่มความเร็วและประสิทธิภาพ
- เปิดเผยภายใต้ไลเซนส์เชิงพาณิชย์ และเป็นส่วนหนึ่งของงานวิจัยเพื่อป้องกันการนำเครื่องมือ generative AI ไปใช้ในทางที่ผิด

สนับสนุนการเปิดเผยชุดข้อมูล PRISM

การรับฟีดแบ็กจากผู้คนที่หลากหลายเป็นสิ่งสำคัญในการปรับปรุง LLM
- ชุมชนนักวิจัยได้ตั้งคำถามเกี่ยวกับวิธีการ โดเมน และเป้าหมายของกระบวนการให้ฟีดแบ็ก
- Meta สนับสนุนการเปิดเผยชุดข้อมูล PRISM ที่แมปข้อมูลประชากรสังคมและความชอบของผู้เข้าร่วมที่หลากหลาย 1,500 คนจาก 75 ประเทศ
- ชุดข้อมูลนี้แมปความชอบและฟีดแบ็กแบบละเอียดของแต่ละคนต่อบทสนทนาแบบเรียลไทม์ 8,011 รายการกับ LLM 21 ตัว
- หวังว่าจะช่วยส่งเสริมการมีส่วนร่วมในวงกว้างขึ้นในการพัฒนา AI และแนวทางการออกแบบเทคโนโลยีที่ครอบคลุมมากขึ้น

การวัดและปรับปรุงช่องว่างทางภูมิศาสตร์ของระบบสร้างภาพจากข้อความ

สิ่งสำคัญคือโมเดล text-to-image ต้องทำงานได้ดีกับทุกคน และสะท้อนความหลากหลายทางภูมิศาสตร์และวัฒนธรรมของโลก
- พัฒนาตัวชี้วัดอัตโนมัติชื่อ "DIG In" เพื่อประเมินช่องว่างทางภูมิศาสตร์ที่อาจเกิดขึ้น
- รวบรวมคำอธิบายประกอบมากกว่า 65,000 รายการและคำตอบแบบสำรวจมากกว่า 20 ชุด เพื่อศึกษาว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์อย่างไร
- พบว่าผู้คนรับรู้การแทนภาพเชิงภูมิศาสตร์จากองค์ประกอบเฉพาะภายในภาพ มากกว่าจากภาพรวมทั้งภาพ
- จากสิ่งนี้จึงสำรวจวิธีปรับปรุงความหลากหลายของเอาต์พุตจากโมเดล text-to-image
- นำ Contextualized Vendi Score guidance มาใช้ เพื่อเพิ่มความหลากหลายของการแทนภาพในตัวอย่างที่สร้างขึ้น โดยยังคงคุณภาพของภาพและความสอดคล้องระหว่าง prompt กับผลลัพธ์ที่สร้างไว้