Meta FAIR เปิดตัวงานวิจัย โมเดล และชุดข้อมูลใหม่ 9 รายการ

(ai.meta.com)

1 คะแนน โดย GN⁺ 2024-12-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta FAIR เปิดเผยผลงาน 9 รายการในรูปแบบโค้ด โมเดล ชุดข้อมูล และเดโม ครอบคลุม เอเจนต์, ความทนทานและความปลอดภัย, รวมถึงสถาปัตยกรรมโมเดล เพื่อการวิจัยด้านความฉลาดของเครื่องขั้นสูง
รายการสำคัญที่เปิดตัวได้แก่ Meta Motivo สำหรับควบคุมฮิวแมนนอยด์เสมือน, Meta Video Seal สำหรับวอเตอร์มาร์กวิดีโอ, โค้ดเบส Flow Matching, Explore Theory-of-Mind, Large Concept Model เป็นต้น
Meta Motivo ใช้ข้อมูลการเคลื่อนไหวแบบไม่มีป้ายกำกับและอัลกอริทึมใหม่ เพื่อวางสถานะ การเคลื่อนไหว และรางวัลไว้ใน latent space เดียวกัน ทำให้งานควบคุมทั้งร่างกายทำได้โดยไม่ต้องฝึกเพิ่มหรือวางแผนเพิ่มเติม
Meta Video Seal ฝังวอเตอร์มาร์กที่มองไม่เห็นและข้อความซ่อนแบบเลือกได้ลงในวิดีโอ และออกแบบให้ทนต่อการแก้ไขทั่วไป เช่น เบลอ ครอป และการบีบอัดจากการแชร์ออนไลน์
นักวิจัยสามารถดาวน์โหลดผลงานที่เปิดเผยเพื่อนำไปทดลอง ผสานรวม และต่อยอดได้ โดย Meta เน้นย้ำวิทยาศาสตร์แบบเปิดที่ทำซ้ำได้และระบบนิเวศแบบเปิด

ขอบเขตการเปิดเผยของ Meta FAIR

Meta FAIR เปิดเผย งานวิจัย โค้ด โมเดล และชุดข้อมูล ล่าสุดให้กับชุมชนนักวิจัย
การเปิดตัวครั้งนี้มุ่งเน้น 3 แกนหลัก
- การสร้าง เอเจนต์ ที่มีความสามารถมากขึ้น
- ความทนทานและความปลอดภัย
- นวัตกรรมสถาปัตยกรรม ที่ช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ได้มีประสิทธิภาพยิ่งขึ้นและขยายขีดความสามารถเกินข้อจำกัดในปัจจุบัน
มีทั้งหมด 9 โปรเจกต์และผลงานที่ดาวน์โหลดและใช้งานได้ทันที
แนวทางคือส่งเสริมการวิจัยแบบทำซ้ำผ่านการเปิดเผยงานวิจัยตั้งแต่ระยะแรก และขับเคลื่อนความก้าวหน้าของ AI อย่างรับผิดชอบ

Meta Motivo: โมเดลพื้นฐานด้านพฤติกรรมสำหรับควบคุมการเคลื่อนไหวของฮิวแมนนอยด์เสมือน

Meta Motivo เป็นโมเดลพื้นฐานด้านพฤติกรรมที่ควบคุมการเคลื่อนไหวของเอเจนต์ฮิวแมนนอยด์เสมือนที่มีร่างกาย เพื่อทำงานที่ซับซ้อน
การเรียนรู้แบบเสริมกำลังชนิดไม่มีผู้สอนแบบเดิมมักต้องใช้ชุดข้อมูลปฏิสัมพันธ์ที่ผ่านการคัดสรร หรือพึ่งพา loss แบบไม่มีผู้สอนที่อาจสร้างนโยบายซึ่งไม่สอดคล้องกับงานเป้าหมาย
Meta Motivo ฝึกด้วยอัลกอริทึมใหม่ที่ใช้ชุดข้อมูลการเคลื่อนไหวแบบไม่มีป้ายกำกับ
- เรียนรู้ representation ที่ฝังสถานะ การเคลื่อนไหว และรางวัลไว้ใน latent space เดียวกัน
- แก้โจทย์การควบคุมทั้งร่างกาย เช่น การติดตามการเคลื่อนไหว การไปถึงท่าทางเป้าหมาย และการปรับรางวัลให้เหมาะสม โดยไม่ต้องฝึกเพิ่มหรือวางแผนเพิ่มเติม
ประสิทธิภาพสามารถแข่งขันกับวิธีเฉพาะงานได้ และเหนือกว่า baseline ล่าสุดทั้งแบบการเรียนรู้แบบเสริมกำลังชนิดไม่มีผู้สอนและแบบ model-based
แสดง ความทนทาน สูงต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น แรงโน้มถ่วง ลม และการรบกวนโดยตรงที่ไม่เคยฝึกมาก่อน
งานวิจัยนี้อาจนำไปสู่เอเจนต์ที่มีร่างกายสมบูรณ์ใน Metaverse, NPC ที่สมจริงยิ่งขึ้น, การทำให้แอนิเมชันตัวละครเข้าถึงได้กว้างขึ้น และประสบการณ์แบบ immersive ใหม่ ๆ
อ่าน论文
ลองใช้เดโม
ดาวน์โหลดโค้ดและโมเดล

Meta Video Seal: วอเตอร์มาร์กวิดีโอแบบโอเพนซอร์ส

Meta Video Seal เป็นเฟรมเวิร์กล่าสุดสำหรับวอเตอร์มาร์กวิดีโอที่ใช้โครงข่ายประสาท
ฝังวอเตอร์มาร์กที่มองไม่เห็นลงในวิดีโอ และสามารถรวม ข้อความซ่อน เพิ่มได้ตามต้องการ
วอเตอร์มาร์กที่ฝังไว้สามารถดึงออกมาในภายหลังเพื่อใช้ยืนยันแหล่งที่มาของวิดีโอ
ออกแบบให้ทนต่อกระบวนการแก้ไขและแชร์วิดีโอทั่วไป
- การเบลอ
- การครอป
- อัลกอริทึมการบีบอัดที่ใช้กันทั่วไปในการแชร์คอนเทนต์ออนไลน์
โมเดล Video Seal เปิดเผยภายใต้ไลเซนส์แบบ permissive พร้อมทั้งบทความ โค้ดสำหรับฝึก โค้ดสำหรับ inference และเดโม
มีการเปิดเผยผลงานที่เกี่ยวข้องกับวอเตอร์มาร์กด้วย
- Meta Omni Seal Bench: ลีดเดอร์บอร์ดสำหรับวอเตอร์มาร์กแบบโครงข่ายประสาทในหลายโมดาลิตี
- Meta Watermark Anything: เปิดเผยใหม่ภายใต้ไลเซนส์แบบ permissive
- เวิร์กช็อปวอเตอร์มาร์ก ICLR ปี 2025
Watermark Anything, Video Seal และ Audio Seal พร้อมให้ดาวน์โหลดและผสานรวมได้
อ่านบทความ
ลองใช้เดโม
ดาวน์โหลดโค้ดและโมเดล Video Seal
ดาวน์โหลดโค้ดและโมเดล Watermark Anything
ดู Omni Seal Bench leaderboard

คู่มือและโค้ดเบส Flow Matching

Flow Matching เป็นพาราไดม์การสร้างข้อมูลที่ใช้ในหลายโมดาลิตี เช่น ภาพ วิดีโอ เสียง ดนตรี และโครงสร้าง 3D อย่างโปรตีน
ภายใน Meta ได้เข้ามาแทนที่วิธี diffusion เดิมในแอปพลิเคชันการสร้างหลายประเภท
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
ในอุตสาหกรรมมีตัวอย่างอย่าง Stable-Diffusion-3, Flux, Fold-Flow และ Physical Intelligence Pi_0
Flow Matching เป็นเฟรมเวิร์ก Generative AI ที่เรียบง่ายแต่ยืดหยุ่น ช่วยปรับปรุงประสิทธิภาพและความคุ้มค่า พร้อมทำให้ generalize ไปยังข้อมูลซับซ้อนได้ง่ายขึ้น
สิ่งที่เปิดเผยประกอบด้วยบทความ การ implement แกนหลักของ Flow Matching ทั้งแบบต่อเนื่องและไม่ต่อเนื่อง และสคริปต์ฝึกล่าสุด
อ่านบทความ
ดาวน์โหลดโค้ด

Explore Theory-of-Mind: การสร้างข้อมูล reasoning ด้านทฤษฎีจิตใจ

Meta Explore Theory-of-Mind เป็นเฟรมเวิร์กการสร้างข้อมูลเชิง adversarial แบบนำทางด้วยโปรแกรม สำหรับ reasoning ด้านทฤษฎีจิตใจ
ชุดข้อมูล Theory-of-Mind เดิมมีข้อจำกัดคือมุ่งเน้นเฉพาะการประเมิน และครอบคลุมปฏิสัมพันธ์ในขอบเขตแคบ
เฟรมเวิร์กนี้สร้างข้อมูล reasoning แบบ ToM ที่หลากหลาย ยาก และขยายได้ ซึ่งใช้ได้ทั้งสำหรับการฝึกและการประเมิน
สามารถสร้างเรื่องราวที่ทนทานและเชื่อถือได้เพื่อทดสอบข้อจำกัดของโมเดลภาษาขนาดใหญ่
เมื่อ fine-tune Llama-3.1 7B สามารถเพิ่ม ความแม่นยำ 27 จุด บน benchmark ToMi ที่ใช้กันทั่วไป
ขอบเขตการใช้งานครอบคลุมการสร้างชุดข้อมูลเพื่อปรับปรุง LLM, การเสริมสถานการณ์แบบมีเป้าหมาย, การเก็บชุดข้อมูลปฏิสัมพันธ์ และ benchmark สำหรับประเมินประสิทธิภาพ LLM
อ่านบทความ
ดาวน์โหลดโค้ด
ดาวน์โหลดชุดข้อมูล

Large Concept Model: ทำนายแนวคิดแทนโทเค็น

Large Concept Model(LCM) เป็นพาราไดม์การฝึกแบบอื่นสำหรับ language modeling
โมเดลภาษากระแสหลักในปัจจุบันมักทำงานในระดับโทเค็น และไม่ได้ reasoning อย่างชัดเจนในแบบลำดับชั้น
แกนหลักของ LCM อยู่ที่การแยก reasoning ออกจากการแสดงออกทางภาษา
- ได้แรงบันดาลใจจากเวลามนุษย์นำเสนอ ที่สามารถคงลำดับไอเดียเดิมไว้ได้ แม้เลือกใช้คำต่างกันในแต่ละครั้ง
LCM ถูกฝึกให้ทำนายแนวคิดถัดไปหรือไอเดียระดับสูงถัดไป ไม่ใช่โทเค็นถัดไป
แนวคิดถูกแทนด้วย ทั้งประโยค ในพื้นที่ embedding แบบ multimodal และหลายภาษา
ในงานสร้างข้อความล้วน เช่น การสรุป แสดงประสิทธิภาพเหนือกว่าหรือใกล้เคียงกับ LLM รุ่นล่าสุด และให้การ generalize แบบ zero-shot ที่แข็งแกร่งสำหรับภาษาที่ไม่เคยเห็น
ยิ่งบริบทอินพุตยาวขึ้น ประสิทธิภาพเชิงคำนวณก็ยิ่งสูงขึ้น
อ่านบทความ
ดาวน์โหลดโค้ด

Dynamic Byte Latent Transformer: โมเดลระดับไบต์แบบไม่ใช้ tokenizer

Dynamic Byte Latent Transformer เป็นโมเดลระดับไบต์แบบลำดับชั้นที่ใช้วิธี patching แบบไดนามิก
โมเดลภาษาเดิม tokenize ข้อความในขั้นตอน pre-processing แบบ heuristic ซึ่งจำกัดการฝึกแบบ end-to-end ทำให้การปรับให้เหมาะสมในงานจริงยากขึ้น และอาจกระทบประสิทธิภาพกับลำดับข้อความที่พบได้น้อย
โมเดลนี้ทำงานบน ไบต์ โดยไม่ใช้ heuristic สำหรับ tokenization
ยังช่วยเพิ่มประสิทธิภาพการประมวลผลลำดับยาวในการฝึกและ inference
มีความทนทานเหนือกว่าโมเดลที่ใช้ tokenizer โดยเฉลี่ย 7 จุด
มีจุดแข็งในการจัดการ long-tail ของสัญลักษณ์ที่ไม่เคยเห็นและลำดับที่พบได้น้อย
แนวทางนี้อาจช่วยพัฒนา reasoning ในด้านต่าง ๆ เช่น ภาษาทรัพยากรต่ำ การเขียนโค้ด และความถูกต้องของข้อเท็จจริง
อ่านบทความ
ดาวน์โหลดโค้ด

Meta Memory Layers: การขยายหน่วยความจำแบบ sparse สำหรับข้อมูลข้อเท็จจริง

Meta Memory Layers at Scale เป็นวิธีเพิ่มความถูกต้องของข้อเท็จจริงใน benchmark ทั่วไปด้าน factuality ด้วยการขยาย memory layer
Parametric memory คือแหล่งเก็บข้อมูลข้อเท็จจริงที่ถูกเก็บไว้ในค่าน้ำหนักของโครงข่ายประสาทระหว่าง pre-training และช่วยให้ LLM เข้าใจแนวคิดซับซ้อนและนัยทางภาษา
เมื่อวิธี scaling เดิมเข้าใกล้ขีดจำกัดของการขยายอย่างมีประสิทธิภาพ จึงต้องการสถาปัตยกรรมใหม่ที่เรียนรู้ข้อมูลได้มีประสิทธิภาพกว่า
Memory Layers เพิ่มพารามิเตอร์ให้โมเดลโดยไม่เพิ่ม FLOPs ผ่านกลไก key-value lookup ที่เรียนรู้ได้
memory layer แบบ sparse activation ช่วยเสริม dense feedforward layer ที่ใช้คอมพิวต์สูง และมอบความจุเฉพาะสำหรับเก็บและค้นคืนข้อมูลได้ในต้นทุนต่ำ
โมเดลภาษาที่ติดตั้ง memory layer ที่ปรับปรุงแล้วทำผลงานในงาน downstream ดีกว่าโมเดลต่อไปนี้
- dense model ที่มีงบคำนวณมากกว่า 2 เท่า
- โมเดล MoE ที่จับคู่ปริมาณคำนวณและจำนวนพารามิเตอร์
ตรงข้ามกับความเชื่อทั่วไปว่าสถาปัตยกรรมหน่วยความจำแบบ sparse ขยายอย่างแข่งขันได้ยาก งานนี้ขยายได้อย่างมีประสิทธิภาพถึง 128B พารามิเตอร์ และ โมเดลฐาน 8B พร้อมแสดงการปรับปรุงเมื่อเทียบกับปริมาณคำนวณใกล้เคียงกันบน benchmark factuality ทั่วไป
อ่านบทความ
ดาวน์โหลดโค้ด

Image Diversity Modeling และ EvalGIM

FAIR ดำเนินงานวิจัยเพื่อทำความเข้าใจการพัฒนาโมเดลสร้างภาพอย่างปลอดภัยและสร้างวิธีใหม่ ๆ
โมเดลสร้างภาพที่พัฒนาระหว่างการวิจัยนี้ต่อยอดจากงานวิจัยก่อนหน้าเรื่อง สถาปัตยกรรม และ loss function ของโมเดลสร้างข้อมูล
โมเดลนี้ให้ความสำคัญกับการสร้างภาพที่เป็นตัวแทนของโลกกายภาพ ขณะยังคงคุณภาพภาพที่แข่งขันกับโมเดลล่าสุดได้
ผู้เชี่ยวชาญภายนอกสามารถใช้โมเดลเพื่อศึกษาด้านที่อาจปรับปรุงความปลอดภัยและความรับผิดชอบโดยรวมของ image diversity modeling ได้
ยังมีแผนเปิดซอร์สชุดเครื่องมือประเมินแบบครบวงจรสำหรับโมเดลสร้างข้อความเป็นภาพ
- เพิ่มความสะดวกและความสามารถในการทำซ้ำของการ benchmark การสร้างภาพ
- ส่งเสริมผลลัพธ์ที่ตีความได้ ซึ่งเป็นประโยชน์ต่อการวิจัยข้อความเป็นภาพอย่างรับผิดชอบ
อ่านบทความ
ดาวน์โหลดโค้ด

Meta CLIP 1.2: ตัวเข้ารหัส vision-language และการคัดสรรข้อมูล

Meta CLIP 1.2 เป็น release สำหรับการพัฒนาตัวเข้ารหัส vision-language ประสิทธิภาพสูง
Meta พัฒนาอัลกอริทึมสำหรับคัดสรรและจัดเรียงข้อมูลภาพ-ข้อความขนาดใหญ่อย่างมีประสิทธิภาพ เพื่อให้โมเดลเรียนรู้ความรู้ของมนุษย์เกี่ยวกับโลก
ชุดข้อมูลขนาดใหญ่ คุณภาพสูง และหลากหลาย มีความจำเป็นต่อการสร้างโมเดลพื้นฐานที่เรียนรู้เกี่ยวกับโลก
Meta CLIP คืองานของ Meta เพื่อสร้างชุดข้อมูลและโมเดลพื้นฐานประเภทนี้
เพื่อโมเดลพื้นฐานตัวเข้ารหัส vision-language ที่มีคุณภาพสูงและปลอดภัย จึงพัฒนาอัลกอริทึมสำหรับคัดสรรและจัดเรียงข้อมูล พร้อมใช้มาตรการด้านความสมบูรณ์ของข้อมูลและการคุ้มครองความเป็นส่วนตัว
สิ่งที่เปิดเผยสามารถให้นักวิจัยและนักพัฒนาใช้เพื่อพัฒนาความเข้าใจ vision-language
- อัลกอริทึมข้อมูล
- สูตรการฝึก
- โมเดลพื้นฐานที่ฝึกด้วยชุดข้อมูลที่คัดสรรแล้ว
ตัวอย่างการใช้งาน ได้แก่ vision encoding สำหรับ MLLM, multimodal embedding สำหรับการค้นหา, การจัดประเภทแบบ zero-shot และจุดเริ่มต้นสำหรับการวิจัยคุณภาพข้อมูล
อัลกอริทึมและวิธีฝึกยังใช้สร้างชุดข้อมูลขนาดใหญ่คุณภาพสูงแบบคล้าย CLIP ตั้งแต่ต้นได้ด้วย
อ่านบทความ
ดาวน์โหลดชุดข้อมูล
ดาวน์โหลดโค้ด
ดาวน์โหลดโมเดล

1 ความคิดเห็น

GN⁺ 2024-12-14

ความคิดเห็นจาก Hacker News

มีเนื้อหาน่าสนใจมากจริง ๆ โดยเฉพาะ แนวคิดเกี่ยวกับ LLM ที่สะดุดตา
มีการนำเสนอแนวทางแยกกันหลายแบบเพื่อปรับปรุงคุณภาพหรือประสิทธิภาพ เช่น โมเดลแนวคิดขนาดใหญ่ที่จัดการและคาดการณ์ "แนวคิด" แทนโทเค็น, dynamic byte latent transformer ที่เป็นทางเลือกแบบระดับไบต์แทนการทำ tokenization มาตรฐาน, และ sparse memory layers ที่ขยายลำดับชั้นหน่วยความจำแบบ key-value โดยไม่เพิ่มความต้องการด้านการคำนวณ
เลยสงสัยว่าถ้าเอาวิธีเหล่านี้มารวมกันทั้งหมด คุณภาพและประสิทธิภาพจะดีขึ้นแค่ไหน และก็แอบคิดว่า บางทีนั่นอาจเป็น Llama 4 ก็ได้
- อยากให้ Llama 4 หรือ 5 ใช้สถาปัตยกรรมที่ต่างออกไป
  Llama ที่ปล่อยออกมาจนถึงตอนนี้มีโครงสร้างการอนุมานที่แทบเหมือนเดิม และแค่ปรับปรุง pipeline การฝึกให้ดีขึ้น
  ข้อเสียคืออาจทำให้ llamacpp รันโมเดลใหม่ไม่ได้ และอาจต้องเขียนใหม่ครั้งใหญ่จนต้องมีโปรแกรม C, C++, Go, Rust ชุดใหม่ขึ้นมา
- สงสัยว่าจะมีวิธีนำเสนอคอนเทนต์แบบนี้ให้ดีกว่านี้ไหม
  ผมกำลังทำเอกสารหรือเดโมคล้าย ๆ กันอยู่ ถ้าเป็นหน้าเอกสารก็สามารถจัดแต่ละส่วนให้มีโครงแบบสม่ำเสมอ เช่น ชื่อเรื่อง เนื้อหา ลิงก์โค้ด และลิงก์งานวิจัย
  แต่หน้านี้เป็นโพสต์บล็อก เลยรู้สึกว่าปีหน้าคงกลับมาหาเจอยาก
  มีตัวอย่างอื่นไหมที่บริษัทต่าง ๆ สรุปงานเทคนิคได้ดีและยังค้นเจอได้เรื่อย ๆ จากหน้าเว็บหลัก?
- ค่อนข้างน่าประหลาดใจที่ท้ายที่สุด Meta กลายเป็น องค์กร AI แบบเปิด ที่ใหญ่ที่สุด
  แน่นอนว่าไม่ใช่ “โอเพนซอร์ส” แต่ก็เปิดให้ใช้งานได้ และประกาศงานวิจัยต่อสาธารณะ
เจ๋งมาก
เดโมแรกเล่นสนุกมาก และเหมือนเป็นเกมที่ใครทำให้โมเดล เดินมูนวอล์ก ได้คนนั้นชนะ
ความพยายามที่ดีที่สุดของผมน่าจะประมาณ (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9)
https://i.imgur.com/O5hGMo5.gif
แล้ว “Meta Explore Theory of Mind” ก็น่าสนใจกว่าอีก
เมื่อประมาณเดือนก่อนก็มีเธรดที่คุยกันเรื่องแนวคิดอย่าง “ความเชื่อ” และการอัปเดต world model ให้สอดคล้องกับมัน
https://news.ycombinator.com/item?id=42035985
หวังว่า dynamic byte latent transformer จะไปได้ดี
อยากให้ tokenizer หายไปได้แล้ว
อีกจุดที่น่าสนใจคือมันเป็นโครงสร้างแบบลำดับชั้น แต่มีเพียงสองชั้น และการเพิ่มชั้นให้มากขึ้นก็ดูเป็นทิศทางต่อยอดที่เป็นธรรมชาติสำหรับงานวิจัยถัดไป
- ผมเป็นผู้เขียนเอง :)
  คิดว่าเป็นทิศทางการวิจัยที่ดี
  แค่ถ้าจะทำทั้งหมดในครั้งเดียวมันก็เยอะไปหน่อย และต้องระวังด้วยว่าจะจัดสรร งบ FLOP ข้ามทั้งลำดับชั้นอย่างไร
  ถ้าเป็นสองชั้น ก็ทำให้ฝั่งหนึ่งเป็นไบต์/ตัวเข้ารหัสเฉพาะที่ซึ่งใช้ FLOP ได้คุ้มค่า และอีกฝั่งเป็นแพตช์/ตัวเข้ารหัสระดับโลกที่ใช้ FLOP ได้มากกว่า
  ยังต้องหาวิธีรวมแพตช์ให้เป็นหน่วยที่ใหญ่ขึ้นด้วย แต่ก็มีหลายทิศทางที่ไปต่อจากตรงนี้ได้
ถ้าคิดถึงแรงจูงใจทางธุรกิจเบื้องหลังที่ Meta ทำเรื่องนี้ ก็เพราะมีเงินสดถึง 7 หมื่นล้านดอลลาร์ เลยทำให้การจ่ายเงินหลายร้อยล้านให้ผู้เชี่ยวชาญด้าน AI ดูเหมือนเรื่องเล็ก
- ลองจินตนาการว่ามีการเปลี่ยนแปลงครั้งใหญ่ในโลกงานวิจัย AI
  AI อาจเพิ่มผลิตภาพของโปรแกรมเมอร์ได้มากแบบฉับพลัน, เก่งมากในการค้นหาช่องโหว่, AI แชตอาจกลายเป็นความบันเทิงรูปแบบใหญ่ใหม่, หรือภาพจาก AI อาจกลายเป็นคอนเทนต์ที่แชร์กันอย่างกว้างขวางบน Instagram
  ถ้าอย่างใดอย่างหนึ่งเกิดขึ้น Facebook ก็อาจอยากเข้าถึง โมเดลล้ำสมัยที่สุด เพื่อนำมาปรับแต่งใช้กับนักพัฒนาภายใน เครื่องมือของตัวเอง หรือ embedding ในแอป
  แต่ถ้าวิธีเดียวในการเข้าถึงคือการทำสัญญามูลค่า 7-9 หลักกับผู้ขายโมเดลอย่าง OpenAI มันก็คงแย่มาก
  ที่แย่กว่านั้นคือ คู่แข่งหลักด้านโฆษณาอาจเริ่มให้เครื่องมือ AI อันทรงพลังแก่ผู้ลงโฆษณา เพื่อช่วยปรับงานครีเอทีฟให้เข้ากับหลายรูปแบบ
  ถ้าเป็นแบบนั้น Facebook ก็จะตามหลังอย่างหนัก และอาจต้องจ่ายเงินหลายล้านให้บริษัทอย่าง OpenAI ไปพร้อมกับเสียส่วนแบ่งโฆษณามูลค่าหลายพันล้านในแต่ละไตรมาส
  ถ้าสถานการณ์เลวร้ายที่สุดนี้เกิดขึ้น Facebook จะดูโง่มาก และถ้ามีโอกาสที่เรื่องเหล่านี้จะเกิดขึ้นแม้เพียงข้อเดียว การลงทุนก็สมเหตุสมผล
  ผลด้านโอเพนซอร์สหรือการทำให้ Meta เป็นที่ทำงานที่ดูเท่ก็เป็นโบนัสเชิงกลยุทธ์เพิ่มเติม
- มองแบบ “ทำให้สิ่งเกื้อหนุนกลายเป็นสินค้าทั่วไป” ก็น่าจะเหมาะ
  ถ้า OpenAI ประสบความสำเร็จมากจนกลายเป็นตัวเลือกเดียว ก็อาจเรียกเก็บ ค่าเช่าผูกขาด จำนวนมหาศาลจากทุกคนที่ใช้บริการนั้น
  เพราะแบบนั้น บริษัทอื่น ๆ หรือใครก็ตามที่อยากใช้ AI จึงได้ประโยชน์จากการมีคู่แข่งจำนวนมากในระบบนิเวศ AI เพื่อให้ราคายังคงต่ำ
- ถ้าอยากดึงนักวิจัยระดับท็อปมาได้มากพอ ก็ต้องยอมให้ เผยแพร่งานวิจัย
- ผู้เชี่ยวชาญ AI เหล่านั้นเองก็เป็นปัจจัยสำคัญตั้งแต่แรกที่ทำให้ Meta หาเงินได้ 7 หมื่นล้านดอลลาร์
- ผมคิดว่าคนที่ตอบมาก่อนหน้านี้เข้าใจผิดแบบใสซื่อกันหมด
  Facebook ขายพื้นที่โฆษณาในหลายแอป และการที่พื้นที่โฆษณานั้นจะมีค่าก็ต้องมีคนอยู่ในแอป
  ถ้าจะให้คนอยู่ในแอป ก็ต้องมีคอนเทนต์ที่ดึงดูดพวกเขา
  งั้นก็ง่ายมาก: ทำให้ใครก็ตาม ไม่ว่าจะเป็นคนทั่วไปหรือบริษัท สามารถสร้าง คอนเทนต์ปริมาณมากในต้นทุนต่ำ แล้วเอามาแชร์ในแอปได้
ไม่นานมานี้ผมมีโอกาสฟัง Ross Taylor อดีตพนักงาน Meta พูดที่งาน AI Engineer London meetup
มีวิดีโอเต็มของงานพูดนี้ขึ้นไว้ด้วย
https://www.youtube.com/watch?v=S5l5OvJ01ws
ผมไม่ทันตระหนักเลยว่า Meta ทำงานไว้มากแค่ไหนในด้าน การอนุมานและทฤษฎีจิตใจ
- เป็นวิดีโอที่ดี
  ช่วยให้มอง o1 ได้อยู่ในบริบท
  เมื่อ OpenAI, Google และ Meta ปล่อยของกันเร็วขนาดนี้ ดูเหมือนตาถัดไปจะเป็นของ Anthropic
ทุกครั้งที่ต้องจัดระเบียบข้อความ ผมมักสงสัยว่าทำไมเราไม่ฝึก byte-level denoising autoencoder ขึ้นมาให้จัดการแทนไปเลย
- เป็นไอเดียที่น่าสนใจ
  ในงานวิชัน มันจับทั้งบริบทระดับกว้างและระดับเฉพาะที่ได้อย่างมีประสิทธิภาพ ผมเลยสงสัยอยู่เสมอว่าถ้าลองใช้ U-Net หรือ hourglass net กับข้อมูลข้อความจะเป็นยังไง แม้จะยังไม่เคยลองทำเองก็ตาม
มีใครช่วยอธิบายได้ไหมว่าการใส่ ลายน้ำ ลงในวิดีโอ AI แบบสมัครใจจะช่วยทำให้ AI ปลอดภัยขึ้นได้อย่างไร?
- ฝั่งที่ให้บริการสร้างวิดีโอ AI สามารถทำให้วิดีโอทุกชิ้นที่ตัวเองสร้างมีลายน้ำได้
  ดังนั้นเจตนาจึงไม่ใช่ความสมัครใจ แต่เป็นการบังคับใช้ในระดับบริการ
  สุดท้ายแล้วอาจเหลือเพียงบริการที่ไม่ทำตามกฎของ Big Tech ในปัจจุบัน
  ตัวอย่างเช่น Grok/X.ai ที่แม้คุณภาพจะด้อยกว่า แต่ผู้คนก็ใช้ Grok/X.ai เพื่อสร้างภาพสนับสนุน Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- ณ ตอนนี้ต้นทุนในการฝึกโมเดลอยู่ที่ประมาณเท่าไร?
  ภายในไม่กี่ปีข้างหน้า ดูเหมือนว่าจะอยู่ในระดับที่ประเทศหลัก ๆ หรือบรรดาคณาธิปไตยส่วนใหญ่สามารถจ่ายไหว และอาจเป็นแบบนั้นอยู่แล้วก็ได้
  เพราะงั้นการเข้าใจว่าการใส่ลายน้ำเป็นเรื่องสมัครใจสำหรับทุกฝ่ายน่าจะสมจริงที่สุด
  ตอนนี้ผมมองว่ารูปภาพและวิดีโอไม่มีมูลค่าแม้แต่เท่ากับบิตของมันเองในฐานะหลักฐานของข้อเท็จจริงใดข้อเท็จจริงหนึ่ง
เป็นเรื่องที่น่าสนใจแบบเหลือเชื่อจริง ๆ
ทุกคนพูดกันว่ามันน่าตื่นเต้นแค่ไหน โดยเฉพาะ LCM กับโทเคไนเซอร์ที่ไม่ทำ tokenization แต่ถ้ามีใครติดตามเรื่องนี้อยู่ ผมอยากถามว่า
ทำไมถึงใช้คำว่า “advanced machine intelligence”?
ตอนแรกผมนึกว่าเป็นการปลอบหรือเบี่ยงความสนใจพวกสายวันสิ้นโลก แต่ก็อาจเป็นเพราะผมคิดมากไปเอง
- คำนี้มาจากบทความของ Yann LeCun ในปี 2022
  AMI เป็นคำที่ใช้แยกออกจาก AGI
  เพียงแต่ในช่วงไม่กี่ปีที่ผ่านมา A ถูกใช้สลับกันเป็น autonomous, advanced, augmented ตามบริบท
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- ดูเหมือน LeCun จะไม่ชอบคำว่า AGI
- กำลังรอวันที่สักวันหนึ่งสิ่งเหล่านี้จะถูกเรียกว่า Minds :)
- ดูเหมือนว่าจะเป็นการตอบสนองต่อผลสำรวจตลาดล่าสุดที่พบว่าคนทั่วไปมองสิ่งที่ติดป้ายว่า “AI” ว่าส่วนใหญ่เหมือนของหลอกลวงและไม่น่าเชื่อถือ
Meta พัฒนาด้านภาพได้ดีขึ้นชัดเจน และกำลังช่วยทำให้ AI เป็น เทคโนโลยีที่ไม่มีคูเมือง
- Meta ไม่ได้ขาย IaaS หรือ PaaS แต่ถ้า AI ไปอยู่ในมือของผู้เล่นที่มากกว่าแค่ Google และ OpenAI ความสอดคล้องกับ Meta ก็จะสูงขึ้น
  เมื่อทำให้ AI กลายเป็นเทคโนโลยีทั่วไป ก็จะเกิดธุรกิจหลากหลายขึ้น และธุรกิจเหล่านั้นจะเข้าถึงลูกค้าผ่านแพลตฟอร์มของ Meta
- ต่อให้ทำสิ่งดี ๆ ด้วย LLM ได้แค่ไหน ก็ยังคงทำลายสังคมด้วย Facebook อยู่ดี
- ถ้ายังทำบาปกำเนิดต่อไป ก็ไม่ใช่การไถ่บาป
เหมือนกำลัง เรียนสถาปัตยกรรมใหม่พร้อมกันสัก 10 อย่าง

Meta FAIR เปิดตัวงานวิจัย โมเดล และชุดข้อมูลใหม่ 9 รายการ

ขอบเขตการเปิดเผยของ Meta FAIR

Meta Motivo: โมเดลพื้นฐานด้านพฤติกรรมสำหรับควบคุมการเคลื่อนไหวของฮิวแมนนอยด์เสมือน

Meta Video Seal: วอเตอร์มาร์กวิดีโอแบบโอเพนซอร์ส

คู่มือและโค้ดเบส Flow Matching

Explore Theory-of-Mind: การสร้างข้อมูล reasoning ด้านทฤษฎีจิตใจ

Large Concept Model: ทำนายแนวคิดแทนโทเค็น

Dynamic Byte Latent Transformer: โมเดลระดับไบต์แบบไม่ใช้ tokenizer

Meta Memory Layers: การขยายหน่วยความจำแบบ sparse สำหรับข้อมูลข้อเท็จจริง

Image Diversity Modeling และ EvalGIM

Meta CLIP 1.2: ตัวเข้ารหัส vision-language และการคัดสรรข้อมูล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News