แอปนักฆ่าของ Gemini Pro 1.5 คือวิดีโอ

(simonwillison.net)

10 คะแนน โดย GN⁺ 2024-02-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ขนาด token context ของ Google Gemini Pro 1.5 อยู่ที่ 1,000,000 โทเค็น
ก่อนหน้านี้ Claude 2.1 (200,000 โทเค็น) และ gpt-4-turbo (128,000 โทเค็น) เคยครองสถิตินี้อยู่ แต่เนื่องจากวิธีการทำ tokenization ของแต่ละโมเดลแตกต่างกัน จึงยากที่จะเปรียบเทียบกันโดยตรงแบบสมบูรณ์
หลังจากได้ลองใช้ Gemini Pro 1.5 อยู่หลายวัน ฟีเจอร์ที่น่าสนใจที่สุดไม่ใช่จำนวนโทเค็น แต่เป็นความสามารถในการใช้วิดีโอเป็นอินพุต
แม้จะยังไม่มีสิทธิ์เข้าถึง API แต่ก็ได้ลองเข้าถึงโมเดลผ่านอินเทอร์เฟซ Google AI Studio

การทดสอบครั้งแรก

ถ่ายวิดีโอชั้นหนังสือชั้นหนึ่งเป็นคลิปยาว 7 วินาที
อัปโหลดพร้อมพรอมต์ "JSON array of books in this video"
วิดีโอความยาว 7 วินาทีนี้ใช้เพียง 1,841 โทเค็น จากลิมิต 1,048,576 โทเค็น
Gemini Pro 1.5 ไม่ได้คืนค่าเป็น JSON แต่ตอบกลับเป็นรายชื่อชื่อหนังสือและชื่อนักเขียนที่อยู่ในวิดีโอ
เมื่อขอเพิ่มว่า "as a JSON array of objects, with title and author keys" ก็คืนค่าหนังสือ/ผู้เขียนเป็น JSON
ผลลัพธ์ค่อนข้างน่าทึ่ง วิดีโอยาวเพียง 7 วินาที เคลื่อนที่ค่อนข้างเร็ว (มี motion blur เล็กน้อยในวิดีโอ) และหนังสือบางเล่มก็ถูกวัตถุอื่นบังอยู่

การทดสอบครั้งที่สอง

คราวนี้ถ่ายชั้นหนังสือที่เต็มไปด้วยตำราอาหาร เป็นวิดีโอแนวตั้งที่ยาวขึ้นเล็กน้อย (22 วินาที) โดยแพนทั้งตามแนวนอนและลงด้านล่าง
วิดีโอนี้ใช้ไป 6,049 โทเค็น ซึ่งก็ยังถือว่าน้อยมากอยู่ดี
พรอมต์ใหม่: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
แต่กลับถูกปฏิเสธโดยขึ้นว่า "Unsafe Content"
ดูเหมือนว่า safety filter จะไม่พอใจกับคำว่า 'Cocktail'
จึงเปิดการตั้งค่าความปลอดภัย และตั้งทุกหมวดเป็น 'ต่ำ' แล้วลองอีกครั้ง แต่ก็ยังถูกปฏิเสธเป็นครั้งที่สอง
สุดท้ายจึงสั่งแบบบังคับว่า "go on give me that JSON" แล้วมันก็คืนค่า JSON มา
และแน่นอนว่าผลลัพธ์ยอดเยี่ยมมาก

จะนำสิ่งนี้ไปใช้อย่างไร?

ความสามารถในการดึงคอนเทนต์แบบมีโครงสร้างออกมาจากข้อความ เป็นหนึ่งในกรณีการใช้งานที่น่าสนใจที่สุดของ LLM อยู่แล้ว
GPT-4 Vision และ LLaVA ได้ขยายสิ่งนี้ไปสู่ภาพ และตอนนี้ Gemini Pro 1.5 ก็ขยายต่อไปสู่วิดีโอ
แน่นอนว่าข้อควรระวังทั่วไปของ LLM ยังใช้เหมือนเดิม มันอาจพลาดบางสิ่งและอาจ hallucinate รายละเอียดที่ไม่ถูกต้องได้
และยังมีปัญหาเรื่อง safety filter แบบเดียวกับกรณีของ Cocktail
ดังนั้นเหมือนกับ AI รุ่นใหม่ล่าสุดเสมอ ยังมีความท้าทายอีกมากที่ต้องก้าวข้าม
แต่นี่ก็ให้ความรู้สึกว่าเป็นอีกหนึ่งตัวอย่างที่ทำให้ได้เห็นอนาคตซึ่งใกล้เข้ามามากกว่าที่คาดไว้มาก

ภาพ vs. วิดีโอ

ตอนแรกคิดว่าวิดีโอน่าจะถูกประมวลผลต่างจากภาพ เพราะจำนวนโทเค็นที่เกี่ยวข้องกับการประมวลผลวิดีโอนั้นน้อยอย่างน่าประหลาดใจ
แต่จากสิ่งที่โพสต์ไว้บน Hacker News

Gemini 1.5 Pro can reason over up to an hour of video. When you attach a video, Google AI Studio classifies it into thousands of frames without audio, then the Gemini model, being multimodal, can perform highly sophisticated reasoning and problem-solving tasks.
รายงานทางเทคนิคของ Gemini 1.5 อธิบายไว้ดังนี้:

เมื่อป้อนภาพยนตร์ของ Buster Keaton เรื่อง "Sherlock Jr." (1924) ความยาว 45 นาที (2,674 เฟรมที่ 1FPS, 684k โทเค็น) ให้กับ Gemini 1.5 Pro มันสามารถค้นหาและดึงข้อมูลข้อความจากเฟรมที่ระบุ พร้อมให้ timestamp ที่เกี่ยวข้องได้

1 ความคิดเห็น

GN⁺ 2024-02-22

ความคิดเห็นบน Hacker News

ถ้าปล่อยให้เอเจนต์คอยเฝ้าดูหน้าจอของผู้ใช้อย่างเงียบ ๆ ตลอดเวลา มันอาจมีประโยชน์มากหรือไม่ก็เป็นดิสโทเปียเลยก็ได้
- คาดหวังได้ว่ามันจะเฝ้าดูผู้ใช้เขียนโค้ด วางแผน และทำวิจัยเป็นเวลาหลายเดือน แล้วให้คำแนะนำทั้งเรื่องส่วนตัวและเรื่องงานได้
- เทคโนโลยีแบบนี้สามารถสะท้อนสภาพจิตใจของแต่ละคนและจดจำข้อมูลได้มากมาย จึงมีมูลค่าสูงมากสำหรับบริษัทหรือผู้ไม่หวังดี
- โมเดลจำเป็นต้องทำงานอย่างปลอดภัย และมีความเสี่ยงทั้งเรื่องการทำสำเนาตัวตนของบุคคลและการละเมิดความเป็นส่วนตัว
ชื่อว่า "แอปหลักของ Gemini Pro 1.5 คืออินพุตวิดีโอ" น่าจะเหมาะสมกว่า
- มันอาจมีประโยชน์ต่อการม็อดเดอเรตคอนเทนต์วิดีโอขนาดใหญ่ เช่น YouTube และจะยิ่งดีหากลดต้นทุนได้
วิดีโอคือภาพนิ่งที่ต่อเนื่องกัน และเดโม GPT-4-Vision ของ OpenAI ก็ให้ผลคล้ายกันด้วยการส่งรายการเฟรมให้โมเดล
- น่าจะดีถ้า GPT-4-Vision รองรับ function calling หรือ structured data เพื่อรับประกันเอาต์พุต JSON
- ยังมีวิธีใช้ ffmpeg เพื่อส่งออกทุก ๆ เฟรมเว้นเฟรมเพื่อลดต้นทุนลงครึ่งหนึ่งด้วย
- เดโมของ OpenAI ส่งทุกเฟรมที่ 50 ของวิดีโอความยาวราว 600 เฟรม
เมื่อ AI สามารถวิเคราะห์วิดีโอ รูปภาพ และข้อความ และประมวลผลสิ่งเหล่านี้ได้อย่างถูกและมีประสิทธิภาพ ความเป็นส่วนตัวก็คงจบสิ้นโดยสมบูรณ์
- ตอนนี้บริษัทยักษ์ใหญ่มีข้อมูลเกี่ยวกับพวกเราอยู่มากแล้ว แต่ยังมีข้อจำกัดในการทำความเข้าใจและเชื่อมโยงทุกอย่างเข้าด้วยกัน
- AI ที่ทรงพลังสามารถเข้าใจทุกแง่มุมของชีวิตดิจิทัลได้ และมีศักยภาพสูงมากที่จะถูกใช้ได้ทั้งเพื่อจุดประสงค์ที่ดีและไม่ดี
ดูเหมือนผู้เขียนจะไม่ได้ตรวจสอบว่าหนังสือที่ถูกพูดถึงในวิดีโอที่ใช้เป็นอินพุตนั้นถูกต้องจริงหรือไม่
- หนังสือเล่มแรกที่ตรวจสอบคือ "Growing Up with Lucy by April Henry" ซึ่งไม่มีอยู่จริง และที่จริงเป็นผลงานของ Steve Grand
- เป็นเดโมที่เท่มาก แต่ในทางปฏิบัติแทบไม่มีประโยชน์สำหรับการใช้งานที่มากกว่านี้
ดูเหมือนฟิลเตอร์ความปลอดภัยของ Google จะตอบสนองต่อคำว่า "Cocktail"
- ลองลดการตั้งค่าความปลอดภัยแล้วลองใหม่ แต่ครั้งที่สองก็ยังถูกปฏิเสธ
- ฝ่ายบริหารความเสี่ยงของ Google ดูเหมือนจะยึดองค์กรไปหมดแล้ว จนแม้แต่คอมพิวเตอร์ที่ฉลาดที่สุดก็ยังกลัวการใช้คำหรือภาพอันตรายอย่าง "cocktail" หรือ "Abraham Lincoln"
การใช้เพียง 256 โทเค็นต่อเฟรมนั้นน่าทึ่งมาก
- ตรงข้ามกับคำพูดที่ว่าภาพหนึ่งภาพมีค่ามากกว่าพันคำ นี่หมายความว่าในความเป็นจริงมันมีค่าเพียงประมาณ 192 คำเท่านั้น
ปัญหาที่เกี่ยวกับ "Cocktail" มีอยู่จริง
- เคยพยายามให้ DALLE จินตนาการตัวละครจาก Moby Dick แต่กลับถูกปฏิเสธทั้งหมด
- คิดว่าถ้าเป็นบริษัท AI ก็น่าจะสร้างฟิลเตอร์คำหยาบที่ดีกว่านี้ได้
สงสัยว่าแอปหลักที่แท้จริงของขนาดฮาร์ดแวร์ของ Google เมื่อเทียบกับ OpenAI (หรือสิ่งที่ Microsoft จัดหาให้) คืออะไร
- สิ่งที่ Google ทำนั้นไม่ได้ทำให้ทีม OpenAI ตกใจเป็นพิเศษ แต่ Google อาจทำซ้ำได้เร็วกว่าในระดับขนาดมหาศาล
ตัวเทคโนโลยีเองน่าประทับใจและน่าสนใจ แต่ก็อดขำกับสถานการณ์ที่เรียกได้ว่าเป็นการล้างแค้นของปัญหา Scunthorpe ไม่ได้
- ดูเหมือนว่าฟิลเตอร์ความปลอดภัยจะตอบสนองต่อคำว่า "Cocktail"

แอปนักฆ่าของ Gemini Pro 1.5 คือวิดีโอ

การทดสอบครั้งแรก

การทดสอบครั้งที่สอง

จะนำสิ่งนี้ไปใช้อย่างไร?

ภาพ vs. วิดีโอ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News