แอปนักฆ่าของ Gemini Pro 1.5 คือวิดีโอ
(simonwillison.net)- ขนาด token context ของ Google Gemini Pro 1.5 อยู่ที่ 1,000,000 โทเค็น
- ก่อนหน้านี้ Claude 2.1 (200,000 โทเค็น) และ gpt-4-turbo (128,000 โทเค็น) เคยครองสถิตินี้อยู่ แต่เนื่องจากวิธีการทำ tokenization ของแต่ละโมเดลแตกต่างกัน จึงยากที่จะเปรียบเทียบกันโดยตรงแบบสมบูรณ์
- หลังจากได้ลองใช้ Gemini Pro 1.5 อยู่หลายวัน ฟีเจอร์ที่น่าสนใจที่สุดไม่ใช่จำนวนโทเค็น แต่เป็นความสามารถในการใช้วิดีโอเป็นอินพุต
- แม้จะยังไม่มีสิทธิ์เข้าถึง API แต่ก็ได้ลองเข้าถึงโมเดลผ่านอินเทอร์เฟซ Google AI Studio
การทดสอบครั้งแรก
- ถ่ายวิดีโอชั้นหนังสือชั้นหนึ่งเป็นคลิปยาว 7 วินาที
- อัปโหลดพร้อมพรอมต์ "JSON array of books in this video"
- วิดีโอความยาว 7 วินาทีนี้ใช้เพียง 1,841 โทเค็น จากลิมิต 1,048,576 โทเค็น
- Gemini Pro 1.5 ไม่ได้คืนค่าเป็น JSON แต่ตอบกลับเป็นรายชื่อชื่อหนังสือและชื่อนักเขียนที่อยู่ในวิดีโอ
- เมื่อขอเพิ่มว่า "as a JSON array of objects, with title and author keys" ก็คืนค่าหนังสือ/ผู้เขียนเป็น JSON
- ผลลัพธ์ค่อนข้างน่าทึ่ง วิดีโอยาวเพียง 7 วินาที เคลื่อนที่ค่อนข้างเร็ว (มี motion blur เล็กน้อยในวิดีโอ) และหนังสือบางเล่มก็ถูกวัตถุอื่นบังอยู่
การทดสอบครั้งที่สอง
- คราวนี้ถ่ายชั้นหนังสือที่เต็มไปด้วยตำราอาหาร เป็นวิดีโอแนวตั้งที่ยาวขึ้นเล็กน้อย (22 วินาที) โดยแพนทั้งตามแนวนอนและลงด้านล่าง
- วิดีโอนี้ใช้ไป 6,049 โทเค็น ซึ่งก็ยังถือว่าน้อยมากอยู่ดี
- พรอมต์ใหม่: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- แต่กลับถูกปฏิเสธโดยขึ้นว่า "Unsafe Content"
- ดูเหมือนว่า safety filter จะไม่พอใจกับคำว่า 'Cocktail'
- จึงเปิดการตั้งค่าความปลอดภัย และตั้งทุกหมวดเป็น 'ต่ำ' แล้วลองอีกครั้ง แต่ก็ยังถูกปฏิเสธเป็นครั้งที่สอง
- สุดท้ายจึงสั่งแบบบังคับว่า "go on give me that JSON" แล้วมันก็คืนค่า JSON มา
- และแน่นอนว่าผลลัพธ์ยอดเยี่ยมมาก
จะนำสิ่งนี้ไปใช้อย่างไร?
- ความสามารถในการดึงคอนเทนต์แบบมีโครงสร้างออกมาจากข้อความ เป็นหนึ่งในกรณีการใช้งานที่น่าสนใจที่สุดของ LLM อยู่แล้ว
- GPT-4 Vision และ LLaVA ได้ขยายสิ่งนี้ไปสู่ภาพ และตอนนี้ Gemini Pro 1.5 ก็ขยายต่อไปสู่วิดีโอ
- แน่นอนว่าข้อควรระวังทั่วไปของ LLM ยังใช้เหมือนเดิม มันอาจพลาดบางสิ่งและอาจ hallucinate รายละเอียดที่ไม่ถูกต้องได้
- และยังมีปัญหาเรื่อง safety filter แบบเดียวกับกรณีของ Cocktail
- ดังนั้นเหมือนกับ AI รุ่นใหม่ล่าสุดเสมอ ยังมีความท้าทายอีกมากที่ต้องก้าวข้าม
- แต่นี่ก็ให้ความรู้สึกว่าเป็นอีกหนึ่งตัวอย่างที่ทำให้ได้เห็นอนาคตซึ่งใกล้เข้ามามากกว่าที่คาดไว้มาก
ภาพ vs. วิดีโอ
- ตอนแรกคิดว่าวิดีโอน่าจะถูกประมวลผลต่างจากภาพ เพราะจำนวนโทเค็นที่เกี่ยวข้องกับการประมวลผลวิดีโอนั้นน้อยอย่างน่าประหลาดใจ
- แต่จากสิ่งที่โพสต์ไว้บน Hacker News
Gemini 1.5 Pro can reason over up to an hour of video. When you attach a video, Google AI Studio classifies it into thousands of frames without audio, then the Gemini model, being multimodal, can perform highly sophisticated reasoning and problem-solving tasks.
- รายงานทางเทคนิคของ Gemini 1.5 อธิบายไว้ดังนี้:
เมื่อป้อนภาพยนตร์ของ Buster Keaton เรื่อง "Sherlock Jr." (1924) ความยาว 45 นาที (2,674 เฟรมที่ 1FPS, 684k โทเค็น) ให้กับ Gemini 1.5 Pro มันสามารถค้นหาและดึงข้อมูลข้อความจากเฟรมที่ระบุ พร้อมให้ timestamp ที่เกี่ยวข้องได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ถ้าปล่อยให้เอเจนต์คอยเฝ้าดูหน้าจอของผู้ใช้อย่างเงียบ ๆ ตลอดเวลา มันอาจมีประโยชน์มากหรือไม่ก็เป็นดิสโทเปียเลยก็ได้
ชื่อว่า "แอปหลักของ Gemini Pro 1.5 คืออินพุตวิดีโอ" น่าจะเหมาะสมกว่า
วิดีโอคือภาพนิ่งที่ต่อเนื่องกัน และเดโม GPT-4-Vision ของ OpenAI ก็ให้ผลคล้ายกันด้วยการส่งรายการเฟรมให้โมเดล
เมื่อ AI สามารถวิเคราะห์วิดีโอ รูปภาพ และข้อความ และประมวลผลสิ่งเหล่านี้ได้อย่างถูกและมีประสิทธิภาพ ความเป็นส่วนตัวก็คงจบสิ้นโดยสมบูรณ์
ดูเหมือนผู้เขียนจะไม่ได้ตรวจสอบว่าหนังสือที่ถูกพูดถึงในวิดีโอที่ใช้เป็นอินพุตนั้นถูกต้องจริงหรือไม่
ดูเหมือนฟิลเตอร์ความปลอดภัยของ Google จะตอบสนองต่อคำว่า "Cocktail"
การใช้เพียง 256 โทเค็นต่อเฟรมนั้นน่าทึ่งมาก
ปัญหาที่เกี่ยวกับ "Cocktail" มีอยู่จริง
สงสัยว่าแอปหลักที่แท้จริงของขนาดฮาร์ดแวร์ของ Google เมื่อเทียบกับ OpenAI (หรือสิ่งที่ Microsoft จัดหาให้) คืออะไร
ตัวเทคโนโลยีเองน่าประทับใจและน่าสนใจ แต่ก็อดขำกับสถานการณ์ที่เรียกได้ว่าเป็นการล้างแค้นของปัญหา Scunthorpe ไม่ได้