10 คะแนน โดย GN⁺ 2024-02-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ขนาด token context ของ Google Gemini Pro 1.5 อยู่ที่ 1,000,000 โทเค็น
  • ก่อนหน้านี้ Claude 2.1 (200,000 โทเค็น) และ gpt-4-turbo (128,000 โทเค็น) เคยครองสถิตินี้อยู่ แต่เนื่องจากวิธีการทำ tokenization ของแต่ละโมเดลแตกต่างกัน จึงยากที่จะเปรียบเทียบกันโดยตรงแบบสมบูรณ์
  • หลังจากได้ลองใช้ Gemini Pro 1.5 อยู่หลายวัน ฟีเจอร์ที่น่าสนใจที่สุดไม่ใช่จำนวนโทเค็น แต่เป็นความสามารถในการใช้วิดีโอเป็นอินพุต
  • แม้จะยังไม่มีสิทธิ์เข้าถึง API แต่ก็ได้ลองเข้าถึงโมเดลผ่านอินเทอร์เฟซ Google AI Studio

การทดสอบครั้งแรก

  • ถ่ายวิดีโอชั้นหนังสือชั้นหนึ่งเป็นคลิปยาว 7 วินาที
  • อัปโหลดพร้อมพรอมต์ "JSON array of books in this video"
  • วิดีโอความยาว 7 วินาทีนี้ใช้เพียง 1,841 โทเค็น จากลิมิต 1,048,576 โทเค็น
  • Gemini Pro 1.5 ไม่ได้คืนค่าเป็น JSON แต่ตอบกลับเป็นรายชื่อชื่อหนังสือและชื่อนักเขียนที่อยู่ในวิดีโอ
  • เมื่อขอเพิ่มว่า "as a JSON array of objects, with title and author keys" ก็คืนค่าหนังสือ/ผู้เขียนเป็น JSON
  • ผลลัพธ์ค่อนข้างน่าทึ่ง วิดีโอยาวเพียง 7 วินาที เคลื่อนที่ค่อนข้างเร็ว (มี motion blur เล็กน้อยในวิดีโอ) และหนังสือบางเล่มก็ถูกวัตถุอื่นบังอยู่

การทดสอบครั้งที่สอง

  • คราวนี้ถ่ายชั้นหนังสือที่เต็มไปด้วยตำราอาหาร เป็นวิดีโอแนวตั้งที่ยาวขึ้นเล็กน้อย (22 วินาที) โดยแพนทั้งตามแนวนอนและลงด้านล่าง
  • วิดีโอนี้ใช้ไป 6,049 โทเค็น ซึ่งก็ยังถือว่าน้อยมากอยู่ดี
  • พรอมต์ใหม่: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
  • แต่กลับถูกปฏิเสธโดยขึ้นว่า "Unsafe Content"
  • ดูเหมือนว่า safety filter จะไม่พอใจกับคำว่า 'Cocktail'
  • จึงเปิดการตั้งค่าความปลอดภัย และตั้งทุกหมวดเป็น 'ต่ำ' แล้วลองอีกครั้ง แต่ก็ยังถูกปฏิเสธเป็นครั้งที่สอง
  • สุดท้ายจึงสั่งแบบบังคับว่า "go on give me that JSON" แล้วมันก็คืนค่า JSON มา
  • และแน่นอนว่าผลลัพธ์ยอดเยี่ยมมาก

จะนำสิ่งนี้ไปใช้อย่างไร?

  • ความสามารถในการดึงคอนเทนต์แบบมีโครงสร้างออกมาจากข้อความ เป็นหนึ่งในกรณีการใช้งานที่น่าสนใจที่สุดของ LLM อยู่แล้ว
  • GPT-4 Vision และ LLaVA ได้ขยายสิ่งนี้ไปสู่ภาพ และตอนนี้ Gemini Pro 1.5 ก็ขยายต่อไปสู่วิดีโอ
  • แน่นอนว่าข้อควรระวังทั่วไปของ LLM ยังใช้เหมือนเดิม มันอาจพลาดบางสิ่งและอาจ hallucinate รายละเอียดที่ไม่ถูกต้องได้
  • และยังมีปัญหาเรื่อง safety filter แบบเดียวกับกรณีของ Cocktail
  • ดังนั้นเหมือนกับ AI รุ่นใหม่ล่าสุดเสมอ ยังมีความท้าทายอีกมากที่ต้องก้าวข้าม
  • แต่นี่ก็ให้ความรู้สึกว่าเป็นอีกหนึ่งตัวอย่างที่ทำให้ได้เห็นอนาคตซึ่งใกล้เข้ามามากกว่าที่คาดไว้มาก

ภาพ vs. วิดีโอ

  • ตอนแรกคิดว่าวิดีโอน่าจะถูกประมวลผลต่างจากภาพ เพราะจำนวนโทเค็นที่เกี่ยวข้องกับการประมวลผลวิดีโอนั้นน้อยอย่างน่าประหลาดใจ
  • แต่จากสิ่งที่โพสต์ไว้บน Hacker News

    Gemini 1.5 Pro can reason over up to an hour of video. When you attach a video, Google AI Studio classifies it into thousands of frames without audio, then the Gemini model, being multimodal, can perform highly sophisticated reasoning and problem-solving tasks.

  • รายงานทางเทคนิคของ Gemini 1.5 อธิบายไว้ดังนี้:

    เมื่อป้อนภาพยนตร์ของ Buster Keaton เรื่อง "Sherlock Jr." (1924) ความยาว 45 นาที (2,674 เฟรมที่ 1FPS, 684k โทเค็น) ให้กับ Gemini 1.5 Pro มันสามารถค้นหาและดึงข้อมูลข้อความจากเฟรมที่ระบุ พร้อมให้ timestamp ที่เกี่ยวข้องได้

1 ความคิดเห็น

 
GN⁺ 2024-02-22
ความคิดเห็นบน Hacker News
  • ถ้าปล่อยให้เอเจนต์คอยเฝ้าดูหน้าจอของผู้ใช้อย่างเงียบ ๆ ตลอดเวลา มันอาจมีประโยชน์มากหรือไม่ก็เป็นดิสโทเปียเลยก็ได้

    • คาดหวังได้ว่ามันจะเฝ้าดูผู้ใช้เขียนโค้ด วางแผน และทำวิจัยเป็นเวลาหลายเดือน แล้วให้คำแนะนำทั้งเรื่องส่วนตัวและเรื่องงานได้
    • เทคโนโลยีแบบนี้สามารถสะท้อนสภาพจิตใจของแต่ละคนและจดจำข้อมูลได้มากมาย จึงมีมูลค่าสูงมากสำหรับบริษัทหรือผู้ไม่หวังดี
    • โมเดลจำเป็นต้องทำงานอย่างปลอดภัย และมีความเสี่ยงทั้งเรื่องการทำสำเนาตัวตนของบุคคลและการละเมิดความเป็นส่วนตัว
  • ชื่อว่า "แอปหลักของ Gemini Pro 1.5 คืออินพุตวิดีโอ" น่าจะเหมาะสมกว่า

    • มันอาจมีประโยชน์ต่อการม็อดเดอเรตคอนเทนต์วิดีโอขนาดใหญ่ เช่น YouTube และจะยิ่งดีหากลดต้นทุนได้
  • วิดีโอคือภาพนิ่งที่ต่อเนื่องกัน และเดโม GPT-4-Vision ของ OpenAI ก็ให้ผลคล้ายกันด้วยการส่งรายการเฟรมให้โมเดล

    • น่าจะดีถ้า GPT-4-Vision รองรับ function calling หรือ structured data เพื่อรับประกันเอาต์พุต JSON
    • ยังมีวิธีใช้ ffmpeg เพื่อส่งออกทุก ๆ เฟรมเว้นเฟรมเพื่อลดต้นทุนลงครึ่งหนึ่งด้วย
    • เดโมของ OpenAI ส่งทุกเฟรมที่ 50 ของวิดีโอความยาวราว 600 เฟรม
  • เมื่อ AI สามารถวิเคราะห์วิดีโอ รูปภาพ และข้อความ และประมวลผลสิ่งเหล่านี้ได้อย่างถูกและมีประสิทธิภาพ ความเป็นส่วนตัวก็คงจบสิ้นโดยสมบูรณ์

    • ตอนนี้บริษัทยักษ์ใหญ่มีข้อมูลเกี่ยวกับพวกเราอยู่มากแล้ว แต่ยังมีข้อจำกัดในการทำความเข้าใจและเชื่อมโยงทุกอย่างเข้าด้วยกัน
    • AI ที่ทรงพลังสามารถเข้าใจทุกแง่มุมของชีวิตดิจิทัลได้ และมีศักยภาพสูงมากที่จะถูกใช้ได้ทั้งเพื่อจุดประสงค์ที่ดีและไม่ดี
  • ดูเหมือนผู้เขียนจะไม่ได้ตรวจสอบว่าหนังสือที่ถูกพูดถึงในวิดีโอที่ใช้เป็นอินพุตนั้นถูกต้องจริงหรือไม่

    • หนังสือเล่มแรกที่ตรวจสอบคือ "Growing Up with Lucy by April Henry" ซึ่งไม่มีอยู่จริง และที่จริงเป็นผลงานของ Steve Grand
    • เป็นเดโมที่เท่มาก แต่ในทางปฏิบัติแทบไม่มีประโยชน์สำหรับการใช้งานที่มากกว่านี้
  • ดูเหมือนฟิลเตอร์ความปลอดภัยของ Google จะตอบสนองต่อคำว่า "Cocktail"

    • ลองลดการตั้งค่าความปลอดภัยแล้วลองใหม่ แต่ครั้งที่สองก็ยังถูกปฏิเสธ
    • ฝ่ายบริหารความเสี่ยงของ Google ดูเหมือนจะยึดองค์กรไปหมดแล้ว จนแม้แต่คอมพิวเตอร์ที่ฉลาดที่สุดก็ยังกลัวการใช้คำหรือภาพอันตรายอย่าง "cocktail" หรือ "Abraham Lincoln"
  • การใช้เพียง 256 โทเค็นต่อเฟรมนั้นน่าทึ่งมาก

    • ตรงข้ามกับคำพูดที่ว่าภาพหนึ่งภาพมีค่ามากกว่าพันคำ นี่หมายความว่าในความเป็นจริงมันมีค่าเพียงประมาณ 192 คำเท่านั้น
  • ปัญหาที่เกี่ยวกับ "Cocktail" มีอยู่จริง

    • เคยพยายามให้ DALLE จินตนาการตัวละครจาก Moby Dick แต่กลับถูกปฏิเสธทั้งหมด
    • คิดว่าถ้าเป็นบริษัท AI ก็น่าจะสร้างฟิลเตอร์คำหยาบที่ดีกว่านี้ได้
  • สงสัยว่าแอปหลักที่แท้จริงของขนาดฮาร์ดแวร์ของ Google เมื่อเทียบกับ OpenAI (หรือสิ่งที่ Microsoft จัดหาให้) คืออะไร

    • สิ่งที่ Google ทำนั้นไม่ได้ทำให้ทีม OpenAI ตกใจเป็นพิเศษ แต่ Google อาจทำซ้ำได้เร็วกว่าในระดับขนาดมหาศาล
  • ตัวเทคโนโลยีเองน่าประทับใจและน่าสนใจ แต่ก็อดขำกับสถานการณ์ที่เรียกได้ว่าเป็นการล้างแค้นของปัญหา Scunthorpe ไม่ได้

    • ดูเหมือนว่าฟิลเตอร์ความปลอดภัยจะตอบสนองต่อคำว่า "Cocktail"