2 คะแนน โดย GN⁺ 2023-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รีเมกเดโม Google Gemini ปลอมด้วย GPT-4 คราวนี้ของจริง

  • โปรเจ็กต์ที่นำเดโมปลอมของ Google Gemini มารีเมกใหม่โดยใช้ GPT-4
  • มีเดโมที่ใช้งานได้จริงให้ลอง และสามารถดูโค้ดที่เกี่ยวข้องได้ใน GitHub repository
  • โปรเจ็กต์นี้สร้างโดย Greg Technology

ความเห็นของ GN⁺

  • ประเด็นสำคัญที่สุดของบทความนี้คือการมีอยู่ของโปรเจ็กต์ที่ใช้ GPT-4 นำเดโมปลอมในอดีตมาสร้างให้ใช้งานได้จริง
  • น่าสนใจในฐานะกรณีตัวอย่างที่แสดงให้เห็นว่าความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์สามารถสร้างผลลัพธ์เชิงนวัตกรรมที่นำไปใช้ได้จริงอย่างไร

1 ความคิดเห็น

 
GN⁺ 2023-12-12
ความคิดเห็นบน Hacker News
  • "เวทมนตร์" ของเดโม Gemini ปลอมคือการทำให้ดูเหมือนว่า LLM รับอินพุตเสียงและวิดีโออย่างต่อเนื่อง รู้ว่าผู้ใช้พูดคุยหรือวาดรูปเสร็จเมื่อไร และตอบกลับในจังหวะที่เหมาะสม
  • จากการตรวจสอบซอร์สโค้ด พบว่าเดโมจะจับภาพหน้าจอจากฟีดวิดีโอทุก ๆ 800ms แล้วรอจนกว่าผู้ใช้จะวาดเสร็จ ก่อนส่งภาพหน้าจอ 3 ภาพสุดท้าย วิธีโต้ตอบกับ LLM แบบนี้พิสูจน์ให้เห็นว่าหากไม่มีอินพุตเสียง-วิดีโอแบบต่อเนื่อง จะให้ความรู้สึกไม่เป็นธรรมชาติ
  • ไม่เข้าใจว่าทำไมบริษัทต่าง ๆ ถึงโกหกกันแบบนี้ ทั้งที่จริง ๆ แล้วอาจเสียหลายอย่างได้ การโฆษณาเกินจริงแบบนี้อาจช่วยได้ในระยะสั้น แต่ไม่เป็นผลดีในระยะยาว
  • มั่นใจว่า Google DeepMind ไม่ได้มี LLM ระดับล้ำสมัยจริง ๆ ตอนที่ ChatGPT เปิดตัว Google บอกว่าไม่ได้ปล่อยโมเดลที่ดีกว่าออกมาเพราะความปลอดภัยด้าน AI แต่จริง ๆ แล้วไม่ใช่แบบนั้น
  • GPT-4V น่าประทับใจมาก และแนะนำให้คนที่สนใจด้านวิชันหรือมัลติโหมดัลลองใช้ LLaVA ดู โดยส่วนตัวได้ลองรุ่น 7B q5_k แล้วรู้สึกประทับใจมาก
  • สามารถสร้างเดโมที่คล้ายกันได้ด้วย GPT-4V ถ้า Google ทำการตลาดอย่างซื่อตรง ทุกคนก็คงประทับใจในระดับที่เหมาะสม แต่กลับเลือกทำวิดีโอการตลาดที่ชวนให้เข้าใจผิดสำหรับคนทั่วไป จนทำให้ผู้เชี่ยวชาญด้านเทคโนโลยีรู้สึกผิดหวัง
  • เคยพยายามจะใช้แอปแปลบทสนทนา AI ของ Google จริง ๆ แต่ใช้งานกับบทสนทนาจริงไม่ได้เลย ในเดโมมันดูเป็นธรรมชาติ แต่พอใช้จริงก็ยืนยันได้ว่าไม่ได้ทำงานแบบนั้น
  • คิดว่าการใช้แค่ภาพ JPEG เป็นอินเทอร์เฟซเดียวกับ GPT-4 นั้นสิ้นเปลือง สายตามนุษย์รับรู้ความต่างระหว่างเฟรมมากกว่าตัว "เฟรม" เอง โมเดลที่สถานะภายในทำงานด้วย key frame และ delta แบบวิดีโอโคเดก อาจเป็นก้าวใหญ่ถัดไปของการประมวลผลวิดีโอแบบเรียลไทม์
  • มั่นใจว่า Google DeepMind ไม่ได้มีโมเดลภาษาในระดับล้ำสมัยจริง ๆ ตอนที่ ChatGPT เปิดตัว Google บอกว่าไม่ได้ปล่อยโมเดลที่ดีกว่าออกมาเพราะความปลอดภัยด้าน AI แต่จริง ๆ แล้วไม่ใช่แบบนั้น
  • ความหน่วงของเดโมนี้เกิดจากการเรียกผ่าน API จึงพอให้อภัยได้ การทำ inference บนโครงสร้างพื้นฐานภายในแทบจะเกิดขึ้นทันที ดังนั้นเดโมนี้น่าจะเหนือกว่าทุกอย่างอื่น หากเข้าถึงโครงสร้างพื้นฐานนั้นได้
  • การเลือกชื่อ Sagittarius นั้นตลกดี เพราะอยู่ตรงข้ามกับ Gemini พอดีในทางโหราศาสตร์