1 คะแนน โดย GN⁺ 2023-09-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อวันที่ 25 กันยายน 2023 OpenAI ได้ประกาศเปิดตัวความสามารถใหม่ 2 อย่างของ GPT-4 ซึ่งเป็นโมเดลขั้นสูง
  • ความสามารถใหม่นี้ทำให้ผู้ใช้สามารถถามคำถามเกี่ยวกับภาพ และใช้เสียงเป็นอินพุตของคำสั่งได้ ส่งผลให้ GPT-4 กลายเป็นโมเดลแบบหลายโหมด
  • GPT-4V(ision) หรือ GPT-4V เป็นโมเดลหลายโหมดที่ผู้ใช้สามารถอัปโหลดภาพเป็นอินพุตและตั้งคำถามเกี่ยวกับภาพได้ ซึ่งเป็นงานที่รู้จักกันในชื่อ visual question answering (VQA)
  • GPT-4V ถูกทดสอบกับงานหลากหลาย เช่น visual question answering, optical character recognition (OCR), math OCR, object detection, CAPTCHA, crossword และ Sudoku
  • โมเดลนี้ทำผลงานได้ดีในการตอบคำถามเกี่ยวกับภาพทั่วไป และแสดงให้เห็นถึงการรับรู้บริบทในบางภาพ นอกจากนี้ยังสามารถตอบคำถามเกี่ยวกับภาพยนตร์ที่แสดงอยู่ในภาพได้สำเร็จ แม้จะไม่ได้มีข้อความบอกว่าเป็นภาพยนตร์เรื่องอะไร
  • อย่างไรก็ตาม GPT-4V ก็มีข้อจำกัด โดยไม่สามารถคืนค่า bounding box สำหรับ object detection ได้อย่างแม่นยำ ซึ่งบ่งชี้ว่ายังไม่เหมาะกับการใช้งานลักษณะนี้ในตอนนี้ นอกจากนี้ยังอาจให้ข้อมูลที่ไม่ถูกต้องจาก Hallucination ได้
  • OpenAI ได้เปิดให้ผู้ใช้กลุ่มเล็ก ๆ ใช้งานวิสัยทัศน์โมเดลเวอร์ชันอัลฟาเพื่อทำการวิจัย และได้รับฟีดแบ็กกับข้อมูลเชิงลึกเกี่ยวกับการทำงานของ GPT-4V ผ่านพรอมป์ต์จากผู้คนหลากหลายกลุ่ม
  • OpenAI พยายามระบุ ศึกษา และบรรเทาความเสี่ยงหลายประการที่เกี่ยวข้องกับโมเดล ตัวอย่างเช่น GPT-4V จะหลีกเลี่ยงการระบุตัวบุคคลเฉพาะในภาพ และจะไม่ตอบพรอมป์ต์ที่เกี่ยวข้องกับสัญลักษณ์แสดงความเกลียดชัง
  • แม้จะมีข้อจำกัด แต่ GPT-4V ก็ถือเป็นความเคลื่อนไหวที่น่าจับตาในแวดวงแมชชีนเลิร์นนิงและการประมวลผลภาษาธรรมชาติ

1 ความคิดเห็น

 
GN⁺ 2023-09-29
ความคิดเห็นจาก Hacker News
  • บทความเกี่ยวกับศักยภาพของโมเดล AI อย่าง GPT-4V โดยคาดการณ์ว่าสามารถเป็นส่วนติดต่อผู้ใช้ที่ยอดเยี่ยมสำหรับอุปกรณ์และแอปพลิเคชันที่หลากหลายได้
  • แม้จะมีความล้มเหลวแบบสุดโต่งอยู่บ้าง แต่ความสามารถของ AI ในการเข้าใจและโต้ตอบกับองค์ประกอบ UI และเลย์เอาต์ก็น่าประทับใจ
  • GPT-4V สามารถอธิบายภาพการ์ตูนแยกตามแต่ละช่องได้อย่างแม่นยำ แสดงให้เห็นถึงความสามารถด้านคอมพิวเตอร์วิทัศน์ขั้นสูง
  • ความสามารถของ AI ในการตีความอารมณ์ขันจากภาพพัฒนาขึ้นอย่างมากในช่วง 10 ปีที่ผ่านมา
  • ข้อจำกัดบางประการของ GPT-4V รวมถึงการตีความโครงสร้างของกระดานเกมผิดพลาด หรือมองข้ามองค์ประกอบบางอย่างในภาพ
  • AI ไม่สามารถอธิบายมุกตลกเกี่ยวกับกลยุทธ์การตั้งราคา GPU ของ NVIDIA ได้อย่างถูกต้อง
  • คำตอบของ GPT-4V อาจไม่สม่ำเสมอ โดยเฉพาะเมื่อแปลความสกุลเงินจากชุดเหรียญ
  • AI มักลังเลที่จะตอบคำถามเชิงอัตวิสัย ซึ่งทำให้ผู้ใช้บางรายไม่พอใจ
  • แม้จะมีความสามารถขั้นสูง GPT-4V ก็ยังคงมีปัญหากับเกมง่าย ๆ อย่าง tic-tac-toe