- เมื่อวันที่ 25 กันยายน 2023 OpenAI ได้ประกาศเปิดตัวความสามารถใหม่ 2 อย่างของ GPT-4 ซึ่งเป็นโมเดลขั้นสูง
- ความสามารถใหม่นี้ทำให้ผู้ใช้สามารถถามคำถามเกี่ยวกับภาพ และใช้เสียงเป็นอินพุตของคำสั่งได้ ส่งผลให้ GPT-4 กลายเป็นโมเดลแบบหลายโหมด
- GPT-4V(ision) หรือ GPT-4V เป็นโมเดลหลายโหมดที่ผู้ใช้สามารถอัปโหลดภาพเป็นอินพุตและตั้งคำถามเกี่ยวกับภาพได้ ซึ่งเป็นงานที่รู้จักกันในชื่อ visual question answering (VQA)
- GPT-4V ถูกทดสอบกับงานหลากหลาย เช่น visual question answering, optical character recognition (OCR), math OCR, object detection, CAPTCHA, crossword และ Sudoku
- โมเดลนี้ทำผลงานได้ดีในการตอบคำถามเกี่ยวกับภาพทั่วไป และแสดงให้เห็นถึงการรับรู้บริบทในบางภาพ นอกจากนี้ยังสามารถตอบคำถามเกี่ยวกับภาพยนตร์ที่แสดงอยู่ในภาพได้สำเร็จ แม้จะไม่ได้มีข้อความบอกว่าเป็นภาพยนตร์เรื่องอะไร
- อย่างไรก็ตาม GPT-4V ก็มีข้อจำกัด โดยไม่สามารถคืนค่า bounding box สำหรับ object detection ได้อย่างแม่นยำ ซึ่งบ่งชี้ว่ายังไม่เหมาะกับการใช้งานลักษณะนี้ในตอนนี้ นอกจากนี้ยังอาจให้ข้อมูลที่ไม่ถูกต้องจาก Hallucination ได้
- OpenAI ได้เปิดให้ผู้ใช้กลุ่มเล็ก ๆ ใช้งานวิสัยทัศน์โมเดลเวอร์ชันอัลฟาเพื่อทำการวิจัย และได้รับฟีดแบ็กกับข้อมูลเชิงลึกเกี่ยวกับการทำงานของ GPT-4V ผ่านพรอมป์ต์จากผู้คนหลากหลายกลุ่ม
- OpenAI พยายามระบุ ศึกษา และบรรเทาความเสี่ยงหลายประการที่เกี่ยวข้องกับโมเดล ตัวอย่างเช่น GPT-4V จะหลีกเลี่ยงการระบุตัวบุคคลเฉพาะในภาพ และจะไม่ตอบพรอมป์ต์ที่เกี่ยวข้องกับสัญลักษณ์แสดงความเกลียดชัง
- แม้จะมีข้อจำกัด แต่ GPT-4V ก็ถือเป็นความเคลื่อนไหวที่น่าจับตาในแวดวงแมชชีนเลิร์นนิงและการประมวลผลภาษาธรรมชาติ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News