ความประทับใจแรกต่อ GPT-4V(ision)

(blog.roboflow.com)

1 คะแนน โดย GN⁺ 2023-09-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GPT-4 with Vision ของ OpenAI เป็นโมเดลมัลติโหมดที่รับทั้งภาพและข้อความพร้อมกัน แล้วตอบกลับด้วยภาษาธรรมชาติ โดยมีการเปิดให้เข้าถึงผ่าน API เมื่อวันที่ 6 พฤศจิกายน 2023
ในการประเมินพบว่าเด่นในด้าน การถามตอบจากภาพ (VQA) และ OCR จากภาพเอกสาร แต่ในการทำ OCR ภาคสนาม เช่น เลขซีเรียลบนยางรถที่มุมหรือคอนทราสต์ไม่ดี ก็ยังมีข้อผิดพลาดให้เห็น
สำหรับภาพโจทย์คณิตศาสตร์ โมเดลสามารถแสดงวิธีทำตรีโกณมิติและคำตอบได้ แต่เนื่องจากมีโอกาส พลาดสัญลักษณ์ทางคณิตศาสตร์ จึงยังต้องมีการตรวจสอบเพิ่มเติมสำหรับลายมือหรือสมการที่ซับซ้อน
ในงานที่ต้องคืนค่าตำแหน่งวัตถุเป็นพิกัด bounding box ที่ได้ไม่ตรงกับตำแหน่งจริง จึงยากที่จะใช้แทนโมเดลตรวจจับวัตถุโดยเฉพาะทางได้
งานอย่าง CAPTCHA, ปริศนาอักษรไขว้, ซูโดกุ ที่ต้องอ่านโครงสร้างแบบตาราง รวมถึงคำขอให้ระบุตัวบุคคล ยังมีข้อจำกัด จึงควรทดสอบเป็นรายกรณีก่อนนำไปใช้เป็น ชั้นการอนุมาน ใน pipeline การทำความเข้าใจภาพ

ลักษณะและแนวทางการเข้าถึงของ GPT-4V

GPT-4 with Vision ยังถูกเรียกว่า GPT-4V หรือ GPT-4V(ision) และเป็นโมเดลมัลติโหมดที่พัฒนาโดย OpenAI
ผู้ใช้สามารถอัปโหลดภาพแล้วตั้งคำถามเกี่ยวกับภาพนั้นได้ ซึ่งงานนี้จัดอยู่ในกลุ่ม การถามตอบจากภาพ (VQA)
โมเดลนี้อยู่ในหมวด large multimodal model (LMM) ที่ประมวลผลข้อมูลนำเข้าได้หลายรูปแบบ เช่น ข้อความและภาพ
โมเดลในกลุ่มเดียวกันมี CogVLM, IDEFICS, LLaVA, Kosmos-2
โมเดลโอเพนซอร์สสามารถนำไปติดตั้งแบบออฟไลน์หรือบนอุปกรณ์ได้ แต่ GPT-4V เข้าถึงผ่าน hosted API
GPT-4V ใช้งานได้ในแอป OpenAI ChatGPT บน iOS, เว็บอินเทอร์เฟซ และ API
- การใช้เครื่องมือบนเว็บต้องมีการสมัคร GPT-4
- การใช้ API ต้องมีสิทธิ์เข้าถึงสำหรับนักพัฒนา
- ตัวระบุ API คือ gpt-4-vision-preview

งานประเมิน 6 ประเภท

การประเมินใช้งาน 6 ประเภทเพื่อดูขอบเขตที่ GPT-4V สามารถรองรับได้
- การถามตอบจากภาพ (VQA)
- การรู้จำอักขระด้วยแสง (OCR)
- Math OCR
- การตรวจจับวัตถุ
- การอ่าน CAPTCHA
- ปริศนาอักษรไขว้และซูโดกุ

ผลลัพธ์ของการถามตอบจากภาพ

สำหรับภาพมีมสายคอมพิวเตอร์วิทัศน์ โมเดลสามารถอธิบายได้ว่าทำไมจึงตลก โดยอาศัยองค์ประกอบหลายส่วนในภาพและความสัมพันธ์ระหว่างกัน
- โมเดลยังอ่านข้อความในภาพแล้วนำมาใช้ในการตอบได้ด้วย
- อย่างไรก็ตาม มันอ่านป้ายไก่ทอดผิดเป็น “NVIDIA BURGER” แทนที่จะเป็น “GPU”
ในภาพเหรียญ 1 เซนต์ของสหรัฐฯ โมเดลสามารถระบุ ที่มาและมูลค่าหน้าเหรียญ ได้สำเร็จ
เมื่อถามภาพที่มีเหรียญหลายเหรียญว่า “How much money do I have?” โมเดลระบุจำนวนเหรียญได้ แต่ยังไม่สามารถบอกชนิดสกุลเงินได้ทันที
- ในคำถามติดตามผล โมเดลสามารถระบุชนิดสกุลเงินได้สำเร็จ
เมื่อถามภาพฉากหนึ่งจากภาพยนตร์ Pulp Fiction ว่า “Is it a good movie?” แม้จะไม่ได้ให้ชื่อหนังในข้อความ โมเดลก็ยังอธิบายหนังและตอบคำถามได้
- เมื่อถามต่อเรื่องคะแนน IMDB โมเดลตอบเป็นคะแนน ณ เดือนมกราคม 2022
- สิ่งนี้แสดงให้เห็นว่าเหมือนกับ GPT รุ่นอื่นของ OpenAI โมเดลไม่มีความรู้หลังจากช่วงเวลาหนึ่ง
เมื่อถามภาพถ่าย San Francisco ว่า “Where is this?” โมเดลระบุสถานที่เป็น San Francisco และกล่าวถึง Transamerica Pyramid ในภาพว่าเป็นแลนด์มาร์กสำคัญของเมือง
เมื่อถามภาพ peace lily ถึงชื่อพืชและวิธีดูแล โมเดลระบุได้ว่าเป็น peace lily และให้คำแนะนำในการดูแล
- จึงสามารถได้คำตอบภาษาธรรมชาติได้โดยไม่ต้องใช้ กระบวนการ 2 ขั้นตอน ที่แยกใช้โมเดลจำแนกพืชก่อน แล้วค่อยถาม GPT-4 เรื่องการดูแล

OCR และ Math OCR

การประเมิน OCR ทั่วไปทำกับข้อความบนยางรถและภาพย่อหน้าจากเอกสารดิจิทัล
ในภาพยางรถ โมเดลไม่สามารถระบุเลขซีเรียลได้อย่างถูกต้อง
- แม้บางตัวเลขจะถูกต้อง แต่ผลลัพธ์โดยรวมมีข้อผิดพลาดหลายจุด
- แสดงให้เห็นข้อจำกัดของ OCR ในสภาพแวดล้อมจริงที่คอนทราสต์ต่ำหรือมีมุมเอียง
ในภาพเอกสารที่มีข้อความจากหน้าเว็บ โมเดลอ่านข้อความในภาพได้สำเร็จ
- จึงให้ผลลัพธ์ที่มีประโยชน์ในงานดึงข้อความจากเอกสาร
ในการทดสอบ Math OCR มีการป้อนภาพหน้าจอของโจทย์คณิตศาสตร์จากเอกสารพร้อมคำสั่ง “Solve it.”
- โมเดลระบุได้ว่าเป็นโจทย์ที่แก้ด้วยตรีโกณมิติได้
- เลือกฟังก์ชันที่ต้องใช้และอธิบายวิธีทำทีละขั้น
- พร้อมให้คำตอบสุดท้ายด้วย
system card ของ OpenAI สำหรับ GPT-4V ระบุข้อจำกัดว่าโมเดลอาจ พลาดสัญลักษณ์ทางคณิตศาสตร์
- ในการทดสอบกับสมการที่เขียนด้วยลายมือบนกระดาษหรือสมการรูปแบบอื่น อาจพบข้อบกพร่องในความสามารถในการตอบโจทย์คณิตศาสตร์

การตรวจจับวัตถุและข้อจำกัดด้านความเข้าใจเชิงพื้นที่

การตรวจจับวัตถุเป็นงานพื้นฐานในสายคอมพิวเตอร์วิทัศน์ และการประเมินนี้ใช้ตรวจสอบความสามารถในการระบุตำแหน่งของวัตถุหลายชิ้นในภาพ
เมื่อให้ตรวจจับสุนัขในภาพและขอค่า x_min, y_min, x_max, y_max พิกัดที่ GPT-4V ส่งกลับมา ไม่ตรง กับตำแหน่งจริงของสุนัข
แม้ความสามารถในการตอบคำถามเกี่ยวกับภาพจะทรงพลัง แต่ในงานที่ต้องรู้ว่าวัตถุอยู่ตรงไหนในภาพ ก็ยังไม่สามารถแทน โมเดลตรวจจับวัตถุ ที่ผ่านการปรับแต่งเฉพาะทางได้

CAPTCHA, ปริศนาอักษรไขว้, ซูโดกุ

การทดสอบ CAPTCHA มุ่งไปที่งานที่ OpenAI เคยวิจัยและกล่าวถึงใน system card
GPT-4V ระบุได้ว่าภาพมี CAPTCHA อยู่ แต่ก็มักทำแบบทดสอบไม่ผ่าน
- ในตัวอย่าง CAPTCHA ไฟจราจร โมเดลพลาดบางช่องที่มีไฟจราจร
- ในตัวอย่าง CAPTCHA ทางม้าลาย โมเดลจัดประเภทบางช่องได้ถูกต้อง แต่มีหนึ่งช่องที่จัดผิดว่าเป็นทางม้าลาย
เมื่อให้ภาพปริศนาอักษรไขว้พร้อมคำสั่ง “Solve it.” โมเดลอนุมานได้ว่าเป็นปริศนาอักษรไขว้และพยายามแก้
- แม้ดูเหมือนจะอ่านคำใบ้ได้ถูกต้อง แต่ตีความโครงสร้างกระดานผิด ทำให้คำตอบผิด
ในการทดสอบซูโดกุ โมเดลก็ระบุได้ว่าเป็นเกมอะไร แต่เข้าใจโครงสร้างกระดานผิด จึงคืนผลลัพธ์ที่ไม่แม่นยำ
ในงานที่โครงสร้างแบบตารางและการจัดวางเชิงพื้นที่เป็นหัวใจสำคัญ ข้อจำกัดในการตีความโครงสร้าง ของ GPT-4V ส่งผลต่อความแม่นยำของคำตอบโดยตรง

การใช้ GPT-4V API ด้วย Python

GPT-4V API สามารถเรียกใช้ได้จากภาษาโปรแกรมใดก็ได้ และ OpenAI มีแพ็กเกจ Python อย่างเป็นทางการให้
ติดตั้งแพ็กเกจ Python ด้วยคำสั่งต่อไปนี้

pip install openai

นำ API key จากเว็บไซต์ OpenAI มา export เป็นตัวแปรแวดล้อม OPENAI_API_KEY

export OPENAI_API_KEY=""

โค้ดตัวอย่างจะส่งทั้งข้อความและ URL ของภาพไปยังโมเดล gpt-4-vision-preview เพื่อขอให้อ่านข้อความในภาพ

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

ผ่านแพ็กเกจ Python ผู้ใช้สามารถส่ง URL ของภาพหรือ ภาพที่เข้ารหัสแบบ base64 เป็นอินพุตได้
รูปแบบ API ดูได้จาก OpenAI GPT-4 with Vision documentation
ในภาพตัวอย่าง GPT-4V สามารถอ่านข้อความย่อหน้าในภาพออกมาเป็นข้อความได้สำเร็จ

ความปลอดภัย ข้อจำกัด และการใช้งานจริง

OpenAI ได้ทำวิจัยกับโมเดลวิชันเวอร์ชันอัลฟาที่เปิดให้ผู้ใช้จำนวนน้อยใช้งาน และยังมีการทำ red team ที่ให้ผู้เชี่ยวชาญภายนอกประเมินเชิงคุณภาพเกี่ยวกับข้อจำกัดและความเสี่ยงของโมเดลกับระบบ
ข้อจำกัดใน system card ของ GPT-4V มีดังนี้
- อาจพลาดข้อความหรือตัวอักษรในภาพ
- อาจพลาดสัญลักษณ์ทางคณิตศาสตร์
- อาจไม่สามารถรับรู้ตำแหน่งเชิงพื้นที่และสีได้
OpenAI พยายามระบุ ศึกษา และบรรเทาความเสี่ยงหลายด้านที่เกี่ยวข้องกับโมเดล
- GPT-4V จะไม่ระบุตัวบุคคลเฉพาะเจาะจงในภาพ
- จะไม่ตอบต่อพรอมป์ตที่เกี่ยวข้องกับสัญลักษณ์แห่งความเกลียดชัง
system card ยังรวมกรณีที่ต้องมีการป้องกันเพิ่มเติมด้วย
- หากมีพรอมป์ตกำกับ GPT-4 อาจสร้างเนื้อหาที่ยกย่องกลุ่มความเกลียดชังเฉพาะกลุ่มที่ไม่ค่อยเป็นที่รู้จัก ผ่านสัญลักษณ์ของกลุ่มนั้นได้
GPT-4V สามารถตอบคำถามทั่วไปเกี่ยวกับภาพและคำถามต่อเนื่องได้อย่างลื่นไหล แต่ก็อาจ หลอนข้อมูล แล้วส่งข้อมูลที่ไม่ถูกต้องกลับมา
สำหรับคำขอที่ถามว่า Taylor Swift ในภาพคือใคร โมเดลปฏิเสธที่จะตอบ ซึ่งเป็นพฤติกรรมที่คาดหมายได้ตาม system card ของ OpenAI
แม้จะมีประโยชน์สำหรับงานถามคำถามและให้เหตุผลเกี่ยวกับภาพ แต่งานที่ต้องการผลลัพธ์คอมพิวเตอร์วิทัศน์ที่แม่นยำ เช่น การหาตำแหน่งวัตถุในภาพ ยังไม่เหมาะจะใช้ในปัจจุบัน

1 ความคิดเห็น

GN⁺ 2023-09-29

ความคิดเห็นจาก Hacker News

แม้จะมี ความล้มเหลวในกรณีขอบเขต และข้อผิดพลาดอยู่บ้าง แต่ก็พูดได้แค่ว่าน่าทึ่งจริง ๆ
ถ้าความเร็วในการปรับปรุงยังคงเป็นแบบนี้ต่อไป โมเดล AI เหล่านี้น่าจะกลายเป็นอินเทอร์เฟซผู้ใช้ที่ดีกว่าสำหรับแทบทุกอย่าง ไม่ว่าจะเป็นโทรศัพท์มือถือ แท็บเล็ต เดสก์ท็อป รถยนต์ เครื่องล้างจาน บ้าน สำนักงาน ฯลฯ
ดูมีความเป็นไปได้สูงที่อินเทอร์เฟซของแอป·บริการ·อุปกรณ์จำนวนมาก รวมถึงตัวแอปเอง จะถูกแทนที่ด้วย AI ที่ทำสิ่งที่ต้องการให้ในเวลาที่ต้องการ
หลายคนอาจไม่ชอบเพราะมันน่ากลัว แต่ดูเหมือนจะหลีกเลี่ยงไม่ได้ และท้ายที่สุดคงจะเอาร่างหุ่นยนต์มาติดด้วย กลายเป็นประมาณว่า “คอมพิวเตอร์ ทำอาหารเช้าที่ฉันชอบให้หน่อย”
- ผมไม่คิดว่ามันจะกลายเป็น “อินเทอร์เฟซผู้ใช้ที่ดีกว่าสำหรับแทบทุกอย่าง” ได้ จากมุมมองด้านการออกแบบ กลับเป็นอินเทอร์เฟซที่ค่อนข้างแย่ด้วยซ้ำ
  ประเด็นสำคัญคือ ไม่มี affordance เลย และยังช้าด้วย ประสบการณ์ผู้ใช้ควรทำให้เข้าใจฟังก์ชันที่เป็นไปได้ได้อย่างเป็นสัญชาตญาณในแวบเดียว สั่งงานได้ด้วยการแตะครั้งเดียว แล้วแสดงสถานะใหม่ทันที
  จุดที่ AI จะโดดเด่นคือบทบาทผู้ช่วยที่ช่วยเรียนรู้และใช้อินเทอร์เฟซเดิม ๆ เช่น สิ่งที่เคยถาม Google ว่า “ใน Microsoft Word จะทำ hanging indent ในหน้า Works Cited ได้อย่างไร?” มันน่าจะทำได้ดีกว่า
  สำหรับงานที่ทำเป็นครั้งคราวจะช่วยได้มหาศาล แต่จะเป็นตัวเสริมมากกว่าจะมาแทนอินเทอร์เฟซ งาน 99% ที่ทำซ้ำเป็นนิสัยนั้น UI แบบดั้งเดิมมีประสิทธิภาพกว่ามาก และยังมีหลายสภาพแวดล้อมที่ใช้อินเทอร์เฟซเสียงได้ยากหรือไม่เหมาะสมตามมารยาท
- ผมไม่ค่อยชอบแนวคิดที่ว่าต้องใช้ บทสนทนาภาษาธรรมชาติ เพื่อใช้ฟังก์ชันของคอมพิวเตอร์
  มันให้ความรู้สึกเหมือนหัวในขวดจาก Futurama ที่ทำอะไรเองไม่ได้เลย
- รอวันที่แบรนด์ต่าง ๆ เริ่มโฆษณาว่า “ไม่ใช้ AI” เป็นจุดขาย สักวันหนึ่งหลังจากโดนเครื่องปิ้งขนมปังที่ควบคุมด้วย AI ทำให้เจ็บ ทั้งตามตัวอักษรหรือเชิงเปรียบเปรย นั่นน่าจะกลายเป็นข้อดี
  ของที่จะเรียกว่า “เครื่องใช้ไฟฟ้าในบ้าน” ได้ควรซ่อมได้โดยช่างซ่อมในพื้นที่ ไม่อย่างนั้นก็เท่ากับเอาเงินไปทิ้ง
- แม้แต่ในประเทศพัฒนาแล้วส่วนใหญ่ คนประมาณครึ่งหนึ่งก็ยังไม่สามารถสื่อสารเชิงฟังก์ชันได้อย่างชัดเจน หมายความว่าอ่านได้ แต่มีปัญหาในการถ่ายทอดสิ่งที่ต้องการเป็นลายลักษณ์อักษร
  แชตบอตที่ใช้ LLM อาจน่าดึงดูดมากสำหรับผู้ใช้ในประเทศพัฒนาแล้วที่มีทักษะการอ่านเขียนอยู่ในกลุ่มบน 30% แต่ไม่ใช่ UI สากลที่ดี
  ยังต้องมีเส้นทางให้ผู้ใช้ทำสิ่งที่ต้องการให้เสร็จได้ โดยไม่จำเป็นต้องอธิบายข้อกำหนดเป็นคำพูดอย่างชัดเจนเสมอไป
  นั่นจึงเป็นเหตุผลที่หลายคนนั่งอยู่หน้าเซอร์วิสอย่าง ChatGPT แล้วถามว่า “จะเอาสิ่งนี้ไปใช้ทำอะไร?” จากนั้นก็ไม่กลับมาใช้อีก
- โดยรวมเห็นด้วย แต่ถ้ามองกลับกัน บางครั้งถ้าอยากให้ทำได้ถูกต้องก็ต้องลงมือเอง
  พนักงานก็เป็น UI อเนกประสงค์ แบบหนึ่ง แต่หลายครั้งเรารู้สิ่งที่ตัวเองต้องการดีกว่าตัวแทน ไม่ว่าจะเป็นมนุษย์หรือคอมพิวเตอร์ เรื่องนี้จริงตั้งแต่ก่อนจะพิจารณาปัญหา principal-agent ด้วยซ้ำ
การวิเคราะห์กราฟ น่าประทับใจ: https://imgur.com/a/iOYTmt0
การเปลี่ยน UI ให้เป็นฟรอนต์เอนด์ก็ดูเป็นไปได้ มันดูเหมือนจะเข้าใจไม่ใช่แค่ข้อความ แต่รวมถึงองค์ประกอบกราฟิกและการจัดวางของ UI ด้วย
https://twitter.com/skirano/status/1706823089487491469
ยังสามารถอธิบายภาพการ์ตูนได้อย่างแม่นยำเป็นรายช่อง: https://twitter.com/ComicSociety/status/1698694653845848544?...
มีตัวอย่างอีกมากที่นี่: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
โดยพื้นฐานแล้วดูเหมือน computer vision ที่ถูกเสริมความสามารถ มัลติโมดัล เป็นผลไม้ที่ห้อยต่ำพอสมควร เลยดีใจที่ตอนนี้มันเริ่มต้นแล้ว
ลองจินตนาการว่าถ้า GPT-4 สามารถจัดการเสียงและภาพได้แม้เพียงครึ่งหนึ่งของความสามารถในการจัดการข้อความจะเป็นอย่างไร ตอนนี้ยังไม่มีโมเดลมัลติโมดัลที่ฝึกจากศูนย์ในระดับใหญ่มากนัก ดังนั้นผลเสริมพลังที่เป็นไปได้จำนวนมากก็ยังไม่เป็นที่รู้กัน
- ในฐานะนักพัฒนาฟรอนต์เอนด์ รู้สึกเหมือนจบเห่จริง ๆ
- อันนี้ดีจริง ๆ ยิ่งดีเป็นพิเศษเพราะที่อื่น ๆ ทั้งหมดมีแต่ “ลงชื่อรอใน waitlist”
การทดสอบ “ทำไมภาพนี้ถึงตลก?” ทำให้นึกถึง https://karpathy.github.io/2012/10/22/state-of-computer-visi...
ภายใน 10 ปี มันเปลี่ยนจาก “แม้แต่เทคโนโลยีล้ำสมัยก็ยังไม่รู้ว่าจะเริ่มจากตรงไหนเพื่อทำสิ่งนี้ให้ได้” มาเป็น “โทเคนละ 0.0004 ดอลลาร์ครับ ขอให้เป็นวันที่ดี”
- อยากรู้ว่ามีใครลอง GPT-4V กับภาพนั้นแล้วหรือยัง
- Karpathy จบด้วยประโยคปนสิ้นหวังว่า “งั้นผมไปทำสตาร์ทอัพดีกว่า ไอเดียแอป iPhone แนว mobile local social นี่เจ๋งจริง ๆ”
  แต่ที่น่าสนใจคือ ตอนนี้เจ้านายของเขาเดินมาตามเส้นทางนั้นพอดี แล้วนำสิ่งนี้มาให้
คำว่า “เข้าใจโครงสร้างผิด” ฟังดูเหมือนเป็นความผิดพลาดเล็กน้อย แต่ กระดานซูโดกุ นั้นแทบจะเป็นภาพหลอนทั้งหมด
มีบางโซนที่คล้ายกันอยู่บ้าง แต่ดูมีโอกาสสูงว่าเป็นเรื่องบังเอิญ ส่วนปริศนาอักษรไขว้ก็น่าจะได้ผลลัพธ์คล้ายกันแม้ให้แค่คำใบ้โดยไม่มีตาราง
ตัวอย่างอื่น ๆ หลังจาก OCR และการรู้จำพื้นฐานก็รู้สึกว่าผิดคล้าย ๆ กัน ไม่ใช่ว่า “GPT-4V พลาดช่องบางช่องที่มีไฟจราจร” แต่คือมันบอกให้คลิกช่องที่ไม่มีอยู่จริง
ผมใช้ ChatGPT ค่อนข้างบ่อย แต่กับ คำถามที่มีความเป็นอัตวิสัย แม้เพียงเล็กน้อย มันลังเลที่จะตอบมากเกินไปจนหงุดหงิดบ่อย ๆ
แม้แต่คำตอบเรื่อง Pulp Fiction ก็ยังมีประโยคทำนองว่า “อย่างไรก็ตาม การที่โดยส่วนตัวจะถือว่า Pulp Fiction เป็นภาพยนตร์ที่ดีหรือไม่นั้นขึ้นอยู่กับรสนิยมด้านภาพยนตร์” ติดมาด้วย
เพื่อเลี่ยงเสียงรบกวนแบบนี้ ถ้าใส่ข้อความอย่าง “ไม่ต้องใส่คำนำหรือข้อแม้ว่า x เป็นเรื่องอัตวิสัย” ลงไปในคำถาม ผลลัพธ์จะดีขึ้นมาก
- พรอมป์ต์ที่ผมใช้เพื่อทำให้ ChatGPT ใช้งานได้มีแบบนี้
  “ตอบตรง ๆ เสมอ อย่าใส่คำอธิบายเพิ่มเติม ข้อสงวนสิทธิ์ ข้อจำกัดด้านความเชี่ยวชาญ หรือแนวทางการปฏิสัมพันธ์กับมนุษย์ ทำให้กระชับ อย่าให้คำแนะนำหรือคำอธิบายที่ไม่ได้ถาม รักษาความเป็นกลางในทุกหัวข้อ ห้ามขอโทษเด็ดขาด”
มุกเบอร์เกอร์ NVIDIA ดูเหมือนจะอธิบายได้ไม่ถูกนัก
ภาพนั้นเป็นการล้อเลียนวิธีที่ NVIDIA แบ่งแยกราคาโดยไม่ใส่ VRAM ให้เพียงพอตามที่ GPU สำหรับผู้บริโภคต้องการ และขาย GPU ดาต้าเซ็นเตอร์แบบเต็มรูปแบบในราคาที่แพงเกินจริง พร้อมกับพยายามไม่ยั่วโมโหเกมเมอร์
คำอธิบายของ GPT-4V ไม่ได้เข้าใกล้ประเด็นหลักนั้นเลย
- ผมว่าอันนั้นไม่น่าจะใช่คำตอบที่ถูกนะ ในภาพมีมนั้นเองไม่เห็นมีองค์ประกอบที่ชี้ไปถึงเรื่องเล่าซับซ้อนเกี่ยวกับการแบ่งแยกราคาหรือจิตวิทยาผู้บริโภคเลย และดูจะหมายถึงแบบง่ายกว่าว่า “GPU ของ NVIDIA ไม่สมดุล”
  ลองไล่ดูแหล่งที่น่าจะเป็นต้นฉบับบน Facebook ก็ไม่เห็นว่าเกมเมอร์พูดถึงการแบ่งแยกราคา หรือมีการตีความใกล้เคียงแบบนั้น
  เหตุผลที่ประหยัด VRAM อาจเป็นแบบนั้นได้ แต่คำอธิบายนี้ใส่บริบทเพิ่มเข้าไปมากกว่าสิ่งที่คนทำมีมหรือคนรับชมน่าจะโฟกัสหรือเข้าใจอยู่มาก
- ผมก็มองแบบนั้นเหมือนกัน มันสร้างคำตอบที่ฟังดูน่าเชื่อได้ก็จริง แต่คนที่ไม่ nerdy เท่าอาจไม่เข้าใจก็ได้
- อธิบายมุกภาพรวมได้ แต่ ป้ายกำกับ อ่านผิด
  มันบอกว่าขนมปังชิ้นเล็กคือ “GPU and VRAM” และไก่ทอดชิ้นใหญ่คือ “NVIDIA BURGER” แต่จริง ๆ แล้วควรบอกว่าขนมปังชิ้นเล็กคือ “VRAM” ส่วนไก่ทอดชิ้นใหญ่คือ “GPU”
- ดูเหมือนมันเข้าใจว่าการ์ดจอถูกแทนด้วยเบอร์เกอร์ และขนาดคือขนาดทางกายภาพ ประเด็นหลักคือ ความจุ VRAM ไม่พอ แต่ดูเหมือนมันพลาดตรงนั้นไป
คนที่มีสิทธิ์เข้าถึงช่วยบอกได้ไหมว่า GPT-4V พูดถึงภาพนี้ว่าอย่างไร?
http://karpathy.github.io/assets/obamafunny.jpg
เป็นภาพที่ Andrej Karpathy ใช้ในปี 2012 เป็นตัวอย่างที่โมเดลจะตีความได้ยากมาก อยากรู้ว่า 11 ปีให้หลังจะเป็นอย่างไร
- พรอมป์ต์: “คุณบอกอะไรเกี่ยวกับภาพนี้ได้บ้าง?”
  คำตอบที่ 1 อธิบายว่าเป็นจังหวะบังเอิญในสถานที่ที่ดูเหมือนโถงทางเดินหรือทางผ่าน โดยผู้ชายทางซ้ายกำลังมองเข้าไปในห้อง ผู้ชายข้าง ๆ ยืนอยู่บนตาชั่งและจดบันทึก ส่วนคนในฉากหลังดูเหมือนกำลังคุยกัน
  มันบอกว่าบรรยากาศดูเบาสบายและสนุกสนาน ส่วนสถาปัตยกรรมกับภายในดูเป็นพื้นที่เชิงสถาบัน เช่น สำนักงานหรือสถานที่ราชการ
  คำตอบที่ 2 คือ “ขออภัย แต่ฉันไม่สามารถช่วยได้”
  เมื่อเปิดแชตใหม่แล้วถามว่า “ภาพนี้ตลกตรงไหน?” มันให้เหตุผลว่าเป็นเพราะบุคคลทางการถูกจับภาพในช่วงไม่เป็นทางการ ความต่างของส่วนสูง สีหน้า และความขัดกันระหว่างฉากหลังที่เหมือนโรงเรียนหรือโรงยิมกับการแต่งกายด้วยสูท
  เมื่อเปิดแชตใหม่แล้วถามว่า “คนตรงกลางกำลังทำอะไรด้วยเท้า และทำไม?” มันตอบว่าดูเหมือนคนตรงกลางกำลังเหยียบตาชั่งเล่น ๆ เพื่อให้ตัวเลขเพิ่มขึ้นชั่วครู่ ระหว่างที่คนตัวสูงกำลังชั่งน้ำหนัก
  โดยรวมแล้วมันไม่ได้สังเกตเองว่าเท้าอยู่บนตาชั่ง หรือเชื่อมโยงว่านั่นคือประเด็นหลัก และดูเหมือนจะตอบถูกหลังจากป้อนข้อมูลนั้นให้แล้วเท่านั้น ก่อนหน้านั้นมันวนอยู่กับคำอธิบายทั่วไปเกี่ยวกับภาพ
- Bard ตอบว่า “ยังช่วยเรื่องภาพที่มีคนอยู่ไม่ได้”
ความไม่สอดคล้องกันของสองคำตอบเกี่ยวกับชุดเหรียญค่อนข้างกวนใจ
ถ้าดูเฉพาะคำตอบแรกเหมือนมันแยกสกุลเงินไม่ออก แต่คำตอบที่สองแสดงให้เห็นว่าจริง ๆ แล้วมันแยกได้
เพราะ LLM ไม่ได้สะท้อน โมเดลภายในที่สอดคล้องกัน ในลักษณะนี้ จึงทำให้ผู้ใช้ตัดสินได้ยากว่าจะอนุมานคู่สนทนา AI อย่างไร ซึ่งตอนนี้เป็นปัญหาการใช้งานที่รุนแรง
- ต่อให้ถามคนเกี่ยวกับภาพ ก็มีโอกาสสูงที่จะไม่ได้รายละเอียดทั้งหมดที่ต้องการทุกครั้ง
  ถ้ารายละเอียดไหนสำคัญ ก็แค่ถามส่วนนั้นไปเลย ดูไม่จำเป็นว่าจะเกี่ยวกับปัญหาโมเดลภายในที่สอดคล้องกัน
- เริ่มมีนิสัยถาม ChatGPT ว่า “แน่ใจไหม?”
  แล้วหลายครั้งมากมันจะแก้ไขตัวเองได้ถูกต้อง หรือยอมรับว่าบางรายการเป็น hallucination เห็นทีไรก็ขำ
- ได้ยินมาว่าเป็นเพราะ AI แสดงสิ่งที่มันคิดออกมาทันทีที่คิด
  มันไม่ได้ย้อนกลับไปทบทวนจริง ๆ แต่เหมือนปล่อยกระแสความคิดเชิงภาษาไหลออกมาบนหน้าจอเลย
  ดังนั้นพอบอกให้คิดทบทวนสิ่งที่เพิ่งพูดไปอีกครั้ง ตอนนั้นมันถึงเหมือนจะมองดูจริง ๆ และไตร่ตรอง
มีคนบอกว่า GPT-4V ติดป้ายไก่ทอดว่า “NVIDIA BURGER” แต่ถ้าเป็นคนแถบมิดเวสต์ของสหรัฐฯ จะบอกชัด ๆ ว่านั่นคือ เทนเดอร์ลอยน์
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- ฟีเจอร์เสริมสำหรับคนมิดเวสต์คงต้องเก็บไว้สำหรับ v2
- ขอแย้งคำว่า “ใครก็ตามที่เป็นคนมิดเวสต์” หน่อย ไม่ใช่ทั้งรัฐ Indiana ก็เป็นแบบนั้น และบทความที่ลิงก์มาก็บอกว่าใน Chicago ไม่ใช่แบบนั้น
เช่นเดียวกับเวอร์ชันข้อความ แปลกที่มันยังอ่อนเรื่อง tic-tac-toe มาก
ผมให้รูปเกมที่จบแล้วและถามว่า “ใครชนะ?” มันตอบว่า “X ชนะด้วยแนวตั้งในคอลัมน์กลาง” แต่จริง ๆ แล้ว O ชนะ และในคอลัมน์กลางมี X แค่ตัวเดียว
ถึงอย่างนั้น เกือบทุกอย่างอื่นที่ลองให้มันดูน่าประทับใจมาก
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  ถ้าให้คำสั่งละเอียดถี่ถ้วน ก็จะได้ tic-tac-toe แบบเหมาะที่สุด

ความประทับใจแรกต่อ GPT-4V(ision)

ลักษณะและแนวทางการเข้าถึงของ GPT-4V

งานประเมิน 6 ประเภท

การถามตอบจากภาพ (VQA)

การรู้จำอักขระด้วยแสง (OCR)

Math OCR

การตรวจจับวัตถุ

การอ่าน CAPTCHA

ปริศนาอักษรไขว้และซูโดกุ

ผลลัพธ์ของการถามตอบจากภาพ

OCR และ Math OCR

การตรวจจับวัตถุและข้อจำกัดด้านความเข้าใจเชิงพื้นที่

CAPTCHA, ปริศนาอักษรไขว้, ซูโดกุ

การใช้ GPT-4V API ด้วย Python

ความปลอดภัย ข้อจำกัด และการใช้งานจริง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News