- โมเดลใหม่ o3 ของ OpenAI มีความสามารถในการเดาตำแหน่งที่ถ่ายภาพได้อย่างแม่นยำอย่างน่าทึ่งจากการดูแค่ภาพถ่าย
- แสดงกระบวนการวิเคราะห์ เบาะแสทางภาพ และดึงรายละเอียดเพิ่มเติมออกมาผ่านการซูม/ครอปภาพ
- เดาครั้งแรกเป็น Cambria, California แต่คำตอบที่ถูกต้องคือการเดาครั้งที่สอง El Granada
- แสดงรูปแบบที่ล้ำมากในการวิเคราะห์ภาพโดยใช้ ระบบการคิดที่เชื่อมโยงกับเครื่องมือ
- เน้นให้ตระหนักถึง สองด้านของเทคโนโลยี พร้อมชี้ให้เห็นความเสี่ยงของการแชร์ภาพถ่าย
ความสามารถน่าทึ่งของโมเดล o3 ในการเดาตำแหน่งจากภาพถ่าย
- โมเดล o3 ของ OpenAI มีความสามารถในการดูภาพถ่ายแล้วเดาได้อย่างแม่นยำอย่างน่าทึ่งว่าถ่ายจากที่ไหน
- ผู้ใช้ส่งภาพวิวถนนทั่วไปที่ไม่มีแลนด์มาร์กชัดเจนมาให้ แล้วถามว่า "คิดว่าภาพนี้ถ่ายที่ไหน?"
- ตอนแรกโมเดลเข้าใจผิดว่าตนไม่สามารถดูภาพได้ แต่ไม่นานก็เริ่มการวิเคราะห์เชิงภาพ
- โมเดลค่อย ๆ จำกัดขอบเขตตำแหน่งด้วยการวิเคราะห์เบาะแสทางภาพหลากหลายอย่าง เช่น บ้าน แปลงดอกไม้ เนินเขา และป้ายต่าง ๆ
กระบวนการวิเคราะห์ภาพของ o3
- โมเดลใช้วิธี ครอปและซูมภาพ เพื่อตรวจสอบป้ายทะเบียนรถ
- ใช้โค้ด Python เพื่อตัดส่วนเฉพาะของภาพออกมา แล้ววิเคราะห์ผลลัพธ์ที่ได้
- จากดีไซน์ของป้ายทะเบียน โมเดลอนุมานว่าเป็น แคลิฟอร์เนีย และยังวิเคราะห์สภาพแวดล้อมโดยรอบกับรูปแบบสถาปัตยกรรมเพิ่มเติม
- จากนั้นจึงสรุปเดาครั้งสุดท้ายเป็น Cambria, California และเสนอ Half Moon Bay–El Granada เป็นตัวเลือกที่สอง
ความแม่นยำของการวิเคราะห์และการทดลองเพิ่มเติม
- สถานที่จริงที่ถ่ายคือ El Granada และการเดาครั้งที่สองของโมเดลนั้นถูกต้อง
- ยืนยันได้ว่ามีการอนุมานตำแหน่งได้โดยไม่ใช้ EXIF metadata
- เมื่อผู้ใช้ทดลองด้วยภาพสกรีนช็อตที่ลบข้อมูล EXIF ออกแล้ว โมเดลก็ยังคงอนุมานได้อย่างแม่นยำ
- โมเดลอื่นอย่าง Claude 3.5/3.7 Sonnet ก็ให้ผลลัพธ์ที่ดีเช่นกัน แต่ยังไม่รองรับความสามารถในการซูมแบบเดียวกับ o3
- โมเดล Gemini มีบางกรณีที่ใช้ข้อมูลตำแหน่งอย่างไม่แม่นยำหรือเดาผิด
ระบบการคิดที่เชื่อมโยงกับเครื่องมือและความหมายของมัน
- o3 ใช้วิธีใหม่แบบ Tool-augmented Chain-of-Thought ที่สามารถเรียกใช้เครื่องมือที่จำเป็นได้เองระหว่าง "กำลังคิด"
- ไม่ใช่แค่การวิเคราะห์ภาพเท่านั้น แต่รูปแบบนี้ยังแสดงประสิทธิภาพสูงในงานหลากหลายอย่าง เช่น การค้นหา
- คาดว่าในอนาคต AI โมเดลอื่น ๆ ก็จะนำแนวทางลักษณะคล้ายกันนี้มาใช้อย่างแพร่หลาย
ความสนุกและความเสี่ยงของเทคโนโลยี
- การเฝ้าดูกระบวนการให้เหตุผลของโมเดลเป็นประสบการณ์ที่ สนุกมากและชวนให้จดจ่อ
- ขณะเดียวกัน ก็เป็นสัญญาณเตือนสำคัญว่า ความเป็นไปได้ในการติดตามตำแหน่งผ่านภาพถ่าย ได้กลายเป็นเรื่องทั่วไปแล้ว
- ใครก็ตามสามารถติดตามตำแหน่งส่วนบุคคลได้จากภาพถ่ายในชีวิตประจำวันเพียงอย่างเดียว จึงจำเป็นต้องตระหนักถึง ประเด็นด้านความเป็นส่วนตัวและความปลอดภัย
ข้อมูลเพิ่มเติมเกี่ยวกับการเข้าถึงข้อมูลตำแหน่งของโมเดล o3
- o3 สามารถอ้างอิงข้อมูลตำแหน่งโดยคร่าว ๆ ของผู้ใช้ได้ แต่สิ่งนี้ไม่ใช่ปัจจัยหลักในการอนุมานตำแหน่งอย่างแม่นยำ
- แม้ไม่มี EXIF metadata โมเดลก็ยังวิเคราะห์ภาพจากพื้นที่ที่อยู่ห่างออกไปหลายพันไมล์ได้ค่อนข้างแม่นยำ
- ผู้ใช้อื่น ๆ ก็ทดลองกับสถานที่หลากหลาย และยืนยันความสามารถในการวิเคราะห์ของ o3 ซ้ำอีกครั้ง
2 ความคิดเห็น
ถ้าใส่ข้อมูลย้อนกลับลงใน EXIF จะเป็นอย่างไร?
ความคิดเห็นจาก Hacker News
ฉันเล่น Geoguessr แบบแข่งขันในระดับสูง และอยากทดสอบโมเดลนี้
มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF
จากทุกภาพที่ฉันทดลอง โมเดลพื้นฐานระบุตำแหน่งภาพได้แม่นประมาณ 95%
ฉันลองเหมือนกันแล้วผลออกมาฮามาก
o3 สร้างแบบจำลองตำแหน่งของผู้ใช้แบบคร่าวๆ
ทำให้นึกถึงเวลาที่คนเห็นโฆษณาเกี่ยวกับสิ่งที่ตัวเองเพิ่งคุยกันตอนดู YouTubeTV แล้วตกใจ
น่าจะมีบางบริเวณที่การเดาตำแหน่งแม่นจนน่ากลัว
มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF
วันอื่นๆ มันก็ไม่ได้น่าประทับใจขนาดนั้น
ไม่แน่ใจว่า o4-mini ล้มเหลวกับงานนี้หรือเปล่า