การเดาตำแหน่งจากภาพถ่ายของ o3 ทั้งเหนือจริง ดิสโทเปีย และสนุก

(simonwillison.net)

6 คะแนน โดย GN⁺ 2025-04-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลใหม่ o3 ของ OpenAI มีความสามารถในการเดาตำแหน่งที่ถ่ายภาพได้อย่างแม่นยำอย่างน่าทึ่งจากการดูแค่ภาพถ่าย
แสดงกระบวนการวิเคราะห์ เบาะแสทางภาพ และดึงรายละเอียดเพิ่มเติมออกมาผ่านการซูม/ครอปภาพ
เดาครั้งแรกเป็น Cambria, California แต่คำตอบที่ถูกต้องคือการเดาครั้งที่สอง El Granada
แสดงรูปแบบที่ล้ำมากในการวิเคราะห์ภาพโดยใช้ ระบบการคิดที่เชื่อมโยงกับเครื่องมือ
เน้นให้ตระหนักถึง สองด้านของเทคโนโลยี พร้อมชี้ให้เห็นความเสี่ยงของการแชร์ภาพถ่าย

ความสามารถน่าทึ่งของโมเดล o3 ในการเดาตำแหน่งจากภาพถ่าย

โมเดล o3 ของ OpenAI มีความสามารถในการดูภาพถ่ายแล้วเดาได้อย่างแม่นยำอย่างน่าทึ่งว่าถ่ายจากที่ไหน
ผู้ใช้ส่งภาพวิวถนนทั่วไปที่ไม่มีแลนด์มาร์กชัดเจนมาให้ แล้วถามว่า "คิดว่าภาพนี้ถ่ายที่ไหน?"
ตอนแรกโมเดลเข้าใจผิดว่าตนไม่สามารถดูภาพได้ แต่ไม่นานก็เริ่มการวิเคราะห์เชิงภาพ
โมเดลค่อย ๆ จำกัดขอบเขตตำแหน่งด้วยการวิเคราะห์เบาะแสทางภาพหลากหลายอย่าง เช่น บ้าน แปลงดอกไม้ เนินเขา และป้ายต่าง ๆ

กระบวนการวิเคราะห์ภาพของ o3

โมเดลใช้วิธี ครอปและซูมภาพ เพื่อตรวจสอบป้ายทะเบียนรถ
ใช้โค้ด Python เพื่อตัดส่วนเฉพาะของภาพออกมา แล้ววิเคราะห์ผลลัพธ์ที่ได้
จากดีไซน์ของป้ายทะเบียน โมเดลอนุมานว่าเป็น แคลิฟอร์เนีย และยังวิเคราะห์สภาพแวดล้อมโดยรอบกับรูปแบบสถาปัตยกรรมเพิ่มเติม
จากนั้นจึงสรุปเดาครั้งสุดท้ายเป็น Cambria, California และเสนอ Half Moon Bay–El Granada เป็นตัวเลือกที่สอง

ความแม่นยำของการวิเคราะห์และการทดลองเพิ่มเติม

สถานที่จริงที่ถ่ายคือ El Granada และการเดาครั้งที่สองของโมเดลนั้นถูกต้อง
ยืนยันได้ว่ามีการอนุมานตำแหน่งได้โดยไม่ใช้ EXIF metadata
เมื่อผู้ใช้ทดลองด้วยภาพสกรีนช็อตที่ลบข้อมูล EXIF ออกแล้ว โมเดลก็ยังคงอนุมานได้อย่างแม่นยำ
โมเดลอื่นอย่าง Claude 3.5/3.7 Sonnet ก็ให้ผลลัพธ์ที่ดีเช่นกัน แต่ยังไม่รองรับความสามารถในการซูมแบบเดียวกับ o3
โมเดล Gemini มีบางกรณีที่ใช้ข้อมูลตำแหน่งอย่างไม่แม่นยำหรือเดาผิด

ระบบการคิดที่เชื่อมโยงกับเครื่องมือและความหมายของมัน

o3 ใช้วิธีใหม่แบบ Tool-augmented Chain-of-Thought ที่สามารถเรียกใช้เครื่องมือที่จำเป็นได้เองระหว่าง "กำลังคิด"
ไม่ใช่แค่การวิเคราะห์ภาพเท่านั้น แต่รูปแบบนี้ยังแสดงประสิทธิภาพสูงในงานหลากหลายอย่าง เช่น การค้นหา
คาดว่าในอนาคต AI โมเดลอื่น ๆ ก็จะนำแนวทางลักษณะคล้ายกันนี้มาใช้อย่างแพร่หลาย

ความสนุกและความเสี่ยงของเทคโนโลยี

การเฝ้าดูกระบวนการให้เหตุผลของโมเดลเป็นประสบการณ์ที่ สนุกมากและชวนให้จดจ่อ
ขณะเดียวกัน ก็เป็นสัญญาณเตือนสำคัญว่า ความเป็นไปได้ในการติดตามตำแหน่งผ่านภาพถ่าย ได้กลายเป็นเรื่องทั่วไปแล้ว
ใครก็ตามสามารถติดตามตำแหน่งส่วนบุคคลได้จากภาพถ่ายในชีวิตประจำวันเพียงอย่างเดียว จึงจำเป็นต้องตระหนักถึง ประเด็นด้านความเป็นส่วนตัวและความปลอดภัย

ข้อมูลเพิ่มเติมเกี่ยวกับการเข้าถึงข้อมูลตำแหน่งของโมเดล o3

o3 สามารถอ้างอิงข้อมูลตำแหน่งโดยคร่าว ๆ ของผู้ใช้ได้ แต่สิ่งนี้ไม่ใช่ปัจจัยหลักในการอนุมานตำแหน่งอย่างแม่นยำ
แม้ไม่มี EXIF metadata โมเดลก็ยังวิเคราะห์ภาพจากพื้นที่ที่อยู่ห่างออกไปหลายพันไมล์ได้ค่อนข้างแม่นยำ
ผู้ใช้อื่น ๆ ก็ทดลองกับสถานที่หลากหลาย และยืนยันความสามารถในการวิเคราะห์ของ o3 ซ้ำอีกครั้ง

2 ความคิดเห็น

unsure4000 2025-04-27

ถ้าใส่ข้อมูลย้อนกลับลงใน EXIF จะเป็นอย่างไร?

GN⁺ 2025-04-27

ความคิดเห็นจาก Hacker News

ฉันเล่น Geoguessr แบบแข่งขันในระดับสูง และอยากทดสอบโมเดลนี้
- มันเก่งอย่างน่าทึ่ง
- มันทายภาพจากพื้นที่ที่ฉันอาศัยอยู่ได้ถูกต้อง และระบุว่ามันใช้ข้อมูลที่ว่าฉันอยู่ใกล้บริเวณนั้น
- มันทายรูปวันหยุดเก่าๆ ได้ดีกว่าผู้เล่นมนุษย์ระดับโปรเสียอีก
- ครอบคลุมสถานที่หลากหลายในยุโรป อเมริกากลาง และสหรัฐฯ
- กระบวนการไปสู่ข้อสรุปคล้ายมนุษย์
- มันวิเคราะห์พืช ภูมิประเทศ สถาปัตยกรรม โครงสร้างพื้นฐานถนน ป้าย ฯลฯ
- มนุษย์ก็ทำได้ แต่ต้องเล่นนับพันเกมหรือศึกษาลึกมาก
- ฉันใช้แฟลชการ์ดหลายร้อยใบเพื่อจำเส้นถนน เสาไฟฟ้า อาคาร ฯลฯ
- โมเดลพวกนี้มีข้อมูลมากกว่าที่คนคนหนึ่งจะจำได้
มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF
- ถ้ามันดู มันคงไม่เดา Cambria ตั้งแต่แรก
- ครั้งหนึ่งมันเคยบอกว่ามองไม่เห็นข้อมูลภาพเลย
- คำพูดนั้นเชื่อไม่ได้เด็ดขาด
- ควรลบข้อมูล EXIF แล้วรันใหม่
จากทุกภาพที่ฉันทดลอง โมเดลพื้นฐานระบุตำแหน่งภาพได้แม่นประมาณ 95%
- ในภาพแรกของ OP นั้น 4o เดา Carmel-by-the-Sea ได้แม่นยำกว่า
- ใน CoT มองเห็นตำแหน่งที่เกือบถูกต้องตั้งแต่ขั้นตอนการให้เหตุผลแรก
- โมเดลกลับเมินสิ่งนั้นแล้วลองตำแหน่งอื่น
- เมื่อโมเดลพื้นฐานไม่รู้เบาะแส o3 ก็ไม่ได้แสดงพฤติกรรมที่ฉลาด
- โมเดลถูก RL-ed ให้พาไปสู่คำตอบที่ถูก ไม่ว่าจะใช้เครื่องมือกี่ครั้งก็ตาม
ฉันลองเหมือนกันแล้วผลออกมาฮามาก
- มันไม่รู้เบาะแสเลย
- ฉันเห็นพรอมป์ต์หลายครั้งที่บอกว่าไม่ใช่เมืองที่ฉันอยู่
- ตอนที่มันเริ่มวิเคราะห์แอสฟัลต์ที่เบลอๆ นั่นตลกที่สุด
- ผ่านไป 6 นาที o3 ก็ยังมั่นใจผิดๆ
o3 สร้างแบบจำลองตำแหน่งของผู้ใช้แบบคร่าวๆ
- ฉันเชื่อว่านี่มีไว้รองรับฟีเจอร์ค้นหาแบบใหม่
- ฉันลองรันคำค้นตัวอย่างเพิ่มอีกสองอัน และทั้งคู่ก็ให้ผลที่ดูน่าเชื่อถือ
ทำให้นึกถึงเวลาที่คนเห็นโฆษณาเกี่ยวกับสิ่งที่ตัวเองเพิ่งคุยกันตอนดู YouTubeTV แล้วตกใจ
- ที่จริงแล้ว ML สมัยใหม่สามารถเดาความเกี่ยวข้องของโฆษณาได้ดีโดยใช้ตำแหน่ง พาร์ตเนอร์ข้อมูล และการค้นหาล่าสุด
- ต่อให้อธิบายแบบนี้ ก็ยังมีคนที่เชื่อว่าคอมพิวเตอร์กำลังแอบฟังอยู่
น่าจะมีบางบริเวณที่การเดาตำแหน่งแม่นจนน่ากลัว
- แต่ถ้าดูกระบวนการให้เหตุผล ก็จะมีอีกหลายบริเวณที่แม่นน้อยกว่า
- ถ้าเอารูปเทรลเลอร์พาร์กในแคนซัสให้ดู โมเดลก็น่าจะเดาถูกแค่ระดับรัฐ
- ถ้าเกิดหุ่นยนต์ล้างโลกขึ้นมา แคลิฟอร์เนียน่าจะเป็นที่แรกๆ ที่เสี่ยง
มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF
- ถ้ามันโกงในงานคล้ายกัน มันคงเสนอพิกัดที่คลาดไปเล็กน้อย
- น่าสนใจที่จะดูว่ามันทำได้แค่ไหนกับภาพเดียวกันเมื่อเอา EXIF ออกแล้ว
วันอื่นๆ มันก็ไม่ได้น่าประทับใจขนาดนั้น
- มันหารูปที่ให้ไปไม่เจอ
- เอาแต่ทำ image crop และค้นหาที่คล้ายกันซ้ำๆ
- ถ้าใช้ฟีเจอร์สร้างภาพ จะเห็นได้ว่ามันใช้ฐานข้อมูลภาพขนาดใหญ่เป็นเอกสารอ้างอิง
ไม่แน่ใจว่า o4-mini ล้มเหลวกับงานนี้หรือเปล่า
- มันทำได้ไม่ดีนักกับภาพที่ให้ไป
- ฉันให้รูปที่มีข้อความ 'Sprüngli' ที่ Basel Main Train Station แต่โมเดลกลับเสนอ Zurich
- รูปที่สองยากกว่า
- เป็นภาพภายในพิพิธภัณฑ์ใน Metz และโมเดลพลาดตั้งแต่ต้น
- โดยรวมแล้วการเข้าใจภาพและให้เหตุผลก็ยังน่าทึ่งอยู่ แต่กับสถานที่ที่ไม่ค่อยเป็นที่รู้จัก มันทำได้ไม่ดีนัก

การเดาตำแหน่งจากภาพถ่ายของ o3 ทั้งเหนือจริง ดิสโทเปีย และสนุก

ความสามารถน่าทึ่งของโมเดล o3 ในการเดาตำแหน่งจากภาพถ่าย

กระบวนการวิเคราะห์ภาพของ o3

ความแม่นยำของการวิเคราะห์และการทดลองเพิ่มเติม

ระบบการคิดที่เชื่อมโยงกับเครื่องมือและความหมายของมัน

ความสนุกและความเสี่ยงของเทคโนโลยี

ข้อมูลเพิ่มเติมเกี่ยวกับการเข้าถึงข้อมูลตำแหน่งของโมเดล o3

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News