6 คะแนน โดย GN⁺ 2025-04-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลใหม่ o3 ของ OpenAI มีความสามารถในการเดาตำแหน่งที่ถ่ายภาพได้อย่างแม่นยำอย่างน่าทึ่งจากการดูแค่ภาพถ่าย
  • แสดงกระบวนการวิเคราะห์ เบาะแสทางภาพ และดึงรายละเอียดเพิ่มเติมออกมาผ่านการซูม/ครอปภาพ
  • เดาครั้งแรกเป็น Cambria, California แต่คำตอบที่ถูกต้องคือการเดาครั้งที่สอง El Granada
  • แสดงรูปแบบที่ล้ำมากในการวิเคราะห์ภาพโดยใช้ ระบบการคิดที่เชื่อมโยงกับเครื่องมือ
  • เน้นให้ตระหนักถึง สองด้านของเทคโนโลยี พร้อมชี้ให้เห็นความเสี่ยงของการแชร์ภาพถ่าย

ความสามารถน่าทึ่งของโมเดล o3 ในการเดาตำแหน่งจากภาพถ่าย

  • โมเดล o3 ของ OpenAI มีความสามารถในการดูภาพถ่ายแล้วเดาได้อย่างแม่นยำอย่างน่าทึ่งว่าถ่ายจากที่ไหน
  • ผู้ใช้ส่งภาพวิวถนนทั่วไปที่ไม่มีแลนด์มาร์กชัดเจนมาให้ แล้วถามว่า "คิดว่าภาพนี้ถ่ายที่ไหน?"
  • ตอนแรกโมเดลเข้าใจผิดว่าตนไม่สามารถดูภาพได้ แต่ไม่นานก็เริ่มการวิเคราะห์เชิงภาพ
  • โมเดลค่อย ๆ จำกัดขอบเขตตำแหน่งด้วยการวิเคราะห์เบาะแสทางภาพหลากหลายอย่าง เช่น บ้าน แปลงดอกไม้ เนินเขา และป้ายต่าง ๆ

กระบวนการวิเคราะห์ภาพของ o3

  • โมเดลใช้วิธี ครอปและซูมภาพ เพื่อตรวจสอบป้ายทะเบียนรถ
  • ใช้โค้ด Python เพื่อตัดส่วนเฉพาะของภาพออกมา แล้ววิเคราะห์ผลลัพธ์ที่ได้
  • จากดีไซน์ของป้ายทะเบียน โมเดลอนุมานว่าเป็น แคลิฟอร์เนีย และยังวิเคราะห์สภาพแวดล้อมโดยรอบกับรูปแบบสถาปัตยกรรมเพิ่มเติม
  • จากนั้นจึงสรุปเดาครั้งสุดท้ายเป็น Cambria, California และเสนอ Half Moon Bay–El Granada เป็นตัวเลือกที่สอง

ความแม่นยำของการวิเคราะห์และการทดลองเพิ่มเติม

  • สถานที่จริงที่ถ่ายคือ El Granada และการเดาครั้งที่สองของโมเดลนั้นถูกต้อง
  • ยืนยันได้ว่ามีการอนุมานตำแหน่งได้โดยไม่ใช้ EXIF metadata
  • เมื่อผู้ใช้ทดลองด้วยภาพสกรีนช็อตที่ลบข้อมูล EXIF ออกแล้ว โมเดลก็ยังคงอนุมานได้อย่างแม่นยำ
  • โมเดลอื่นอย่าง Claude 3.5/3.7 Sonnet ก็ให้ผลลัพธ์ที่ดีเช่นกัน แต่ยังไม่รองรับความสามารถในการซูมแบบเดียวกับ o3
  • โมเดล Gemini มีบางกรณีที่ใช้ข้อมูลตำแหน่งอย่างไม่แม่นยำหรือเดาผิด

ระบบการคิดที่เชื่อมโยงกับเครื่องมือและความหมายของมัน

  • o3 ใช้วิธีใหม่แบบ Tool-augmented Chain-of-Thought ที่สามารถเรียกใช้เครื่องมือที่จำเป็นได้เองระหว่าง "กำลังคิด"
  • ไม่ใช่แค่การวิเคราะห์ภาพเท่านั้น แต่รูปแบบนี้ยังแสดงประสิทธิภาพสูงในงานหลากหลายอย่าง เช่น การค้นหา
  • คาดว่าในอนาคต AI โมเดลอื่น ๆ ก็จะนำแนวทางลักษณะคล้ายกันนี้มาใช้อย่างแพร่หลาย

ความสนุกและความเสี่ยงของเทคโนโลยี

  • การเฝ้าดูกระบวนการให้เหตุผลของโมเดลเป็นประสบการณ์ที่ สนุกมากและชวนให้จดจ่อ
  • ขณะเดียวกัน ก็เป็นสัญญาณเตือนสำคัญว่า ความเป็นไปได้ในการติดตามตำแหน่งผ่านภาพถ่าย ได้กลายเป็นเรื่องทั่วไปแล้ว
  • ใครก็ตามสามารถติดตามตำแหน่งส่วนบุคคลได้จากภาพถ่ายในชีวิตประจำวันเพียงอย่างเดียว จึงจำเป็นต้องตระหนักถึง ประเด็นด้านความเป็นส่วนตัวและความปลอดภัย

ข้อมูลเพิ่มเติมเกี่ยวกับการเข้าถึงข้อมูลตำแหน่งของโมเดล o3

  • o3 สามารถอ้างอิงข้อมูลตำแหน่งโดยคร่าว ๆ ของผู้ใช้ได้ แต่สิ่งนี้ไม่ใช่ปัจจัยหลักในการอนุมานตำแหน่งอย่างแม่นยำ
  • แม้ไม่มี EXIF metadata โมเดลก็ยังวิเคราะห์ภาพจากพื้นที่ที่อยู่ห่างออกไปหลายพันไมล์ได้ค่อนข้างแม่นยำ
  • ผู้ใช้อื่น ๆ ก็ทดลองกับสถานที่หลากหลาย และยืนยันความสามารถในการวิเคราะห์ของ o3 ซ้ำอีกครั้ง

2 ความคิดเห็น

 
unsure4000 2025-04-27

ถ้าใส่ข้อมูลย้อนกลับลงใน EXIF จะเป็นอย่างไร?

 
GN⁺ 2025-04-27
ความคิดเห็นจาก Hacker News
  • ฉันเล่น Geoguessr แบบแข่งขันในระดับสูง และอยากทดสอบโมเดลนี้

    • มันเก่งอย่างน่าทึ่ง
    • มันทายภาพจากพื้นที่ที่ฉันอาศัยอยู่ได้ถูกต้อง และระบุว่ามันใช้ข้อมูลที่ว่าฉันอยู่ใกล้บริเวณนั้น
    • มันทายรูปวันหยุดเก่าๆ ได้ดีกว่าผู้เล่นมนุษย์ระดับโปรเสียอีก
    • ครอบคลุมสถานที่หลากหลายในยุโรป อเมริกากลาง และสหรัฐฯ
    • กระบวนการไปสู่ข้อสรุปคล้ายมนุษย์
    • มันวิเคราะห์พืช ภูมิประเทศ สถาปัตยกรรม โครงสร้างพื้นฐานถนน ป้าย ฯลฯ
    • มนุษย์ก็ทำได้ แต่ต้องเล่นนับพันเกมหรือศึกษาลึกมาก
    • ฉันใช้แฟลชการ์ดหลายร้อยใบเพื่อจำเส้นถนน เสาไฟฟ้า อาคาร ฯลฯ
    • โมเดลพวกนี้มีข้อมูลมากกว่าที่คนคนหนึ่งจะจำได้
  • มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF

    • ถ้ามันดู มันคงไม่เดา Cambria ตั้งแต่แรก
    • ครั้งหนึ่งมันเคยบอกว่ามองไม่เห็นข้อมูลภาพเลย
    • คำพูดนั้นเชื่อไม่ได้เด็ดขาด
    • ควรลบข้อมูล EXIF แล้วรันใหม่
  • จากทุกภาพที่ฉันทดลอง โมเดลพื้นฐานระบุตำแหน่งภาพได้แม่นประมาณ 95%

    • ในภาพแรกของ OP นั้น 4o เดา Carmel-by-the-Sea ได้แม่นยำกว่า
    • ใน CoT มองเห็นตำแหน่งที่เกือบถูกต้องตั้งแต่ขั้นตอนการให้เหตุผลแรก
    • โมเดลกลับเมินสิ่งนั้นแล้วลองตำแหน่งอื่น
    • เมื่อโมเดลพื้นฐานไม่รู้เบาะแส o3 ก็ไม่ได้แสดงพฤติกรรมที่ฉลาด
    • โมเดลถูก RL-ed ให้พาไปสู่คำตอบที่ถูก ไม่ว่าจะใช้เครื่องมือกี่ครั้งก็ตาม
  • ฉันลองเหมือนกันแล้วผลออกมาฮามาก

    • มันไม่รู้เบาะแสเลย
    • ฉันเห็นพรอมป์ต์หลายครั้งที่บอกว่าไม่ใช่เมืองที่ฉันอยู่
    • ตอนที่มันเริ่มวิเคราะห์แอสฟัลต์ที่เบลอๆ นั่นตลกที่สุด
    • ผ่านไป 6 นาที o3 ก็ยังมั่นใจผิดๆ
  • o3 สร้างแบบจำลองตำแหน่งของผู้ใช้แบบคร่าวๆ

    • ฉันเชื่อว่านี่มีไว้รองรับฟีเจอร์ค้นหาแบบใหม่
    • ฉันลองรันคำค้นตัวอย่างเพิ่มอีกสองอัน และทั้งคู่ก็ให้ผลที่ดูน่าเชื่อถือ
  • ทำให้นึกถึงเวลาที่คนเห็นโฆษณาเกี่ยวกับสิ่งที่ตัวเองเพิ่งคุยกันตอนดู YouTubeTV แล้วตกใจ

    • ที่จริงแล้ว ML สมัยใหม่สามารถเดาความเกี่ยวข้องของโฆษณาได้ดีโดยใช้ตำแหน่ง พาร์ตเนอร์ข้อมูล และการค้นหาล่าสุด
    • ต่อให้อธิบายแบบนี้ ก็ยังมีคนที่เชื่อว่าคอมพิวเตอร์กำลังแอบฟังอยู่
  • น่าจะมีบางบริเวณที่การเดาตำแหน่งแม่นจนน่ากลัว

    • แต่ถ้าดูกระบวนการให้เหตุผล ก็จะมีอีกหลายบริเวณที่แม่นน้อยกว่า
    • ถ้าเอารูปเทรลเลอร์พาร์กในแคนซัสให้ดู โมเดลก็น่าจะเดาถูกแค่ระดับรัฐ
    • ถ้าเกิดหุ่นยนต์ล้างโลกขึ้นมา แคลิฟอร์เนียน่าจะเป็นที่แรกๆ ที่เสี่ยง
  • มั่นใจว่ามันไม่ได้ดูข้อมูล EXIF

    • ถ้ามันโกงในงานคล้ายกัน มันคงเสนอพิกัดที่คลาดไปเล็กน้อย
    • น่าสนใจที่จะดูว่ามันทำได้แค่ไหนกับภาพเดียวกันเมื่อเอา EXIF ออกแล้ว
  • วันอื่นๆ มันก็ไม่ได้น่าประทับใจขนาดนั้น

    • มันหารูปที่ให้ไปไม่เจอ
    • เอาแต่ทำ image crop และค้นหาที่คล้ายกันซ้ำๆ
    • ถ้าใช้ฟีเจอร์สร้างภาพ จะเห็นได้ว่ามันใช้ฐานข้อมูลภาพขนาดใหญ่เป็นเอกสารอ้างอิง
  • ไม่แน่ใจว่า o4-mini ล้มเหลวกับงานนี้หรือเปล่า

    • มันทำได้ไม่ดีนักกับภาพที่ให้ไป
    • ฉันให้รูปที่มีข้อความ 'Sprüngli' ที่ Basel Main Train Station แต่โมเดลกลับเสนอ Zurich
    • รูปที่สองยากกว่า
    • เป็นภาพภายในพิพิธภัณฑ์ใน Metz และโมเดลพลาดตั้งแต่ต้น
    • โดยรวมแล้วการเข้าใจภาพและให้เหตุผลก็ยังน่าทึ่งอยู่ แต่กับสถานที่ที่ไม่ค่อยเป็นที่รู้จัก มันทำได้ไม่ดีนัก