ตอนนี้ ChatGPT ระบุตำแหน่งจากภาพถ่ายได้อย่างแม่นยำแล้ว

(flausch.social)

4 คะแนน โดย GN⁺ 2025-04-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

o3 สามารถซูม ครอป และปรับภาพให้สว่างขึ้น เพื่ออนุมานได้อย่างแม่นยำว่า "ภาพนี้ถ่ายที่ไหน"

จากนี้ไป ถ้าจะเผยแพร่ภาพถ่ายกลางแจ้ง ก็ต้องเปลี่ยนความคิดเป็นว่า "ไม่ว่า stalker คนไหนก็หาตัวฉันเจอได้ด้วยเงินเดือนละ 20,000 วอน" ไม่ใช่เรื่องที่ทำได้แค่คนที่มีความชำนาญอีกต่อไป

เรื่องแบบ GeoGuessr (บริการเกมบนเว็บที่ให้ผู้ใช้อัปโหลดรูปแล้วทายว่าเป็นที่ไหน) ก็แก้ได้ง่าย
ในอดีตมีเพียงผู้เชี่ยวชาญเท่านั้นที่สามารถตามรอยตำแหน่งจากภาพถ่ายได้ แต่ตอนนี้มีเครื่องมือที่ใครก็เข้าถึงได้ง่ายเกิดขึ้นแล้ว (ChatGPT, Google Lens) จึงจำเป็นต้องอัปเดต threat model

1 ความคิดเห็น

GN⁺ 2025-04-19

ความคิดเห็นจาก Hacker News

มีการให้ภาพ 11 ภาพที่ลบเมตาดาต้าออกแล้วมาให้ แม้จะระบุผิดสำหรับภาพสองภาพที่ถ่ายในเมืองมหาวิทยาลัยเล็ก ๆ แห่งหนึ่งทางตะวันออกเฉียงเหนือของสหรัฐฯ แต่ก็ระบุภาพสองภาพที่ถ่ายในเกาหลีได้ถูกต้อง และคำถามอื่น ๆ ทั้งหมดในสหรัฐฯ ก็ตอบได้ถูกต้อง ไม่ได้สมบูรณ์แบบ แต่ประหลาดใจกับประสิทธิภาพมาก
- multimodal LLM น่าจะเก่งใน GeoGuesser แต่การจะบอกว่าเกมนี้ถูก "แก้ได้แล้ว" ยังใช้แค่ตัวอย่างไม่กี่ตัวอย่างไม่ได้ และก็สงสัยด้วยว่าอาจมี data leakage หรือไม่
- ไม่ได้หมายความว่าผลงานนี้ไม่น่าประทับใจ แต่อยากให้ชัดเจนว่ามันยังไม่ได้พิสูจน์ข้ออ้างตามที่พาดหัวกล่าวไว้
- มีความเป็นไปได้สูงว่าโมเดลถูกฝึกด้วยภาพจำนวนมากพร้อมข้อมูลตำแหน่ง และมีความสามารถในการแยกแยะลักษณะเด่นต่าง ๆ เมื่อรวมกับความสามารถในการตีความคำสั่งและการคาดเดา ก็มีองค์ประกอบเพียงพอสำหรับเกมนี้
ลองให้ ChatGPT o4-mini-high หาตำแหน่งของภาพ 4 ภาพที่มีระดับความยากต่างกัน ทั้งหมดตอบผิด แต่การคาดเดาก็ไม่ได้แย่ ขั้นตอนที่มันครอปบางส่วนของภาพเพื่อดูรายละเอียดมากขึ้นน่าสนใจดี
- ลองใช้พรอมป์ต์และภาพเดียวกันกับ Gemini 2.5 Pro ด้วย แต่ก็ยังตอบผิดทั้งหมดเหมือนกัน คิดว่าข้อมูลแผนที่และ Street View ของ Google น่าจะให้ผลดีกว่านี้ แต่กลับไม่เป็นเช่นนั้น
ระดับของคำว่า "แก้ได้แล้ว" มีได้หลายแบบ การระบุภูมิภาคกว้าง ๆ ได้ถือว่าน่าทึ่ง แต่คงไม่เรียกว่าเป็น "ปัญหาที่ถูกแก้แล้ว" จนกว่าจะเอาชนะได้อย่างสม่ำเสมอด้วยความแม่นยำระดับเดียวกับ Rainbolt ยังไม่มีการเปรียบเทียบกับถนนแบบสุ่มจริง ๆ และส่วนใหญ่ยังเป็นแค่สถานที่ยอดนิยม
- การเลือกสิ่งเฉพาะที่ถูกถ่ายมาหลายพันครั้ง กับการดูทิวทัศน์ชนบทแบบสุ่มแล้วหาลักษณะเฉพาะทั้งหมดออกมา เป็นปัญหาคนละแบบกัน
สงสัยว่า AI รุ่นใหม่นี้ครอบคลุมเนื้อหาใน "Geoguesser Meta Iceberg" ไปได้มากแค่ไหน
ผมบอกมาตลอดว่าให้เก็บภาพลามกที่ได้รับจากผู้หญิงเอาไว้ทั้งหมด เพราะ noise เฉพาะตัวของเซ็นเซอร์กล้องสามารถบอกได้ว่าภาพอื่นถ่ายจากกล้องตัวเดียวกันหรือไม่ แค่ต้องมีเสิร์ชเอนจินที่ทำสิ่งนี้ได้ ดูเหมือนว่าภายใน 2-3 ปีเพราะ AI ผู้คนจะสามารถอัปโหลดภาพลามกเข้า AI แล้วได้โปรไฟล์โซเชียลมีเดียของคนนั้นกลับมา
ตัวอย่าง Alki Beach นี่บ้าสุด ๆ ด้านหนึ่งก็อดใจรอไม่ไหวที่จะเห็นภาพหลายพันภาพถูกติดแท็กเชิงความหมายและเชิงภูมิศาสตร์โดยอัตโนมัติ แต่อีกด้านหนึ่งความเป็นส่วนตัวก็กำลังจะหายไป การนำสิ่งนี้ไปใช้กับภาพประวัติศาสตร์หรือภาพเก่า ๆ ก็น่าสนใจเช่นกัน
สงสัยว่าในทุกตัวอย่างสามารถใช้ตำแหน่งของผู้ใช้ทางอ้อมได้หรือไม่ ไม่ใช่จากเมตาดาต้าของภาพ แต่ผ่าน IP ต้นทางของคำขอหรืออย่างอื่นแบบนั้น ถ้าขอพยากรณ์อากาศจาก ChatGPT มันก็ได้รับข้อมูลเกี่ยวกับตำแหน่งของฉัน
- ถ้าให้คนจากประเทศอื่นมาลองทำซ้ำก็น่าจะน่าสนใจ
อย่างที่บทความกล่าวไว้ threat model ของการระบุตำแหน่งที่โพสต์ภาพได้ ควรเปลี่ยนจาก "คนที่เป็นมืออาชีพและมีทักษะ" ไปเป็น "ใครก็ได้ที่มีเงิน 20 ดอลลาร์"
- นี่แหละคือเหตุผลที่การเปลี่ยนแปลงนี้สำคัญ เราคุ้นชินกับการโพสต์ภาพออนไลน์มากเกินไปแล้ว และไม่แน่ใจว่านั่นจะเป็นความคิดที่ดีในระยะยาวหรือไม่
น่าประทับใจ และมันเกือบจะหาโบสถ์ในเมืองของฉันเจอได้ถูกต้องแล้ว แต่การสรุปว่าเป็นเมืองข้างเคียงแสดงให้เห็นถึงความไม่เข้าใจ เพราะข้อสรุปเรื่องตำแหน่งนั้นมาจากการ "อ่าน" ป้ายที่ชี้ไปอีกเมืองหนึ่ง ถึงอย่างนั้นก็ยังน่าประทับใจ และมีการสังเกตที่แม่นยำหลายอย่างเกี่ยวกับตัวแบบ เช่น รายละเอียดสถาปัตยกรรม ตัวเลขโรมันบนหน้าปัดนาฬิกา เป็นต้น

ตอนนี้ ChatGPT ระบุตำแหน่งจากภาพถ่ายได้อย่างแม่นยำแล้ว

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News