OpenAI o3 เอาชนะผู้เล่น Geoguessr ระดับมาสเตอร์ได้ แม้จะมีข้อมูล EXIF ปลอมก็ยังไม่หลงเชื่อ

(sampatt.com)

6 คะแนน โดย GN⁺ 2025-04-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล o3 รุ่นล่าสุดเอาชนะผู้เล่น Geoguessr ระดับ Master I ได้
- ระดับ Master I คือฝีมือประมาณ กลุ่มบนสุด 1~2% ส่วนระดับสูงสุดคือ Champion ที่อยู่ราว 0.1~0.5%
แม้จะใส่ ข้อมูล EXIF GPS ปลอม ลงในภาพ โมเดลก็ยัง อนุมานตำแหน่งจริงได้อย่างแม่นยำ จากเบาะแสเชิงภาพเพียงอย่างเดียว
ใช้วิธีให้เหตุผลแบบ Chain of Thought(COT) โดยวิเคราะห์ลักษณะรายละเอียดอย่าง อาคาร ภูมิประเทศ เส้นถนน ภาษา ป้ายบอกทาง ฯลฯ แบบผสมผสาน
ในบางรอบมีการ ค้นหาบนเว็บ แต่ผลการทดสอบซ้ำพบว่า แม้ไม่ค้นหาก็ยังได้คำตอบเดิม
เวลาเฉลี่ยในการให้เหตุผลของ o3 นานกว่ามนุษย์ แต่ในด้านความแม่นยำกลับ ทำได้โดดเด่นกว่า

AI ปะทะมนุษย์: จุดเริ่มต้นของการแข่งขัน Geoguessr

ผู้เขียนเป็น ผู้เล่น Geoguessr ระดับ Master I และแข่งขันกับ AI ทั้งหมด 5 รอบ ในรูปแบบใกล้เคียงกับการเล่นจริง
แต่ละรอบให้เพียง ภาพ Street View 2 ภาพ และต้องอนุมานตำแหน่งโดยไม่มีเมตาดาต้า
การให้คะแนนใช้รูปแบบเดียวกับ Geoguessr ปกติ คือสูงสุดรอบละ 5,000 คะแนน รวมเต็ม 25,000 คะแนน

สรุปผลรายรอบ

รอบ 1 (บัลแกเรีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ส่วนต่างคะแนนมีเพียงประมาณ 100 คะแนน
รอบ 2 (ออสเตรีย) : o3 ค้นหาชื่อโดเมนบนแท็กซี่จนระบุชื่อเมืองจริงได้ และทายตำแหน่งได้เกือบสมบูรณ์แบบ จนได้คะแนนเกือบ 5,000 คะแนน
รอบ 3 (ไอร์แลนด์) : ทั้งคู่แสดงการวิเคราะห์ที่ยอดเยี่ยม โดย o3 อาศัยเส้นถนนและภูมิประเทศหินปูนเพื่ออนุมานพื้นที่ Burren ได้อย่างแม่นยำ และชนะไปแบบเฉียดฉิว
รอบ 4 (โคลอมเบีย) : o3 อนุมานได้แม่นยำกว่ามนุษย์จากเครื่องหมายบนถนน ป้ายทะเบียน ป้ายร้านค้า และภูมิประเทศ และยังทำผลงานได้ยอดเยี่ยมแม้ไม่ค้นหาบนเว็บ
รอบ 5 (สโลวาเกีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ก็ไม่พอจะพลิกคะแนนรวมได้

o3 ระบุประเทศทั้ง 5 ประเทศได้ถูกต้องทั้งหมด และใน 2 รอบยังทายได้แม่นยำกว่ามนุษย์เป็นระยะทางหลายร้อยกิโลเมตร แสดงให้เห็นถึงความละเอียดแม่นยำในระดับสูง

การทดลองปลอม EXIF: AI ไม่ถูกหลอก

ในการทดสอบมีการใช้ภาพที่ฝังข้อมูล EXIF พร้อมพิกัด GPS ที่ไม่เกี่ยวข้องกับตำแหน่งจริง แต่ o3 รับรู้ได้ว่าข้อมูลดังกล่าวไม่สอดคล้องกับเนื้อหาภาพจริงและเพิกเฉยต่อมัน
แม้จะให้ข้อมูล EXIF ในรูปแบบข้อความ โมเดลก็ยัง อาศัยสภาพแวดล้อมในภาพเพื่ออนุมานตำแหน่งที่ถูกต้องซึ่งแตกต่างออกไปอย่างสิ้นเชิง
สิ่งนี้พิสูจน์ว่า AI ไม่ได้พึ่งพาเมตาดาต้าอย่างเดียว แต่กำลังวิเคราะห์เนื้อหาของภาพอย่างลึกซึ้ง

ความแตกต่างระหว่างมนุษย์กับ AI

o3 ใช้เวลาให้เหตุผลเฉลี่ย 2~6 นาทีต่อรอบ ขณะที่ผู้เล่นมนุษย์ส่วนใหญ่ ใช้เวลาไม่เกิน 1~2 นาที ก็ทายได้แล้ว
บางครั้ง AI ใช้เวลากับองค์ประกอบที่สำคัญน้อยกว่าอย่างป้ายโฆษณา ขณะที่ มนุษย์มักมองเห็นเบาะแสสำคัญได้เร็วและจัดลำดับความสำคัญได้ดีกว่า
อย่างไรก็ตาม o3 สามารถผสานข้อมูลเชิงภาพหลากหลายอย่าง ป้ายถนน ป้ายทะเบียน สถาปัตยกรรม ภูมิประเทศ และพืชพรรณ ได้อย่างประณีตจนทำความแม่นยำได้สูง

บทสรุป

o3 ไม่ได้ใช้เพียง EXIF หรือการค้นหาเป็น กลโกง แต่หาคำตอบได้จาก ความสามารถด้านการวิเคราะห์ภาพจริง
แสดงการเล่นที่ เข้าใกล้ระดับผู้เล่น Geoguessr ชั้น Master I หรือสูงกว่า
มนุษย์ยังคง ได้เปรียบด้านความเร็วและสัญชาตญาณ แต่ในด้าน ความแม่นยำ AI ก็ขึ้นมาถึงระดับที่น่ากลัวแล้ว
นี่ไม่ใช่แค่การสาธิตเทคโนโลยี แต่เป็น ตัวอย่างที่สะท้อนสถานะปัจจุบันของ AI ด้านการมองเห็นสมรรถนะสูงซึ่งพร้อมต่อการใช้งานจริง

1 ความคิดเห็น

GN⁺ 2025-04-30

ความคิดเห็นจาก Hacker News

มีสติกเกอร์ "www.taxilinder.at"; ติดอยู่บนรถ สามารถค้นหาเว็บแล้วพบว่า Taxi Linder GmbH ตั้งอยู่ที่เมืองดอร์นบิร์น ประเทศออสเตรีย
- ถ้าใช้การค้นหาเว็บก็ไม่ยุติธรรม ในรอบ GeoGuessr ภายในเมือง คุณสามารถค้นหาธุรกิจบางแห่งเพื่อทำคะแนนเต็มได้ แต่ไม่ใช่จุดประสงค์ของเกม
ผู้เขียนดีใจที่ผู้คนมองว่าหัวข้อนี้น่าสนใจ
- ขอแนะนำให้ทุกคนลองเล่น GeoGuessr ผู้เขียนรักเกมนี้มาก
- มีหลายความเห็นว่าการที่โมเดล o3 ใช้การค้นหาเว็บใน 2 จาก 5 รอบนั้นไม่ยุติธรรม และทำให้ผลลัพธ์ใช้ไม่ได้
- เพื่อตรวจสอบเรื่องนี้ จึงรันสองรอบที่ใช้การค้นหาใหม่อีกครั้งและอัปเดตผลลัพธ์
- สรุป: ผลลัพธ์แทบไม่ต่างกัน สามารถดูพิกัด GPS ได้ในโพสต์
- มีการยกตัวอย่างการที่โมเดลระบุเมืองได้จากภูเขาด้านหลังในรอบออสเตรีย
- มันมีข้อมูลอยู่แล้วมากพอ จึงไม่จำเป็นต้องค้นหา
- อาจมีกรณีที่การค้นหามีประโยชน์ แต่ในกรณีนี้ไม่เกี่ยวข้อง
อยู่ระดับมาสเตอร์ใน GeoGuessr ระดับนี้ต้องรู้แน่ว่าควรทำอะไร แต่ก็ไม่ได้สูงอย่างที่ชื่อในพาดหัวฟังดู
- มาสเตอร์อยู่ราว 800-1200 ELO ส่วนโปรอยู่ประมาณ 1900-2000 ใน 95% ของรอบสามารถบอกประเทศได้ทันที แต่ในรัสเซียหรือบราซิล ถ้าไม่มีข้อมูลก็ระบุตำแหน่งไม่ได้ สคริปต์บอทสามารถเอาชนะฉันได้
เข้าใจว่า o3 ถูกฝึกด้วยข้อมูลหลายโมดัลรวมถึงข้อมูลภาพ การสมมติว่าข้อมูลฝึกมีภาพพร้อมตำแหน่งและลักษณะเฉพาะที่แม่นยำนั้นไม่ใช่เรื่องไร้เหตุผล
- GeoGuessr ใช้ Google Maps และ Google Maps ซื้อภาพส่วนใหญ่จากบุคคลที่สาม ถ้าบุคคลที่สามนั้นไม่ได้ขายให้บริษัท AI รายใหญ่ทุกแห่งด้วยก็คงน่าแปลกมาก
นอกเหนือจาก GeoGuessr ก็หวังว่าเทคโนโลยีนี้จะช่วยชีวิตเด็กได้สักวันหนึ่ง เช่น อาจช่วย ECAP ของ FBI ได้
ความคิดเห็นจากโพสต์ก่อนหน้า:
- น่าจะมีบางพื้นที่ที่การเดาตำแหน่งแม่นจนน่ากลัว เช่น บทความที่เดาหมู่บ้านถูกต้องเป๊ะเป็นตัวเลือกสำรอง
- แต่เมื่อดูจากกระบวนการคิด ก็น่าจะมีอีกหลายพื้นที่ที่ความแม่นยำตกลงมาก ถ้าให้ดูภาพสวนบ้านเคลื่อนที่ในแคนซัส โมเดลอาจบอกได้แค่รัฐ
- โพสต์นี้อาจไม่ได้มีขนาดตัวอย่างใหญ่ แต่ก็สะท้อนสิ่งที่คาดไว้ว่าโมเดลแบบนี้จะทำงานอย่างไร แม้ในภาพที่มีข้อมูลด้านภาพไม่มาก ก็ยังเชื่อถือได้ในการเดาประเทศ
- บทความก่อนหน้าทดสอบด้วยภาพเพียงภาพเดียว และมันเดาหมู่บ้านที่ถูกต้องได้ในครั้งที่สอง ผู้เขียนจึงเรียกมันว่า "แม่นจนน่ากลัว" ซึ่งก็เป็นเรื่องของการตัดสินมุมมอง
- ดูเหมือนว่า o3 ที่เปิดใช้การค้นหาเว็บจะเล่น GeoGuessr ได้ในระดับสูง ตอนนี้อยากเห็นบอท o3 GeoGuessr ลงเล่นหลายแมตช์แล้วดูค่า ELO
สัปดาห์นี้ตั้งใจจะลองเล่นกับ o3 และสิ่งที่น่าสนใจคือมันพยายามจับคู่แพตเทิร์นมากขึ้น เช่น อนุมานภาพในยุโรปและสหรัฐฯ ได้อย่างง่ายดาย
- แต่กับสถานที่ที่ไม่มีภาพออนไลน์มากนัก มันจะพยายามจับคู่แพตเทิร์นจากฐานข้อมูล/อินเทอร์เน็ตของตัวเอง แทนที่จะสำรวจลึกลงไป
- ตัวอย่างเช่น เส้นทางเดินยอดนิยมบนเกาะที่เติบโตขึ้นมาตั้งแต่ปี 2020 ตอนแรกมันพูดถึงหินบนเกาะและพืชพรรณของบราซิล แต่กลับพยายามหาสถานที่ในรีโอเดจาเนโร
- อีกตัวอย่างคือชายหาดที่ขึ้นชื่อเรื่องสระว่ายน้ำธรรมชาติในช่วงน้ำลง เมื่อถ่ายภาพตอนน้ำขึ้น มันจับพืชพรรณและรัฐได้ถูกต้อง แต่ก็ยังพยายามย้อนกลับไปหาสถานที่ที่ได้รับความนิยมมากกว่า
น่าประหลาดใจ แม้จะมอง AI ในแง่บวก แต่ในกรณีนี้คิดว่ามนุษย์จะชนะ และคาดว่าจะมีการขยับเสาประตูด้วยคำพูดว่า "นั่นไม่ใช่การให้เหตุผลที่แท้จริง"
ส่วนตัวคิดว่านี่เป็นหนึ่งในแอปพลิเคชันของ LLM ที่น่าประทับใจน้อยกว่า เพราะมันรู้จักพืช ป้ายถนน ฯลฯ อยู่แล้ว จินตนาการได้ว่าโครงข่ายประสาทเทียมแบบดั้งเดิมก็น่าจะทำได้ดีในเรื่องนี้
มันจะเป็นตัวเปลี่ยนเกมสำหรับงานสไตล์ OSINT (Bellingcat/Trace an object) สงสัยว่าเรื่องแบบนี้เกิดขึ้นแล้วหรือยัง
- อาจมีการแข่งขันสไตล์ GeoGuessr เกิดขึ้น และอย่างน้อยในฐานะผู้ช่วยนักบิน มันน่าจะมีส่วนช่วยอย่างมากต่อการระบุตัวตนจำนวนมาก