OpenAI o3 เอาชนะผู้เล่น Geoguessr ระดับมาสเตอร์ได้ แม้จะมีข้อมูล EXIF ปลอมก็ยังไม่หลงเชื่อ
(sampatt.com)- โมเดล o3 รุ่นล่าสุดเอาชนะผู้เล่น Geoguessr ระดับ Master I ได้
- ระดับ Master I คือฝีมือประมาณ กลุ่มบนสุด 1~2% ส่วนระดับสูงสุดคือ Champion ที่อยู่ราว 0.1~0.5%
- แม้จะใส่ ข้อมูล EXIF GPS ปลอม ลงในภาพ โมเดลก็ยัง อนุมานตำแหน่งจริงได้อย่างแม่นยำ จากเบาะแสเชิงภาพเพียงอย่างเดียว
- ใช้วิธีให้เหตุผลแบบ Chain of Thought(COT) โดยวิเคราะห์ลักษณะรายละเอียดอย่าง อาคาร ภูมิประเทศ เส้นถนน ภาษา ป้ายบอกทาง ฯลฯ แบบผสมผสาน
- ในบางรอบมีการ ค้นหาบนเว็บ แต่ผลการทดสอบซ้ำพบว่า แม้ไม่ค้นหาก็ยังได้คำตอบเดิม
- เวลาเฉลี่ยในการให้เหตุผลของ o3 นานกว่ามนุษย์ แต่ในด้านความแม่นยำกลับ ทำได้โดดเด่นกว่า
AI ปะทะมนุษย์: จุดเริ่มต้นของการแข่งขัน Geoguessr
- ผู้เขียนเป็น ผู้เล่น Geoguessr ระดับ Master I และแข่งขันกับ AI ทั้งหมด 5 รอบ ในรูปแบบใกล้เคียงกับการเล่นจริง
- แต่ละรอบให้เพียง ภาพ Street View 2 ภาพ และต้องอนุมานตำแหน่งโดยไม่มีเมตาดาต้า
- การให้คะแนนใช้รูปแบบเดียวกับ Geoguessr ปกติ คือสูงสุดรอบละ 5,000 คะแนน รวมเต็ม 25,000 คะแนน
สรุปผลรายรอบ
- รอบ 1 (บัลแกเรีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ส่วนต่างคะแนนมีเพียงประมาณ 100 คะแนน
- รอบ 2 (ออสเตรีย) : o3 ค้นหาชื่อโดเมนบนแท็กซี่จนระบุชื่อเมืองจริงได้ และทายตำแหน่งได้เกือบสมบูรณ์แบบ จนได้คะแนนเกือบ 5,000 คะแนน
- รอบ 3 (ไอร์แลนด์) : ทั้งคู่แสดงการวิเคราะห์ที่ยอดเยี่ยม โดย o3 อาศัยเส้นถนนและภูมิประเทศหินปูนเพื่ออนุมานพื้นที่ Burren ได้อย่างแม่นยำ และชนะไปแบบเฉียดฉิว
- รอบ 4 (โคลอมเบีย) : o3 อนุมานได้แม่นยำกว่ามนุษย์จากเครื่องหมายบนถนน ป้ายทะเบียน ป้ายร้านค้า และภูมิประเทศ และยังทำผลงานได้ยอดเยี่ยมแม้ไม่ค้นหาบนเว็บ
- รอบ 5 (สโลวาเกีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ก็ไม่พอจะพลิกคะแนนรวมได้
o3 ระบุประเทศทั้ง 5 ประเทศได้ถูกต้องทั้งหมด และใน 2 รอบยังทายได้แม่นยำกว่ามนุษย์เป็นระยะทางหลายร้อยกิโลเมตร แสดงให้เห็นถึงความละเอียดแม่นยำในระดับสูง
การทดลองปลอม EXIF: AI ไม่ถูกหลอก
- ในการทดสอบมีการใช้ภาพที่ฝังข้อมูล EXIF พร้อมพิกัด GPS ที่ไม่เกี่ยวข้องกับตำแหน่งจริง แต่ o3 รับรู้ได้ว่าข้อมูลดังกล่าวไม่สอดคล้องกับเนื้อหาภาพจริงและเพิกเฉยต่อมัน
- แม้จะให้ข้อมูล EXIF ในรูปแบบข้อความ โมเดลก็ยัง อาศัยสภาพแวดล้อมในภาพเพื่ออนุมานตำแหน่งที่ถูกต้องซึ่งแตกต่างออกไปอย่างสิ้นเชิง
- สิ่งนี้พิสูจน์ว่า AI ไม่ได้พึ่งพาเมตาดาต้าอย่างเดียว แต่กำลังวิเคราะห์เนื้อหาของภาพอย่างลึกซึ้ง
ความแตกต่างระหว่างมนุษย์กับ AI
- o3 ใช้เวลาให้เหตุผลเฉลี่ย 2~6 นาทีต่อรอบ ขณะที่ผู้เล่นมนุษย์ส่วนใหญ่ ใช้เวลาไม่เกิน 1~2 นาที ก็ทายได้แล้ว
- บางครั้ง AI ใช้เวลากับองค์ประกอบที่สำคัญน้อยกว่าอย่างป้ายโฆษณา ขณะที่ มนุษย์มักมองเห็นเบาะแสสำคัญได้เร็วและจัดลำดับความสำคัญได้ดีกว่า
- อย่างไรก็ตาม o3 สามารถผสานข้อมูลเชิงภาพหลากหลายอย่าง ป้ายถนน ป้ายทะเบียน สถาปัตยกรรม ภูมิประเทศ และพืชพรรณ ได้อย่างประณีตจนทำความแม่นยำได้สูง
บทสรุป
- o3 ไม่ได้ใช้เพียง EXIF หรือการค้นหาเป็น กลโกง แต่หาคำตอบได้จาก ความสามารถด้านการวิเคราะห์ภาพจริง
- แสดงการเล่นที่ เข้าใกล้ระดับผู้เล่น Geoguessr ชั้น Master I หรือสูงกว่า
- มนุษย์ยังคง ได้เปรียบด้านความเร็วและสัญชาตญาณ แต่ในด้าน ความแม่นยำ AI ก็ขึ้นมาถึงระดับที่น่ากลัวแล้ว
- นี่ไม่ใช่แค่การสาธิตเทคโนโลยี แต่เป็น ตัวอย่างที่สะท้อนสถานะปัจจุบันของ AI ด้านการมองเห็นสมรรถนะสูงซึ่งพร้อมต่อการใช้งานจริง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีสติกเกอร์ "www.taxilinder.at" ติดอยู่บนรถ สามารถค้นหาเว็บแล้วพบว่า Taxi Linder GmbH ตั้งอยู่ที่เมืองดอร์นบิร์น ประเทศออสเตรีย
ผู้เขียนดีใจที่ผู้คนมองว่าหัวข้อนี้น่าสนใจ
อยู่ระดับมาสเตอร์ใน GeoGuessr ระดับนี้ต้องรู้แน่ว่าควรทำอะไร แต่ก็ไม่ได้สูงอย่างที่ชื่อในพาดหัวฟังดู
เข้าใจว่า o3 ถูกฝึกด้วยข้อมูลหลายโมดัลรวมถึงข้อมูลภาพ การสมมติว่าข้อมูลฝึกมีภาพพร้อมตำแหน่งและลักษณะเฉพาะที่แม่นยำนั้นไม่ใช่เรื่องไร้เหตุผล
นอกเหนือจาก GeoGuessr ก็หวังว่าเทคโนโลยีนี้จะช่วยชีวิตเด็กได้สักวันหนึ่ง เช่น อาจช่วย ECAP ของ FBI ได้
ความคิดเห็นจากโพสต์ก่อนหน้า:
สัปดาห์นี้ตั้งใจจะลองเล่นกับ o3 และสิ่งที่น่าสนใจคือมันพยายามจับคู่แพตเทิร์นมากขึ้น เช่น อนุมานภาพในยุโรปและสหรัฐฯ ได้อย่างง่ายดาย
น่าประหลาดใจ แม้จะมอง AI ในแง่บวก แต่ในกรณีนี้คิดว่ามนุษย์จะชนะ และคาดว่าจะมีการขยับเสาประตูด้วยคำพูดว่า "นั่นไม่ใช่การให้เหตุผลที่แท้จริง"
ส่วนตัวคิดว่านี่เป็นหนึ่งในแอปพลิเคชันของ LLM ที่น่าประทับใจน้อยกว่า เพราะมันรู้จักพืช ป้ายถนน ฯลฯ อยู่แล้ว จินตนาการได้ว่าโครงข่ายประสาทเทียมแบบดั้งเดิมก็น่าจะทำได้ดีในเรื่องนี้
มันจะเป็นตัวเปลี่ยนเกมสำหรับงานสไตล์ OSINT (Bellingcat/Trace an object) สงสัยว่าเรื่องแบบนี้เกิดขึ้นแล้วหรือยัง