6 คะแนน โดย GN⁺ 2025-04-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล o3 รุ่นล่าสุดเอาชนะผู้เล่น Geoguessr ระดับ Master I ได้
    • ระดับ Master I คือฝีมือประมาณ กลุ่มบนสุด 1~2% ส่วนระดับสูงสุดคือ Champion ที่อยู่ราว 0.1~0.5%
  • แม้จะใส่ ข้อมูล EXIF GPS ปลอม ลงในภาพ โมเดลก็ยัง อนุมานตำแหน่งจริงได้อย่างแม่นยำ จากเบาะแสเชิงภาพเพียงอย่างเดียว
  • ใช้วิธีให้เหตุผลแบบ Chain of Thought(COT) โดยวิเคราะห์ลักษณะรายละเอียดอย่าง อาคาร ภูมิประเทศ เส้นถนน ภาษา ป้ายบอกทาง ฯลฯ แบบผสมผสาน
  • ในบางรอบมีการ ค้นหาบนเว็บ แต่ผลการทดสอบซ้ำพบว่า แม้ไม่ค้นหาก็ยังได้คำตอบเดิม
  • เวลาเฉลี่ยในการให้เหตุผลของ o3 นานกว่ามนุษย์ แต่ในด้านความแม่นยำกลับ ทำได้โดดเด่นกว่า

AI ปะทะมนุษย์: จุดเริ่มต้นของการแข่งขัน Geoguessr

  • ผู้เขียนเป็น ผู้เล่น Geoguessr ระดับ Master I และแข่งขันกับ AI ทั้งหมด 5 รอบ ในรูปแบบใกล้เคียงกับการเล่นจริง
  • แต่ละรอบให้เพียง ภาพ Street View 2 ภาพ และต้องอนุมานตำแหน่งโดยไม่มีเมตาดาต้า
  • การให้คะแนนใช้รูปแบบเดียวกับ Geoguessr ปกติ คือสูงสุดรอบละ 5,000 คะแนน รวมเต็ม 25,000 คะแนน

สรุปผลรายรอบ

  • รอบ 1 (บัลแกเรีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ส่วนต่างคะแนนมีเพียงประมาณ 100 คะแนน
  • รอบ 2 (ออสเตรีย) : o3 ค้นหาชื่อโดเมนบนแท็กซี่จนระบุชื่อเมืองจริงได้ และทายตำแหน่งได้เกือบสมบูรณ์แบบ จนได้คะแนนเกือบ 5,000 คะแนน
  • รอบ 3 (ไอร์แลนด์) : ทั้งคู่แสดงการวิเคราะห์ที่ยอดเยี่ยม โดย o3 อาศัยเส้นถนนและภูมิประเทศหินปูนเพื่ออนุมานพื้นที่ Burren ได้อย่างแม่นยำ และชนะไปแบบเฉียดฉิว
  • รอบ 4 (โคลอมเบีย) : o3 อนุมานได้แม่นยำกว่ามนุษย์จากเครื่องหมายบนถนน ป้ายทะเบียน ป้ายร้านค้า และภูมิประเทศ และยังทำผลงานได้ยอดเยี่ยมแม้ไม่ค้นหาบนเว็บ
  • รอบ 5 (สโลวาเกีย) : มนุษย์ทายจุดที่ใกล้กว่าเล็กน้อยและชนะ แต่ก็ไม่พอจะพลิกคะแนนรวมได้

o3 ระบุประเทศทั้ง 5 ประเทศได้ถูกต้องทั้งหมด และใน 2 รอบยังทายได้แม่นยำกว่ามนุษย์เป็นระยะทางหลายร้อยกิโลเมตร แสดงให้เห็นถึงความละเอียดแม่นยำในระดับสูง

การทดลองปลอม EXIF: AI ไม่ถูกหลอก

  • ในการทดสอบมีการใช้ภาพที่ฝังข้อมูล EXIF พร้อมพิกัด GPS ที่ไม่เกี่ยวข้องกับตำแหน่งจริง แต่ o3 รับรู้ได้ว่าข้อมูลดังกล่าวไม่สอดคล้องกับเนื้อหาภาพจริงและเพิกเฉยต่อมัน
  • แม้จะให้ข้อมูล EXIF ในรูปแบบข้อความ โมเดลก็ยัง อาศัยสภาพแวดล้อมในภาพเพื่ออนุมานตำแหน่งที่ถูกต้องซึ่งแตกต่างออกไปอย่างสิ้นเชิง
  • สิ่งนี้พิสูจน์ว่า AI ไม่ได้พึ่งพาเมตาดาต้าอย่างเดียว แต่กำลังวิเคราะห์เนื้อหาของภาพอย่างลึกซึ้ง

ความแตกต่างระหว่างมนุษย์กับ AI

  • o3 ใช้เวลาให้เหตุผลเฉลี่ย 2~6 นาทีต่อรอบ ขณะที่ผู้เล่นมนุษย์ส่วนใหญ่ ใช้เวลาไม่เกิน 1~2 นาที ก็ทายได้แล้ว
  • บางครั้ง AI ใช้เวลากับองค์ประกอบที่สำคัญน้อยกว่าอย่างป้ายโฆษณา ขณะที่ มนุษย์มักมองเห็นเบาะแสสำคัญได้เร็วและจัดลำดับความสำคัญได้ดีกว่า
  • อย่างไรก็ตาม o3 สามารถผสานข้อมูลเชิงภาพหลากหลายอย่าง ป้ายถนน ป้ายทะเบียน สถาปัตยกรรม ภูมิประเทศ และพืชพรรณ ได้อย่างประณีตจนทำความแม่นยำได้สูง

บทสรุป

  • o3 ไม่ได้ใช้เพียง EXIF หรือการค้นหาเป็น กลโกง แต่หาคำตอบได้จาก ความสามารถด้านการวิเคราะห์ภาพจริง
  • แสดงการเล่นที่ เข้าใกล้ระดับผู้เล่น Geoguessr ชั้น Master I หรือสูงกว่า
  • มนุษย์ยังคง ได้เปรียบด้านความเร็วและสัญชาตญาณ แต่ในด้าน ความแม่นยำ AI ก็ขึ้นมาถึงระดับที่น่ากลัวแล้ว
  • นี่ไม่ใช่แค่การสาธิตเทคโนโลยี แต่เป็น ตัวอย่างที่สะท้อนสถานะปัจจุบันของ AI ด้านการมองเห็นสมรรถนะสูงซึ่งพร้อมต่อการใช้งานจริง

1 ความคิดเห็น

 
GN⁺ 2025-04-30
ความคิดเห็นจาก Hacker News
  • มีสติกเกอร์ "www.taxilinder.at"; ติดอยู่บนรถ สามารถค้นหาเว็บแล้วพบว่า Taxi Linder GmbH ตั้งอยู่ที่เมืองดอร์นบิร์น ประเทศออสเตรีย

    • ถ้าใช้การค้นหาเว็บก็ไม่ยุติธรรม ในรอบ GeoGuessr ภายในเมือง คุณสามารถค้นหาธุรกิจบางแห่งเพื่อทำคะแนนเต็มได้ แต่ไม่ใช่จุดประสงค์ของเกม
  • ผู้เขียนดีใจที่ผู้คนมองว่าหัวข้อนี้น่าสนใจ

    • ขอแนะนำให้ทุกคนลองเล่น GeoGuessr ผู้เขียนรักเกมนี้มาก
    • มีหลายความเห็นว่าการที่โมเดล o3 ใช้การค้นหาเว็บใน 2 จาก 5 รอบนั้นไม่ยุติธรรม และทำให้ผลลัพธ์ใช้ไม่ได้
    • เพื่อตรวจสอบเรื่องนี้ จึงรันสองรอบที่ใช้การค้นหาใหม่อีกครั้งและอัปเดตผลลัพธ์
    • สรุป: ผลลัพธ์แทบไม่ต่างกัน สามารถดูพิกัด GPS ได้ในโพสต์
    • มีการยกตัวอย่างการที่โมเดลระบุเมืองได้จากภูเขาด้านหลังในรอบออสเตรีย
    • มันมีข้อมูลอยู่แล้วมากพอ จึงไม่จำเป็นต้องค้นหา
    • อาจมีกรณีที่การค้นหามีประโยชน์ แต่ในกรณีนี้ไม่เกี่ยวข้อง
  • อยู่ระดับมาสเตอร์ใน GeoGuessr ระดับนี้ต้องรู้แน่ว่าควรทำอะไร แต่ก็ไม่ได้สูงอย่างที่ชื่อในพาดหัวฟังดู

    • มาสเตอร์อยู่ราว 800-1200 ELO ส่วนโปรอยู่ประมาณ 1900-2000 ใน 95% ของรอบสามารถบอกประเทศได้ทันที แต่ในรัสเซียหรือบราซิล ถ้าไม่มีข้อมูลก็ระบุตำแหน่งไม่ได้ สคริปต์บอทสามารถเอาชนะฉันได้
  • เข้าใจว่า o3 ถูกฝึกด้วยข้อมูลหลายโมดัลรวมถึงข้อมูลภาพ การสมมติว่าข้อมูลฝึกมีภาพพร้อมตำแหน่งและลักษณะเฉพาะที่แม่นยำนั้นไม่ใช่เรื่องไร้เหตุผล

    • GeoGuessr ใช้ Google Maps และ Google Maps ซื้อภาพส่วนใหญ่จากบุคคลที่สาม ถ้าบุคคลที่สามนั้นไม่ได้ขายให้บริษัท AI รายใหญ่ทุกแห่งด้วยก็คงน่าแปลกมาก
  • นอกเหนือจาก GeoGuessr ก็หวังว่าเทคโนโลยีนี้จะช่วยชีวิตเด็กได้สักวันหนึ่ง เช่น อาจช่วย ECAP ของ FBI ได้

  • ความคิดเห็นจากโพสต์ก่อนหน้า:

    • น่าจะมีบางพื้นที่ที่การเดาตำแหน่งแม่นจนน่ากลัว เช่น บทความที่เดาหมู่บ้านถูกต้องเป๊ะเป็นตัวเลือกสำรอง
    • แต่เมื่อดูจากกระบวนการคิด ก็น่าจะมีอีกหลายพื้นที่ที่ความแม่นยำตกลงมาก ถ้าให้ดูภาพสวนบ้านเคลื่อนที่ในแคนซัส โมเดลอาจบอกได้แค่รัฐ
    • โพสต์นี้อาจไม่ได้มีขนาดตัวอย่างใหญ่ แต่ก็สะท้อนสิ่งที่คาดไว้ว่าโมเดลแบบนี้จะทำงานอย่างไร แม้ในภาพที่มีข้อมูลด้านภาพไม่มาก ก็ยังเชื่อถือได้ในการเดาประเทศ
    • บทความก่อนหน้าทดสอบด้วยภาพเพียงภาพเดียว และมันเดาหมู่บ้านที่ถูกต้องได้ในครั้งที่สอง ผู้เขียนจึงเรียกมันว่า "แม่นจนน่ากลัว" ซึ่งก็เป็นเรื่องของการตัดสินมุมมอง
    • ดูเหมือนว่า o3 ที่เปิดใช้การค้นหาเว็บจะเล่น GeoGuessr ได้ในระดับสูง ตอนนี้อยากเห็นบอท o3 GeoGuessr ลงเล่นหลายแมตช์แล้วดูค่า ELO
  • สัปดาห์นี้ตั้งใจจะลองเล่นกับ o3 และสิ่งที่น่าสนใจคือมันพยายามจับคู่แพตเทิร์นมากขึ้น เช่น อนุมานภาพในยุโรปและสหรัฐฯ ได้อย่างง่ายดาย

    • แต่กับสถานที่ที่ไม่มีภาพออนไลน์มากนัก มันจะพยายามจับคู่แพตเทิร์นจากฐานข้อมูล/อินเทอร์เน็ตของตัวเอง แทนที่จะสำรวจลึกลงไป
    • ตัวอย่างเช่น เส้นทางเดินยอดนิยมบนเกาะที่เติบโตขึ้นมาตั้งแต่ปี 2020 ตอนแรกมันพูดถึงหินบนเกาะและพืชพรรณของบราซิล แต่กลับพยายามหาสถานที่ในรีโอเดจาเนโร
    • อีกตัวอย่างคือชายหาดที่ขึ้นชื่อเรื่องสระว่ายน้ำธรรมชาติในช่วงน้ำลง เมื่อถ่ายภาพตอนน้ำขึ้น มันจับพืชพรรณและรัฐได้ถูกต้อง แต่ก็ยังพยายามย้อนกลับไปหาสถานที่ที่ได้รับความนิยมมากกว่า
  • น่าประหลาดใจ แม้จะมอง AI ในแง่บวก แต่ในกรณีนี้คิดว่ามนุษย์จะชนะ และคาดว่าจะมีการขยับเสาประตูด้วยคำพูดว่า "นั่นไม่ใช่การให้เหตุผลที่แท้จริง"

  • ส่วนตัวคิดว่านี่เป็นหนึ่งในแอปพลิเคชันของ LLM ที่น่าประทับใจน้อยกว่า เพราะมันรู้จักพืช ป้ายถนน ฯลฯ อยู่แล้ว จินตนาการได้ว่าโครงข่ายประสาทเทียมแบบดั้งเดิมก็น่าจะทำได้ดีในเรื่องนี้

  • มันจะเป็นตัวเปลี่ยนเกมสำหรับงานสไตล์ OSINT (Bellingcat/Trace an object) สงสัยว่าเรื่องแบบนี้เกิดขึ้นแล้วหรือยัง

    • อาจมีการแข่งขันสไตล์ GeoGuessr เกิดขึ้น และอย่างน้อยในฐานะผู้ช่วยนักบิน มันน่าจะมีส่วนช่วยอย่างมากต่อการระบุตัวตนจำนวนมาก