สวัสดีครับ ดูเหมือนว่าจะมีคนที่โพสต์ข่าวได้เร็วกว่าผมเสมอ เลยกลายเป็นว่า Show GN เป็นโพสต์แรกของผมไปโดยปริยาย
ผมสงสัยว่าเราจะใช้ VLM คาดการณ์ได้ไหมว่าผู้ใช้มองไปที่ไหนบน UI ก็เลยลองทำการทดลองด้วยตัวเองและสรุปออกมาเป็นงานวิจัย
ผมใช้ชุดข้อมูล UEyes เพื่อเปรียบเทียบผลการคาดการณ์สายตาของ VLM กับข้อมูล eye-tracking จริง

ผมยังได้ติดต่อผู้เขียนลำดับที่ 1 ของ UEyes(cs.HC) เพื่อขอ endorsement สำหรับ arxiv และก็ได้รับการตอบรับอย่างยินดี

paper: https://arxiv.org/abs/2604.26352
github: https://github.com/dunward/uigaze

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น