- ในการรีวิวบทความวิจัยของการประชุม machine learning ระดับนานาชาติ ICLR 2026 พบว่า 21% เป็นการเขียนโดยปัญญาประดิษฐ์ทั้งหมด
- เครื่องมือวิเคราะห์การตรวจจับ AI ของ Pangram Labs ได้ตรวจสอบการรีวิว 75,800 ฉบับ และพบร่องรอยการใช้ AI ในมากกว่าครึ่งหนึ่ง
- นักวิจัยบางรายรายงานว่าพบว่าการรีวิวบางฉบับยาวผิดปกติหรือให้ข้อเสนอแนะที่ไม่แม่นยำ จึงตั้งข้อสันนิษฐานว่าอาจเป็นผลจากการสร้างของ AI
- ฝ่ายผู้จัดงานระบุว่าจะตรวจสอบการละเมิดนโยบายการใช้ AI ด้วยเครื่องมืออัตโนมัติ และกำลังดำเนินการฟื้นฟูความน่าเชื่อถือ
- เหตุการณ์นี้ชี้ให้เห็นว่าความจำเป็นในการยืนยันความโปร่งใสและความน่าเชื่อถือของกระบวนการประเมินทางวิชาการเป็นเรื่องเร่งด่วน
สาระการใช้ AI ที่ถูกเปิดเผยในกระบวนการรีวิว ICLR 2026
- ในการรีวิวบทความของ ICLR 2026 มีการประเมินว่า ประมาณ 21% ถูกเขียนด้วย AI โดยสมบูรณ์ และมากกว่าครึ่งได้รับการวิเคราะห์ว่ามีอิทธิพลจาก AI
- การวิเคราะห์นี้ดำเนินการโดย Pangram Labs ครอบคลุมบทความทั้งหมด 19,490 เรื่อง และมี 75,800 บทวิจารณ์
- Pangram ใช้เครื่องมือดิจิทัลตรวจจับข้อความที่สร้างโดย AI เพื่อเปิดเผยผลลัพธ์เหล่านี้
- คณะจัดงานประกาศว่าจะตรวจสอบการใช้งาน AI ว่าละเมิดนโยบายการทบทวนหรือไม่ด้วยเครื่องมืออัตโนมัติ
- ผู้อำนวยการโปรแกรมของ ICLR 2026 กล่าวว่า นี่เป็นกรณีแรกที่ปัญหา AI ในการรีวิวถูกเปิดเผยในวงกว้างเช่นนี้
ประเด็นที่นักวิจัยหยิบยกขึ้นมาและขั้นตอนการสอบสวน
- นักวิจัยหลายรายได้แชร์บทวิจารณ์ที่น่าจะถูกเขียนด้วย AI บนโซเชียลมีเดีย
- บางบทวิจารณ์มีลักษณะ “การอ้างอิงที่เกิดจากการหลงผิด (hallucinated citations)” หรือข้อเสนอแนะที่ไม่ชัดเจนและยืดยาว
- Graham Neubig จาก Carnegie Mellon University ได้ขอให้ตรวจสอบอีกครั้งว่ารีวิวที่ผิดปกตินั้นถูกสร้างด้วย AI หรือไม่
- เขาโพสต์ประกาศประกวด/รางวัลบน X (เดิมคือ Twitter) และ Max Spero แห่ง Pangram Labs ตอบสนองโดยดำเนินการตรวจสอบแบบครอบคลุม
- Pangram อธิบายว่าพวกเขาเขียนโค้ดเพื่อวิเคราะห์ข้อความของงานส่งทั้งหมดได้ภายใน 12 ชั่วโมง
ผลการวิเคราะห์ของ Pangram Labs
- เครื่องมือของ Pangram ทำงานโดยการคาดการณ์ว่าข้อความถูกสร้างหรือแก้ไขโดย LLM (Large Language Model)
- ผลการวิเคราะห์ชี้ว่า 15,899 บทวิจารณ์ถูกสร้างโดย AI อย่างสมบูรณ์ และ 199 บทความ (1%) ถูกจัดว่าเขียนด้วย AI ทั้งหมด
- 61% ของบทความเป็นการเขียนโดยมนุษย์ และ 9% มีข้อความที่สร้างด้วย AI มากกว่าครึ่ง
- Pangram ส่งโมเดลของตนเองในรูปแบบ preprint ไปยังกระบวนการ ICLR 2026 และมีการระบุว่าบทวิจารณ์ของบางฉบับในงานเหล่านั้นถูกจัดว่าเป็น AI-generated
ปฏิกิริยาของนักวิจัย
- Desmond Elliott จากมหาวิทยาลัยโคเปนเฮเกนชี้ว่าหนึ่งในบทวิจารณ์ของบทความที่เขาส่งไปมีการตีความเนื้อหาหลักของงานผิดและอ้างถึงตัวเลขผิด
- นักศึกษาโทษเอดวิทยาลัย (ผู้ช่วยวิทยาศาสตร์ระดับ PhD) ของเขาเชื่อว่าบทวิจารณ์ดังกล่าวน่าจะเขียนโดย LLM
- ผลการวิเคราะห์ของ Pangram ยืนยันว่าบทวิจารณ์นั้นถูกสร้างโดย AI อย่างสมบูรณ์
- บทวิจารณ์นั้นยังให้คะแนนต่ำสุดกับบทความ ทำให้บทความอยู่ในเส้นขอบระหว่างถูกยอมรับหรือไม่
การตอบสนองของงานประชุมและความท้าทายในอนาคต
- ฝ่ายงานประชุมได้แจ้งว่าแผนก็คือการนำเครื่องมืออัตโนมัติในการตรวจจับการใช้ AI เข้ามาใช้ เพื่อบรรลุเป้าหมายการฟื้นฟูความน่าเชื่อถือของการรีวิว
- ผู้รับผิดชอบโปรแกรมกล่าวว่าผ่านกระบวนการนี้จำเป็นต้องกำหนดความหมายของ "ความน่าเชื่อถือ" ขึ้นใหม่
- เหตุการณ์นี้เป็นตัวอย่างที่แสดงว่า AI แทรกซึมลึกเข้าไปในกระบวนการทบทวนทางวิชาการ และทำให้การยืนยันความโปร่งใสในการประเมินงานวิจัยกลายเป็นเรื่องท้าทายหลัก
2 ความคิดเห็น
มีตัวอย่างรีวิวที่น่าสนใจเยอะเลย
https://reddit.com/r/MachineLearning/…
ความเห็นจาก Hacker News
ผมคิดว่าการ พึ่งพา AI ในงานเขียนเพิ่มขึ้นจริง แต่ระเบียบวิธีที่ใช้ในบทความนี้ดูเหมือนเป็นการโปรโมต Pangram มากกว่า
ตัวตรวจจับ AI ส่วนใหญ่ ไม่น่าเชื่อถือ และยิ่งอาจเป็นโทษกับคนที่ไม่เคยใช้ LLM เสียด้วย
ดูการถกเถียงที่เกี่ยวข้องได้ที่ลิงก์นี้
ถ้าคุณนึกถึงตัวตรวจจับแบบเก่าอย่าง GPTZero แปลว่าคุณยังไม่เห็นการพัฒนาด้านประสิทธิภาพล่าสุด
ตามงานวิจัยของนักเศรษฐศาสตร์จากมหาวิทยาลัยชิคาโก พบว่าในเอกสารที่มนุษย์เขียน 1,992 ชิ้น มี ผลบวกลวง 0 ครั้ง และตรวจจับเอกสาร AI ได้มากกว่า 99%
ถ้าใช้กับการวิเคราะห์เชิงสถิติแบบงานวิจัยนี้ก็ไม่มีปัญหา
ผลที่ออกมาว่าบทความที่เขียนด้วย AI แทบไม่มี แต่มีการใช้กับ รีวิว เยอะ เป็นผลที่สมเหตุสมผล
มาตรฐานสองชั้น แบบนี้น่าสนใจดี
ไม่ว่าตัวเลข 20% จะแม่นยำหรือไม่ ทุกคนก็สัมผัสได้ว่าคุณภาพ รีวิวของงานประชุมชั้นนำกำลังตกลง
ในบางสาขามี การฮั้วกันของรีวิวเวอร์ อยู่จริง และบางกรณีก็มี AC พัวพันด้วย
ตอนนี้ไม่มีใครตั้งใจรีวิวบทความอย่างจริงจังเพียงเพราะมันเป็น ‘สิ่งที่ถูกต้องตามหลักการ’ อีกแล้ว
เมื่อมีบทความเพื่อสร้างโปรไฟล์อาชีพมากเกินไป รีวิวเวอร์ก็ย่อมใส่ใจน้อยลง
ตามการวิเคราะห์ของ Pangram รีวิวของ ICLR 21% ถูกสร้างโดย AI ทั้งหมด และมากกว่าครึ่งมีร่องรอยของ AI
แต่ก็ยังน่าสงสัยว่า “หลักฐาน” คืออะไร และจะ พิสูจน์ได้อย่างไรว่าเป็นงานที่ AI สร้าง
เครื่องมือแบบนี้เหมาะกับจุดประสงค์ดังกล่าว
ส่วนใหญ่ผม ‘รู้สึกได้’ ว่าเขียนด้วย AI แต่ พิสูจน์ไม่ได้ เลยทำอะไรไม่ได้
ถ้าไม่มีข้อมูลเพิ่มเติมอย่าง metadata การตัดสินว่า LLM เขียนหรือไม่ก็แทบไม่มีความหมาย
พาดหัวอาจเป็นเรื่องจริงก็ได้ แต่ ความน่าเชื่อถือของตัวตรวจจับ AI ยังต่ำอยู่
ยังไม่มีหลักฐานว่าเครื่องมือของ Pangram หลุดพ้นจากข้อครหานั้นแล้ว
อธิบายไว้ละเอียดในบล็อกโพสต์
จากรีวิว ICLR 2022 ทั้งหมด 10,202 ชิ้น มี 10,190 ชิ้นที่มนุษย์เขียน และมีเพียง 12 ชิ้นที่มีร่องรอยการแก้ไขด้วย AI
เราอาจไม่สามารถตัดสินโทษเป็นรายบุคคลได้ แต่แทบมั่นใจได้ว่ามีรีวิวจำนวนมากที่ปล่อยให้ AI ทำแทน
พอเห็นพาดหัวข่าวว่า “21% ของรีวิวถูกสร้างโดย AI” กลับรู้สึกว่า น้อยกว่าที่คิด
คล้ายกับสถานการณ์ ‘รูในชีสสวิสเรียงตรงกันพอดี’ ที่ใช้ในการสืบสวนอุบัติเหตุ เป็นผลจาก การละเลยหน้าที่ ที่สะสมกันมา
ตอนแรกผมตกใจ แต่ 21% กลับเป็นตัวเลขที่ ต่ำจนน่าตกใจ
แถมตัวเลขนี้ก็มาจากบริษัทที่ขายตัวตรวจจับ AI จึงมี ความเป็นไปได้ของผลบวกลวง ด้วย
ประเด็นสำคัญไม่ใช่ว่าริวิวถูกเขียนด้วย AI หรือไม่ แต่คือ รีวิวนั้นแม่นยำหรือเปล่า
งานประชุมอ้างว่าเป็น ‘peer review’ แต่ไม่ว่า AI จะเก่งแค่ไหน มันก็ไม่ใช่ peer
Pangram ดูเหมือนกำลังใช้ประเด็นการตรวจจับ AI เพื่อปลุกกระแสความโกรธและทำ คลิกเบต
ท้ายที่สุด เหยื่อกลุ่มแรกของ สัตว์ประหลาดที่ AI สร้างขึ้น ก็คือเหล่าแรงงานความรู้ที่เป็นคนสร้างมันขึ้นมา เช่น โปรแกรมเมอร์ นักวิจัย และมหาวิทยาลัย
งานประชุมนี้เคยมีกรณี บั๊กใน OpenReview จนตัวตนของรีวิวเวอร์ทุกคนถูกเปิดเผยชั่วคราวมาก่อน
ตามบทความที่เกี่ยวข้อง หลังจากนั้นมีการรีเซ็ตคะแนน และให้ AC ชุดใหม่กลับมาตัดสินอีกครั้ง
ต่อไปอาจดีกว่าถ้าให้ทุกบทความมี AI review เป็นค่าเริ่มต้น แล้วให้รีวิวเวอร์มนุษย์มาช่วยเสริมผลลัพธ์นั้น
แบบนี้รีวิวเวอร์จะต้องตรวจทานผลจาก AI และผู้เขียนก็จะได้รับ ฟีดแบ็กที่คาดเดาได้
แน่นอนว่ารีวิวเวอร์มนุษย์อาจกลับไปใช้ AI อีกอยู่ดี แต่ผู้เขียนเองก็คงทำเหมือนกัน