3 คะแนน โดย GN⁺ 2025-12-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในการรีวิวบทความวิจัยของการประชุม machine learning ระดับนานาชาติ ICLR 2026 พบว่า 21% เป็นการเขียนโดยปัญญาประดิษฐ์ทั้งหมด
  • เครื่องมือวิเคราะห์การตรวจจับ AI ของ Pangram Labs ได้ตรวจสอบการรีวิว 75,800 ฉบับ และพบร่องรอยการใช้ AI ในมากกว่าครึ่งหนึ่ง
  • นักวิจัยบางรายรายงานว่าพบว่าการรีวิวบางฉบับยาวผิดปกติหรือให้ข้อเสนอแนะที่ไม่แม่นยำ จึงตั้งข้อสันนิษฐานว่าอาจเป็นผลจากการสร้างของ AI
  • ฝ่ายผู้จัดงานระบุว่าจะตรวจสอบการละเมิดนโยบายการใช้ AI ด้วยเครื่องมืออัตโนมัติ และกำลังดำเนินการฟื้นฟูความน่าเชื่อถือ
  • เหตุการณ์นี้ชี้ให้เห็นว่าความจำเป็นในการยืนยันความโปร่งใสและความน่าเชื่อถือของกระบวนการประเมินทางวิชาการเป็นเรื่องเร่งด่วน

สาระการใช้ AI ที่ถูกเปิดเผยในกระบวนการรีวิว ICLR 2026

  • ในการรีวิวบทความของ ICLR 2026 มีการประเมินว่า ประมาณ 21% ถูกเขียนด้วย AI โดยสมบูรณ์ และมากกว่าครึ่งได้รับการวิเคราะห์ว่ามีอิทธิพลจาก AI
    • การวิเคราะห์นี้ดำเนินการโดย Pangram Labs ครอบคลุมบทความทั้งหมด 19,490 เรื่อง และมี 75,800 บทวิจารณ์
    • Pangram ใช้เครื่องมือดิจิทัลตรวจจับข้อความที่สร้างโดย AI เพื่อเปิดเผยผลลัพธ์เหล่านี้
  • คณะจัดงานประกาศว่าจะตรวจสอบการใช้งาน AI ว่าละเมิดนโยบายการทบทวนหรือไม่ด้วยเครื่องมืออัตโนมัติ
    • ผู้อำนวยการโปรแกรมของ ICLR 2026 กล่าวว่า นี่เป็นกรณีแรกที่ปัญหา AI ในการรีวิวถูกเปิดเผยในวงกว้างเช่นนี้

ประเด็นที่นักวิจัยหยิบยกขึ้นมาและขั้นตอนการสอบสวน

  • นักวิจัยหลายรายได้แชร์บทวิจารณ์ที่น่าจะถูกเขียนด้วย AI บนโซเชียลมีเดีย
    • บางบทวิจารณ์มีลักษณะ “การอ้างอิงที่เกิดจากการหลงผิด (hallucinated citations)” หรือข้อเสนอแนะที่ไม่ชัดเจนและยืดยาว
  • Graham Neubig จาก Carnegie Mellon University ได้ขอให้ตรวจสอบอีกครั้งว่ารีวิวที่ผิดปกตินั้นถูกสร้างด้วย AI หรือไม่
    • เขาโพสต์ประกาศประกวด/รางวัลบน X (เดิมคือ Twitter) และ Max Spero แห่ง Pangram Labs ตอบสนองโดยดำเนินการตรวจสอบแบบครอบคลุม
    • Pangram อธิบายว่าพวกเขาเขียนโค้ดเพื่อวิเคราะห์ข้อความของงานส่งทั้งหมดได้ภายใน 12 ชั่วโมง

ผลการวิเคราะห์ของ Pangram Labs

  • เครื่องมือของ Pangram ทำงานโดยการคาดการณ์ว่าข้อความถูกสร้างหรือแก้ไขโดย LLM (Large Language Model)
    • ผลการวิเคราะห์ชี้ว่า 15,899 บทวิจารณ์ถูกสร้างโดย AI อย่างสมบูรณ์ และ 199 บทความ (1%) ถูกจัดว่าเขียนด้วย AI ทั้งหมด
    • 61% ของบทความเป็นการเขียนโดยมนุษย์ และ 9% มีข้อความที่สร้างด้วย AI มากกว่าครึ่ง
  • Pangram ส่งโมเดลของตนเองในรูปแบบ preprint ไปยังกระบวนการ ICLR 2026 และมีการระบุว่าบทวิจารณ์ของบางฉบับในงานเหล่านั้นถูกจัดว่าเป็น AI-generated

ปฏิกิริยาของนักวิจัย

  • Desmond Elliott จากมหาวิทยาลัยโคเปนเฮเกนชี้ว่าหนึ่งในบทวิจารณ์ของบทความที่เขาส่งไปมีการตีความเนื้อหาหลักของงานผิดและอ้างถึงตัวเลขผิด
    • นักศึกษาโทษเอดวิทยาลัย (ผู้ช่วยวิทยาศาสตร์ระดับ PhD) ของเขาเชื่อว่าบทวิจารณ์ดังกล่าวน่าจะเขียนโดย LLM
    • ผลการวิเคราะห์ของ Pangram ยืนยันว่าบทวิจารณ์นั้นถูกสร้างโดย AI อย่างสมบูรณ์
    • บทวิจารณ์นั้นยังให้คะแนนต่ำสุดกับบทความ ทำให้บทความอยู่ในเส้นขอบระหว่างถูกยอมรับหรือไม่

การตอบสนองของงานประชุมและความท้าทายในอนาคต

  • ฝ่ายงานประชุมได้แจ้งว่าแผนก็คือการนำเครื่องมืออัตโนมัติในการตรวจจับการใช้ AI เข้ามาใช้ เพื่อบรรลุเป้าหมายการฟื้นฟูความน่าเชื่อถือของการรีวิว
  • ผู้รับผิดชอบโปรแกรมกล่าวว่าผ่านกระบวนการนี้จำเป็นต้องกำหนดความหมายของ "ความน่าเชื่อถือ" ขึ้นใหม่
  • เหตุการณ์นี้เป็นตัวอย่างที่แสดงว่า AI แทรกซึมลึกเข้าไปในกระบวนการทบทวนทางวิชาการ และทำให้การยืนยันความโปร่งใสในการประเมินงานวิจัยกลายเป็นเรื่องท้าทายหลัก

2 ความคิดเห็น

 
yuntae 2025-12-01

มีตัวอย่างรีวิวที่น่าสนใจเยอะเลย
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
ความเห็นจาก Hacker News
  • ผมคิดว่าการ พึ่งพา AI ในงานเขียนเพิ่มขึ้นจริง แต่ระเบียบวิธีที่ใช้ในบทความนี้ดูเหมือนเป็นการโปรโมต Pangram มากกว่า
    ตัวตรวจจับ AI ส่วนใหญ่ ไม่น่าเชื่อถือ และยิ่งอาจเป็นโทษกับคนที่ไม่เคยใช้ LLM เสียด้วย
    ดูการถกเถียงที่เกี่ยวข้องได้ที่ลิงก์นี้

    • ผมเป็นผู้ร่วมก่อตั้ง Pangram เอง พวกเราได้สร้าง ความก้าวหน้าที่เป็นรูปธรรม ในพื้นที่ปัญหานี้
      ถ้าคุณนึกถึงตัวตรวจจับแบบเก่าอย่าง GPTZero แปลว่าคุณยังไม่เห็นการพัฒนาด้านประสิทธิภาพล่าสุด
      ตามงานวิจัยของนักเศรษฐศาสตร์จากมหาวิทยาลัยชิคาโก พบว่าในเอกสารที่มนุษย์เขียน 1,992 ชิ้น มี ผลบวกลวง 0 ครั้ง และตรวจจับเอกสาร AI ได้มากกว่า 99%
    • ตัวตรวจจับ AI เป็นอันตรายก็ต่อเมื่อถูกใช้เพื่อ ลงโทษ ผู้คนเท่านั้น
      ถ้าใช้กับการวิเคราะห์เชิงสถิติแบบงานวิจัยนี้ก็ไม่มีปัญหา
      ผลที่ออกมาว่าบทความที่เขียนด้วย AI แทบไม่มี แต่มีการใช้กับ รีวิว เยอะ เป็นผลที่สมเหตุสมผล
    • บางคนไม่ไว้ใจ LLM แต่ถ้าเป็นงานวิจัยที่ช่วย ยืนยันอคติของตัวเอง ก็ยินดีใช้ LLM ทันที
      มาตรฐานสองชั้น แบบนี้น่าสนใจดี
  • ไม่ว่าตัวเลข 20% จะแม่นยำหรือไม่ ทุกคนก็สัมผัสได้ว่าคุณภาพ รีวิวของงานประชุมชั้นนำกำลังตกลง
    ในบางสาขามี การฮั้วกันของรีวิวเวอร์ อยู่จริง และบางกรณีก็มี AC พัวพันด้วย
    ตอนนี้ไม่มีใครตั้งใจรีวิวบทความอย่างจริงจังเพียงเพราะมันเป็น ‘สิ่งที่ถูกต้องตามหลักการ’ อีกแล้ว

    • เมื่อก่อนถึงไม่มีแรงจูงใจที่ชัดเจน ผู้คนก็ยัง รีวิวอย่างมีจรรยาบรรณ แต่ตอนนี้วัฒนธรรมแบบนั้นหายไปหมดแล้ว
    • ในเมื่อมีการดึงตัวนักวิจัย AI ด้วย เงินเดือนมหาศาล เป็นเรื่องธรรมดาที่ระบบจะบิดเบี้ยว
    • ปรากฏการณ์นี้อาจมองได้ว่าเป็นการ ปรับสมดุลของตลาด แบบหนึ่ง
      เมื่อมีบทความเพื่อสร้างโปรไฟล์อาชีพมากเกินไป รีวิวเวอร์ก็ย่อมใส่ใจน้อยลง
  • ตามการวิเคราะห์ของ Pangram รีวิวของ ICLR 21% ถูกสร้างโดย AI ทั้งหมด และมากกว่าครึ่งมีร่องรอยของ AI
    แต่ก็ยังน่าสงสัยว่า “หลักฐาน” คืออะไร และจะ พิสูจน์ได้อย่างไรว่าเป็นงานที่ AI สร้าง

    • คำว่า “หลักฐาน” อาจใช้ไม่เหมาะนัก แต่ การวิเคราะห์เชิงสถิติ ก็อาจเป็นสิ่งที่เป็นกลางได้
      เครื่องมือแบบนี้เหมาะกับจุดประสงค์ดังกล่าว
    • จริง ๆ แล้วพวกเขาเขียนงานวิจัยอธิบายระเบียบวิธีไว้แล้ว
    • หรือบางที ตัวตรวจจับ AI เองก็อาจเป็น AI
    • ผมก็เจอปัญหาคล้ายกันตอนตรวจงานนักศึกษา
      ส่วนใหญ่ผม ‘รู้สึกได้’ ว่าเขียนด้วย AI แต่ พิสูจน์ไม่ได้ เลยทำอะไรไม่ได้
    • ความจริงคือ แยกจากตัวข้อความอย่างเดียวไม่ได้
      ถ้าไม่มีข้อมูลเพิ่มเติมอย่าง metadata การตัดสินว่า LLM เขียนหรือไม่ก็แทบไม่มีความหมาย
  • พาดหัวอาจเป็นเรื่องจริงก็ได้ แต่ ความน่าเชื่อถือของตัวตรวจจับ AI ยังต่ำอยู่
    ยังไม่มีหลักฐานว่าเครื่องมือของ Pangram หลุดพ้นจากข้อครหานั้นแล้ว

    • ในฐานะผู้ร่วมก่อตั้ง Pangram ขอเสริมว่า อัตราผลบวกลวงของเราอยู่ที่ 1 ใน 10,000
      อธิบายไว้ละเอียดในบล็อกโพสต์
      จากรีวิว ICLR 2022 ทั้งหมด 10,202 ชิ้น มี 10,190 ชิ้นที่มนุษย์เขียน และมีเพียง 12 ชิ้นที่มีร่องรอยการแก้ไขด้วย AI
    • บทความวิชาการเดิมทีก็ใช้ สำนวนที่เป็นแบบแผน อยู่แล้ว จึงยากที่จะแยกว่าเป็น AI หรือไม่
    • ถ้าบทความมีแค่ 1% แต่รีวิวมี 20% ที่เป็น AI ก็อาจเป็นเพียงเพราะ รีวิวเวอร์พึ่งพา AI มากกว่า
      เราอาจไม่สามารถตัดสินโทษเป็นรายบุคคลได้ แต่แทบมั่นใจได้ว่ามีรีวิวจำนวนมากที่ปล่อยให้ AI ทำแทน
  • พอเห็นพาดหัวข่าวว่า “21% ของรีวิวถูกสร้างโดย AI” กลับรู้สึกว่า น้อยกว่าที่คิด

    • ถ้า 21% เป็นการสร้างโดย AI ทั้งหมด นั่นก็ถือเป็น การทุจริตที่ชัดเจน
      คล้ายกับสถานการณ์ ‘รูในชีสสวิสเรียงตรงกันพอดี’ ที่ใช้ในการสืบสวนอุบัติเหตุ เป็นผลจาก การละเลยหน้าที่ ที่สะสมกันมา
  • ตอนแรกผมตกใจ แต่ 21% กลับเป็นตัวเลขที่ ต่ำจนน่าตกใจ
    แถมตัวเลขนี้ก็มาจากบริษัทที่ขายตัวตรวจจับ AI จึงมี ความเป็นไปได้ของผลบวกลวง ด้วย

  • ประเด็นสำคัญไม่ใช่ว่าริวิวถูกเขียนด้วย AI หรือไม่ แต่คือ รีวิวนั้นแม่นยำหรือเปล่า

    • ไม่ใช่ นั่นไม่ใช่ประเด็นสำคัญ
      งานประชุมอ้างว่าเป็น ‘peer review’ แต่ไม่ว่า AI จะเก่งแค่ไหน มันก็ไม่ใช่ peer
    • ถ้างานวิจัยนั้น มีประโยชน์และถูกต้อง จริง นั่นต่างหากที่สำคัญกว่า
      Pangram ดูเหมือนกำลังใช้ประเด็นการตรวจจับ AI เพื่อปลุกกระแสความโกรธและทำ คลิกเบต
    • ความจริงคือแบบนี้
      1. นักวิทยาศาสตร์ทำงานวิจัยที่มีอคติ
      2. รีวิวเวอร์ใช้ AI สร้าง รีวิวที่ดูน่าเชื่อถือภายนอก
      3. สุดท้ายนักวิจัยก็ต้องกลับมารีวิวงานของตัวเองอีกครั้ง เกิดเป็น วงจรประหลาด นี้ขึ้น
  • ท้ายที่สุด เหยื่อกลุ่มแรกของ สัตว์ประหลาดที่ AI สร้างขึ้น ก็คือเหล่าแรงงานความรู้ที่เป็นคนสร้างมันขึ้นมา เช่น โปรแกรมเมอร์ นักวิจัย และมหาวิทยาลัย

  • งานประชุมนี้เคยมีกรณี บั๊กใน OpenReview จนตัวตนของรีวิวเวอร์ทุกคนถูกเปิดเผยชั่วคราวมาก่อน
    ตามบทความที่เกี่ยวข้อง หลังจากนั้นมีการรีเซ็ตคะแนน และให้ AC ชุดใหม่กลับมาตัดสินอีกครั้ง

  • ต่อไปอาจดีกว่าถ้าให้ทุกบทความมี AI review เป็นค่าเริ่มต้น แล้วให้รีวิวเวอร์มนุษย์มาช่วยเสริมผลลัพธ์นั้น
    แบบนี้รีวิวเวอร์จะต้องตรวจทานผลจาก AI และผู้เขียนก็จะได้รับ ฟีดแบ็กที่คาดเดาได้
    แน่นอนว่ารีวิวเวอร์มนุษย์อาจกลับไปใช้ AI อีกอยู่ดี แต่ผู้เขียนเองก็คงทำเหมือนกัน