- เครื่องมือ Hallucination Check ของ GPTZero วิเคราะห์บทความที่ได้รับการตอบรับของ NeurIPS 2025 จำนวน 4,841 ฉบับ จากทั้งหมด 5,290 ฉบับ และยืนยันพบ ‘การอ้างอิงหลอน (hallucinated citations)’ มากกว่า 100 รายการ
- พบ ร่องรอยที่สร้างโดย AI ในบทความจำนวนมาก เช่น ชื่อผู้เขียนที่ไม่มีอยู่จริง, DOI·URL ที่ไม่ถูกต้อง, ชื่อเรื่องที่ถูกแต่งขึ้น
- GPTZero นิยามข้อผิดพลาดการอ้างอิงลักษณะนี้ว่า ‘vibe citing’ ซึ่งอธิบายว่าเป็น การอ้างอิงที่นำข้อมูลจากงานวิจัยจริงมาผสมและดัดแปลงให้ดูน่าเชื่อถือ
- ทุกกรณีผ่าน การตรวจสอบโดยผู้เชี่ยวชาญมนุษย์ แล้ว และเครื่องมือมี อัตราพลาดแบบ false negative ต่ำมาก (ตรวจจับได้ 99%) โดยจะทำเครื่องหมายกรณีต้องสงสัยอย่างระมัดระวัง
- ถูกประเมินว่าเป็นกรณีตัวอย่างที่แสดงให้เห็นถึง ความจำเป็นของการทำระบบอัตโนมัติสำหรับตรวจจับข้อผิดพลาดการอ้างอิงจาก AI ในกระบวนการเขียนและตรวจสอบบทความวิจัย
ผลการวิเคราะห์บทความ NeurIPS 2025 ของ GPTZero
- GPTZero สแกนบทความที่ ได้รับการตอบรับ 4,841 ฉบับ จากทั้งหมด 5,290 ฉบับ ใน NeurIPS 2025 และพบ การอ้างอิงหลอนมากกว่า 100 รายการ
- แต่ละกรณีได้รับ การตรวจสอบโดยมนุษย์ จนยืนยันได้ว่าเป็น การอ้างอิงที่ไม่มีอยู่จริง
- ตัวอย่างเช่น พบการอ้างอิงจำนวนมากที่มี ชื่อวารสาร ชื่อผู้เขียน หรือ DOI ที่ไม่มีอยู่จริง
- GPTZero จัดข้อผิดพลาดการอ้างอิงเหล่านี้เป็น ร่องรอยที่สร้างโดย AI (vibe citing)
- รูปแบบที่พบได้บ่อยคือ การอ้างอิงปลอมที่เกิดจากการนำชื่อเรื่องและชื่อผู้เขียนของงานจริงมาผสมหรือดัดแปลง
- บางกรณีใช้ชื่อเรื่องที่คล้ายกับงานวิจัยจริง แต่ตรวจพบว่า ปี แหล่งที่มา หรือผู้เขียนไม่ตรงกัน
นิยามและประเภทของ ‘Vibe Citing’
- GPTZero ให้นิยาม ‘vibe citing’ ว่าเป็น “การอ้างอิงที่ generative AI สร้างขึ้นจากการผสมและดัดแปลงแหล่งอ้างอิงจริง”
- รวมถึงกรณีที่มีการปลอมแปลงหรือสังเคราะห์ ชื่อผู้เขียน ชื่อเรื่อง สำนักพิมพ์ DOI เป็นต้น
- บางครั้งเป็น การอ้างอิงงานที่มีอยู่จริงเพียงบางส่วน หรือถึงขั้น สร้างชื่อวารสารปลอม ขึ้นมา
- ในทางกลับกัน ข้อผิดพลาดอย่าง พิมพ์ผิด ลิงก์เสีย หรือเลขหน้าที่ตกหล่น ถือเป็นความผิดพลาดของมนุษย์ทั่วไป จึงไม่ถูกนับรวม
- GPTZero แสดงความแตกต่างระหว่างการอ้างอิงจริง การอ้างอิงที่บกพร่อง และการอ้างอิงหลอนด้วย ตารางเปรียบเทียบ
- ตัวอย่าง: กรณีเปลี่ยนบทความ “Deep learning” เป็น “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” จะถูกจัดเป็นการอ้างอิงหลอน
ความสามารถของเครื่องมือ Hallucination Check
- Hallucination Check คือ ระบบตรวจจับที่ใช้ AI เพื่อทำให้การตรวจสอบการอ้างอิงเป็นอัตโนมัติ
- ทำเครื่องหมายการอ้างอิงที่ไม่สามารถยืนยันได้ทางออนไลน์โดยอัตโนมัติ
- ช่วยให้ ผู้เขียน บรรณาธิการ และผู้ประเมิน ตรวจทานข้อผิดพลาดในการอ้างอิงได้รวดเร็วขึ้น
- ขั้นตอนการใช้งาน
- ผู้เขียนตรวจสอบการอ้างอิงของบทความแบบอัตโนมัติก่อนส่ง
- ผู้ประเมินสามารถระบุการอ้างอิงที่ยังไม่ได้รับการยืนยันได้อย่างรวดเร็ว
- ทีมบรรณาธิการของงานประชุมหรือวารสารสามารถใช้งานร่วมกับ AI Detector เพื่อตรวจจับ ทั้งร่องรอยการเขียนด้วย AI และข้อผิดพลาดในการอ้างอิง ได้พร้อมกัน
ความแม่นยำในการตรวจสอบของ GPTZero
- Hallucination Check มี อัตราพลาดแบบ false negative ต่ำมาก (ความแม่นยำในการตรวจจับ 99%)
- หมายความว่าโอกาสที่จะพลาดการอ้างอิงหลอนจริงมีน้อยมาก
- แต่ในทางกลับกัน อัตรา false positive อาจสูงขึ้นเล็กน้อย เพราะเลือกตรวจจับอย่างระมัดระวัง
- GPTZero ระบุว่าได้ใช้วิธีเดียวกันนี้ค้นพบ ข้อผิดพลาดการอ้างอิงจาก AI หลายสิบกรณี ใน ICLR 2026 และรายงานของ Deloitte ด้วย
ความหมายต่อวงการวิชาการและระบบนิเวศการตีพิมพ์
- กรณีของ NeurIPS 2025 แสดงให้เห็นปัญหา ความน่าเชื่อถือของการอ้างอิงที่ลดลง ควบคู่กับ การแพร่หลายของการใช้เครื่องมือ AI ในการเขียนบทความวิจัย
- GPTZero กำลังร่วมมือกับคณะผู้จัด ICLR เพื่อสร้าง ระบบตรวจสอบอัตโนมัติสำหรับบทความที่ส่งในอนาคต
- ความพยายามลักษณะนี้คาดว่าจะนำไปสู่ การเพิ่มประสิทธิภาพและความโปร่งใสของการประเมินบทความ รวมถึง การเสริมความเข้มแข็งของระบบตรวจสอบคอนเทนต์ที่สร้างโดย AI
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันลอง สุ่มตรวจ บทความหนึ่งที่มีเพื่อนร่วมงานจาก Google เป็นผู้เขียนร่วม
บทความที่ถูกชี้ปัญหาคือ บทความ ICLR 2024 ซึ่งมีผู้เขียนที่ถูกอ้างอิงหายไปสองคน และมีอีกคนหนึ่ง (Kyle Richardson) ถูกใส่เพิ่มเข้ามาผิด ๆ
การอ้างอิงนี้อยู่ในส่วนพื้นหลัง ไม่ใช่แกนหลักของบทความ และมีความเป็นไปได้สูงว่าเป็นเพียงการพิมพ์ผิดที่เกิดขึ้นระหว่างกระบวนการ AI autocomplete
ในชุดข้อมูลอาจมีกรณีร้ายแรงกว่านี้ แต่กรณีที่ฉันเห็นเป็นข้อผิดพลาดเล็กน้อยที่แก้ได้ทันทีด้วยการตรวจ DOI
การใส่บทความที่มี ‘ข้อผิดพลาดเดี่ยว’ แบบนี้เข้าไป ดูเหมือนเป็นความตั้งใจเพื่อเพิ่ม ผลด้านการโปรโมตผลิตภัณฑ์ ของฝั่งผู้เขียนให้มากที่สุด
ปัญหาคือเราไม่รู้ว่านี่เป็นข้อผิดพลาดเดียวหรือไม่
การมีข้อผิดพลาดแบบนี้เป็นสัญญาณว่าบทความถูกส่งโดยยังตรวจสอบไม่เพียงพอ และเป็น ร่องรอยของการใช้ LLM อย่างสะเพร่า
ถ้าจะตรวจสอบส่วนที่เหลือก็ต้องใช้ความรู้เฉพาะทางและการทดลองทำซ้ำ
ถ้าปรากฏการณ์นี้แพร่หลาย ก็เสี่ยงจะทำให้ฐานความน่าเชื่อถือของงานวิจัยสั่นคลอน
แต่กรณีนี้ผิด
การที่เกิด hallucination ในบรรณานุกรม ทำให้ฉันคิดว่านี่เป็น สัญญาณที่แรงว่าทั้งบทความถูกเขียนด้วย AI
ทั้งที่เป็นปัญหาที่คัดออกได้ด้วยการตรวจ DOI แต่ตอนนี้ การตรวจสอบการอ้างอิงยังไม่ใช่ขั้นตอนหลักของกระบวนการรีวิวบทความ
โมเดลความเชื่อถือที่ยังมองการอ้างอิงเป็นเพียง ‘ข้อความเชิงบรรยาย’ นั้นขยายต่อไปไม่ได้อีกแล้ว
ฉันกำลังทำโปรเจกต์ที่ Duke University เพื่อเปลี่ยนกระบวนการอ้างอิงและการตรวจสอบให้เป็น โครงสร้างพื้นฐานที่เครื่องตรวจสอบได้ (Liberata)
ตรงกันข้าม การตัด ‘กรณีที่ไม่อันตราย’ ออกไปต่างหากที่จะ ชวนให้เข้าใจผิด มากกว่า
การปล่อยให้ข้อมูลพูดด้วยตัวเองคือแนวทางที่ซื่อสัตย์กว่า
ปรากฏการณ์แบบนี้ดูเหมือนจะสร้าง ผลกระทบร้ายแรง ต่อการวิจัยทางวิทยาศาสตร์
ตอนนี้ก็มีปัญหาการบิดเบือนข้อมูลอยู่แล้ว และถ้า LLM สร้างบทความที่ดูน่าเชื่อถือได้ สถานการณ์ก็จะแย่ลง
ถึงอย่างนั้น นี่อาจเป็นโอกาสให้วงการหันมาจัดการเรื่อง reproducibility อย่างจริงจังมากขึ้นก็ได้
แทบไม่มีหน่วยงานไหนให้ทุนกับข้อเสนอที่บอกว่า “ต้องใช้เวลา 2 ปีและเงิน 1 ล้านดอลลาร์เพื่อตรวจสอบบทความน่าสงสัยจากปีที่แล้ว”
ถ้าไม่เปลี่ยนโครงสร้างการจัดสรรทุนวิทยาศาสตร์ ก็คงแก้ยาก
ถ้าประเมินจากจำนวนบทความ ก็จะมีแต่งานคุณภาพต่ำหลั่งไหลออกมา และถ้าประเมินจากจำนวนการอ้างอิง ก็จะ ส่งเสริมแต่งานที่เน้นการค้นพบ เท่านั้น
งานทำซ้ำได้การอ้างอิงน้อย สุดท้ายชื่อเสียงและรายได้ก็ผูกอยู่กับ ‘การค้นพบ’ จึงไม่มีใครลงทุนกับการทำซ้ำ
โปรเจกต์อย่าง Liberata พยายามย้ายวัฒนธรรมการตีพิมพ์จากการยึด ‘ความใหม่’ ไปสู่ ‘การตรวจสอบและการทำซ้ำ’
ถ้าการเปลี่ยนแปลงนี้เกิดขึ้นได้ ความวุ่นวายในตอนนี้ก็อาจเป็น กระบวนการแก้ไขที่จำเป็น
ต่อให้ทุกบทความทำซ้ำได้ ปัญหารากฐานของวิทยาศาสตร์ก็ไม่ได้ถูกแก้ ตามมุมมองนี้
บทความที่เกี่ยวข้อง: Replication studies can’t fix science
ฝั่ง NeurIPS ระบุว่า การมี reference hallucination ไม่ได้ทำให้ทั้งบทความเป็นโมฆะเสมอไป
ตาม บทความเต็มของ Fortune การใช้ LLM กำลังพัฒนาอย่างรวดเร็ว และในปี 2025 ผู้รีวิวได้รับแนวทางให้ทำเครื่องหมาย hallucination แล้ว
จุดยืนคือแม้จะมีข้อผิดพลาดด้านการอ้างอิงใน 1.1% ของบทความ ก็ไม่ได้แปลว่าเนื้อหาของบทความนั้นเป็นโมฆะทั้งหมด
ให้ความรู้สึกเหมือนเลือกเหตุผลที่เบาที่สุดมาใช้กลบปัญหาทั้งหมด
วิทยาศาสตร์ก็เผชิญวิกฤต reproducibility อยู่แล้ว ตอนนี้ยังต้องมาเจอปัญหา hallucination เพิ่มอีก
ในสถานการณ์ที่อิทธิพลของบริษัทเอกชนเพิ่มขึ้น อนาคตของ open science ดูมืดมน
แม้แต่การถอนบทความก็แทบไม่มีผลเสียจริง และเป็นโครงสร้างที่ ค่าคาดหวังของการทุจริตยังเป็นบวก
ถ้าไม่เปลี่ยนแรงจูงใจ ก็มีแต่จะแย่ลง
การปล่อยให้ LLM จัดการการอ้างอิง สุดท้ายก็อาจลามไปถึงการมอบหมายให้ตีความข้อมูลด้วย และนั่นอาจนำไปสู่ ผลลัพธ์ที่เกิดจาก hallucination
น่าขันตรงที่ บทความวิจัยต้องมีการทบทวนวรรณกรรมเพื่อทำ บทสนทนาทางความรู้ กับงานก่อนหน้า
แต่การปลอมการอ้างอิงด้วย LLM ไม่ใช่การ ‘ยืนบนไหล่ของยักษ์’ แต่เป็น การยืนบนไหล่ของภาพลวง
ฉันเคยได้รับรีวิว ที่ AI เขียนทั้งชิ้น ในการรีวิวบทความ WACV 2024
ผู้รีวิวเขียนรีวิวที่ต่างกันโดยสิ้นเชิงลงในกล่องข้อความทั้งสี่ช่อง (สรุป, จุดแข็ง, จุดอ่อน, ความเห็นรวม) และเนื้อหาก็ขัดแย้งกันเอง
สถานการณ์แบบนี้เกิดจาก ภาระงานของผู้รีวิวที่ล้นเกิน และเราต้องการอาสาสมัครเพิ่ม
(ถ้าคุณเป็นคนที่รีวิวบทความได้ แนะนำให้ติดต่อ program chair ของงานประชุมที่คุณชอบโดยตรง)
บางบทความใส่ชื่อปลอมอย่าง ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ ไว้ในการอ้างอิง และก็ยังไม่มีใครสังเกตเห็น
สำหรับ นักศึกษาปริญญาเอกที่มีบทความ NeurIPS ชิ้นแรก ผลตอบแทนทางเศรษฐกิจนั้นมหาศาล
การฝึกงานในบิ๊กเทคส่วนใหญ่มองว่าการเป็น first author ใน NeurIPS/ICML/ICLR แทบเป็นเงื่อนไขจำเป็น
ถ้าผ่านได้สักครั้ง เงินเดือนอาจพุ่งขึ้นสองถึงสามเท่า และจะบอกว่าเส้นทางอาชีพเปิดกว้างเลยก็ไม่เกินจริง
ในโครงสร้างแบบนี้ การทุจริตจึงไม่ใช่เรื่องน่าแปลกใจ
แค่มีบทความ NeurIPS หนึ่งชิ้น ก็อาจได้คุณสมบัติพอสำหรับตำแหน่งวิจัยแม้ไม่มีปริญญาเอก และเงินเดือนอาจเกิน 300,000 ดอลลาร์
ถ้าได้เป็น Spotlight หรือ Oral presentation มูลค่าก็อาจแตะระดับเลข 7 หลัก
ทุกคนเห็นตรงกันว่าโครงสร้างแรงจูงใจปัจจุบันเป็นตัวสร้างพฤติกรรมแบบนี้
ถ้าอย่างนั้นควรใช้ ‘ไม้เรียว’ แทน ‘แครอต’ หรือไม่
นี่คือข้อเสนอให้มี บทลงโทษระดับทำลายอาชีพ หากตรวจพบ LLM hallucination หรือการบิดเบือนข้อมูล
เครื่องมือตรวจจับ AI ยังไม่น่าเชื่อถือพอ และอาจเป็นเพียงความผิดพลาดจาก BibTeX หรือจากการแก้ไวยากรณ์ก็ได้
ฉันคิดว่าการลงโทษหนักจะสมเหตุสมผลก็ต่อเมื่อพิสูจน์ได้ว่าเป็น การทุจริตโดยเจตนา เช่นการปลอมแปลงข้อมูลอย่างชัดเจน
ถ้าวิเคราะห์ดูว่าในบทความก่อนปี 2020 มี การปลอมแหล่งอ้างอิงมากแค่ไหน ก็น่าจะน่าสนใจ
ฉันไม่เชื่อใจทั้ง LLM และ AI detector อย่างเต็มที่
เพียงแต่ตอนนี้ความถี่ของมัน เร่งตัวขึ้น เท่านั้น
ปัญหาข้อผิดพลาดในการอ้างอิงจะหายไปเอง ถ้าต้นทุนของ AI search และการเก็บข้อมูล ถูกลงกว่าตอนนี้ 100 เท่า
แต่พอถึงตอนนั้น เราอาจแยกได้ยากยิ่งขึ้นด้วยซ้ำว่า บทความที่ AI เขียนสะท้อนความจริงหรือไม่
ยุคหนึ่งของ ‘stochastic mirror’ อาจมาถึง