- GPTZero ตรวจพบ ข้อผิดพลาดการอ้างอิงและข้อมูลผู้เขียนเท็จมากกว่า 50 รายการ ในบทความที่ส่งเข้าร่วม ICLR 2026
- แต่ละบทความได้รับการตรวจสอบ การมีอยู่จริง และ ความตรงกันของการอ้างอิง ร่วมกับลิงก์ OpenReview
- ในหลายกรณีพบว่า ผู้เขียนที่ไม่มีตัวตนจริง, ปีที่ผิด, หรือตั้งชื่อบทความต่างกัน ถูกพบอยู่
- บางฉบับมี ความตรงกันกับบทความจริงบางส่วน แต่ข้อมูลเมตาดาต้ารายละเอียดถูกบิดเบือน
- เป็นตัวอย่างที่ชี้ให้เห็นว่าปัญหา AI-generated hallucination กำลังขยายตัวอย่างต่อเนื่องแม้ในผลงานที่ส่งเข้าสู่แวดวงวิชาการ
ผลการตรวจจับ Hallucination ของ GPTZero ใน ICLR 2026
- GPTZero ดำเนินการตรวจสอบอัตโนมัติ สำหรับการอ้างอิงและข้อมูลผู้เขียน ของบทความที่ส่งเข้าร่วม ICLR 2026
- บทความแต่ละชิ้นจะมีลิงก์ OpenReview, ลิงก์ตรวจสอบของ GPTZero และข้อมูลอ้างอิงอย่างครบถ้วน
- จากผลการตรวจสอบ พบว่ามีมากกว่า 50 ฉบับที่ตรวจพบ การอ้างอิงปลอมหรือผู้เขียนที่ไม่มีตัวตนจริง
กรณี Hallucination ที่เป็นตัวแทน
- บทความ TamperTok มีอยู่จริง แต่ ข้อมูลผู้เขียนทั้งหมดผิดพลาด
- บทความ MixtureVitae ตรงกับผู้เขียน 3 คนแรก แต่ ผู้เขียนที่เหลือ 7 คนไม่มีตัวตนจริง
- OrtSAE, Principled Policy Optimization, IMPQ และอื่น ๆ มี ชื่อเรื่องหรือผู้เขียนไม่ตรงกับบทความจริง
- PDMBench มีงานคล้ายกันจริง แต่ ปีที่เผยแพร่และชื่อเรื่องต่างกัน
- C3-OWD, GRF-LLM และอื่น ๆ ถูกจัดอยู่ในหมวด ตรงกันบางส่วน
กรณีไม่ตรงกันทั้งหมด
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI และอื่น ๆ อ้างถึง บทความที่ไม่ปรากฏจริง
- SAFE-LLM, Typed Chain-of-Thought, MANTA และอื่น ๆ มี งานคล้ายกันแต่ข้อมูลเมตาดาต้าไม่ตรงกัน
- AI-Assisted Medical Triage Assistant, QUART, KARMA และอื่น ๆ อ้างถึง บทความที่ไม่เกี่ยวข้องเลย
วิธีการตรวจสอบและประเภทผลลัพธ์
- GPTZero เปรียบเทียบการอ้างอิงแต่ละรายการกับฐานข้อมูลจริง (เช่น arXiv, NeurIPS, ICLR, ACL ฯลฯ)
- ผลลัพธ์จัดเป็น “มีอยู่”, “ตรงกันบางส่วน”, “ไม่ตรงกัน”, “ผู้เขียนปลอม” และอื่น ๆ
- มีบางรายการที่แสดงว่า มีบทความจริงแต่ผู้เขียน ปี และชื่อเรื่องต่างกันทั้งหมด
ความหมายและนัยสำคัญ
- ในผลงานที่ส่งเข้าร่วม ICLR 2026 จำนวนมากยังมีการผสมปัญหา Hallucination ของเนื้อหาที่ AI สร้าง โดยตรง
- ในขั้นตอนการเขียนบทความวิชาการ ความจำเป็นของ เครื่องมือตรวจสอบความถูกต้องข้อมูลอัตโนมัติ ถูกเน้นขึ้นอีกครั้ง
- ผลการตรวจจับของ GPTZero แสดงให้เห็นความจำเป็นในการเสริมสร้างระบบตรวจสอบความน่าเชื่อถือของ เนื้อหาที่สร้างโดย AI
4 ความคิดเห็น
ผมคิดมานานแล้วว่า LLM อาจกลายเป็นสิ่งที่ถ่วงความก้าวหน้าของมนุษยชาติแทนที่จะช่วยส่งเสริมมัน และในบริบทนั้น ปัญหาที่ผมเคยกังวลก็กำลังปรากฏขึ้นแล้ว การลดภาระทางความคิดสำหรับมนุษย์ดูจะคล้ายยาเสพติดอย่างหนึ่ง ผมเองก็ทำวิจัยเหมือนกัน และแม้แต่ในทีมก็เริ่มระวังกันว่าพอใช้โมเดล LLM มากขึ้นเรื่อย ๆ ก็เหมือนจะเกิดนิสัยไม่ค่อยคิดเอง ปัญหานี้คงจะยิ่งรุนแรงขึ้นต่อไป เพราะปริมาณงานจะพองตัวจนเกินกว่าที่ peer review จะรับมือได้ จึงน่าจะต้องหาวิธีอื่นกันแล้ว ช่วงหลังดูเหมือนจำนวนการส่งบทความไปยังงานประชุมชื่อดังต่าง ๆ เพิ่มขึ้นมาก และผมก็คิดว่าอาจเป็นเพราะเหตุผลคล้าย ๆ กัน
เห็นด้วยครับ ถ้าเป็นแบบนี้ต่อไป ดูเหมือนว่าสมองของมนุษย์จะยิ่งหดเล็กลงเรื่อย ๆ
ท้ายที่สุดแล้ว สถานการณ์ที่ปัญญาประดิษฐ์เข้าครอบงำมนุษย์อาจกลายเป็นความคิดขั้นสูงที่สุดที่เราสามารถนึกถึงได้ในตอนนี้ ต่อจากนี้เราอาจไม่มีแม้แต่นวัตกรรมใหม่ที่จะไปถึงความคิดนั้นได้ และอาจเหลือเพียงช่วงการลู่เข้าจนกว่าจะถูก AI ควบคุมเท่านั้น
ใน AI ที่มีระดับความรู้ใกล้เคียงกันแบบซ้ำๆ ยังจะมีพื้นที่ให้พัฒนาต่อไปได้อีกมากแค่ไหน?
ถ้าไม่เป็นเช่นนั้น ก็ดูเหมือนว่าโลกจะถูกปกคลุมไปด้วยเพียงงานเขียนที่เป็นการคัดลอกของมนุษย์โคลนแบบเดิมๆ และการคัดแยกของดีออกจากของด้อยท่ามกลางสิ่งเหล่านั้นก็คงจะยิ่งยากขึ้น
ความเห็นจาก Hacker News
ผมคิดว่านี่เป็น การประพฤติผิดทางวิชาชีพ อย่างชัดเจน
ถ้านักวิจัยของผมทำแบบนี้ ก็คงเสี่ยงถูกไล่ออก
ในฐานะผู้รีวิว ถ้าเห็นว่าผู้เขียนโกหก ก็จะไม่สามารถเชื่อถือทั้งบทความได้ และในเชิงจริยธรรมก็ควร reject ทันที
ความผิดพลาดเกิดขึ้นได้บ่อย แต่เรื่องนี้เป็นปัญหาคนละระดับ
ในโลกตะวันตกมักมองว่า ความซื่อสัตย์ ของแต่ละคนคือสิ่งที่ค้ำจุนความน่าเชื่อถือของวงการวิชาการทั้งหมด แต่ในตะวันออกกลาง อินเดีย และจีน กลับมีแนวโน้มจะโยนความรับผิดชอบเรื่องแบบนี้ไปให้วารสาร
ถ้าไม่เข้าใจความต่างนี้ การร่วมงานกันจะสับสนมาก
จากประสบการณ์ของผม ปัญหาหลักที่ทำให้คุณภาพงานวิจัยแย่ลงคือ การอ้างอิงผิด
ปัญหาที่ร้ายกว่าการไม่มีอ้างอิง คืออ้างแหล่งข้อมูลที่จริง ๆ แล้วไม่ได้พูดแบบนั้น หรือบิดเบือนบริบท
การหาข้อผิดพลาดแบบนี้ต้องอ่านและทำความเข้าใจต้นฉบับ จึงใช้เวลามหาศาล
เรื่องนี้ไม่ใช่แค่ความผิดพลาดเล็กน้อย แต่ก่อให้เกิด การผุกร่อนขององค์ความรู้ ดังนั้นจึงควรมีบทลงโทษแบบ ‘เตือน 3 ครั้งแล้วตัดออก’
เช่น เอาข้ออ้างในบทความมาเทียบกับรายการอ้างอิง แล้วตรวจอัตโนมัติว่าอ้างอิงนั้นรองรับจริงหรือไม่
กรณีแบบนี้ไม่ใช่ความสะเพร่า แต่เป็น การบิดเบือนตามผลประโยชน์ทับซ้อน
ผมคิดว่า ปัญหาไม่ใช่ AI แต่คือความขี้เกียจและความสะเพร่า
ถ้านักวิทยาศาสตร์ใช้ LLM เขียนบทความที่มีการอ้างอิงปลอม นั่นแปลว่าเขาเป็นนักวิทยาศาสตร์ที่แย่
ถ้าสังคมไม่ลงโทษพฤติกรรมแบบนี้ สุดท้ายมันก็จะถูกปล่อยผ่าน
การตรวจสอบทางเทคนิคจำเป็นต้องมี ผู้ตรวจที่มีความชำนาญ
สุดท้ายแล้วผมมองว่า ตัว AI เองต่างหากคือปัญหา
และเพราะมันดูดีนี่เอง จึงยิ่งซ่อนปัญหาได้มากกว่าเดิม
อย่างน้อยในช่วง 1 ปีที่ผ่านมาอาการหลอนลดลง และถ้าจำกัดให้ค้นเฉพาะบทความที่ผ่านการตรวจสอบแล้วก็ถือว่าใช้งานได้พอสมควร
แต่ถ้าไม่อยากให้นักวิจัยต้องพึ่งเครื่องมือแบบนี้ โครงสร้าง การแข่งขันขอทุนอย่างต่อเนื่อง ก็ต้องเปลี่ยนก่อน
LLM ก็เหมือนกัน มันแค่ส่งคำตอบที่ผู้ใช้ต้องการกลับมา และยิ่งเสริม อคติยืนยันความเชื่อเดิม
ผมไม่คิดว่าจะมีวิธีใช้ LLM ในงานวิทยาศาสตร์อย่างปลอดภัยได้
ถ้าไปอ่านบทความเหล่านั้นจริง ๆ จะพบว่าปัญหาไม่ใช่แค่ AI เป็นคนเขียน แต่หลายกรณี แม้แต่ไอเดียก็สร้างโดย AI
ภายนอกดูเหมือนมีเหตุผล แต่เนื้อหาจริงกลับเพ้อฝันไร้สาระ
ถ้ามีนักวิจัยตัวจริงคนไหนถูกจัดเข้ากลุ่มนี้เพียงเพราะข้อผิดพลาดเล็ก ๆ ในไฟล์ .bib ก็น่าเสียดายมาก
Avi Loeb (นักฟิสิกส์ทฤษฎีจากฮาร์วาร์ด) บอกว่ากรณีนักศึกษาที่อ้างอิงงานวิจัยที่ไม่มีอยู่จริงเพิ่มขึ้นอย่างมาก
พวกเขาเชื่อเรื่องแต่งที่ LLM สร้างขึ้นมาโดยตรง และไม่แม้แต่จะตรวจสอบ
บทความที่เกี่ยวข้อง: How AI is making us dumber
การที่คนข้างบนทำตัวเป็นตัวอย่างที่ผิด แล้วหันมาดุลูกน้องทีหลัง คือการสอนที่แย่มาก
ผมสงสัยว่างานวิจัยนี้นับการอ้างอิงผิดทั้งหมดเป็นอาการหลอนของ LLM หรือไม่
จำเป็นต้องมี การวิเคราะห์ baseline ด้วยว่าในยุคก่อน LLM บทความก็มีข้อผิดพลาดแบบนี้อยู่แล้วหรือเปล่า
ผมอยากรู้ว่าถ้าเอาเครื่องมือเดียวกันไปใช้กับงานวิจัยยุค 2010s จะได้ผลแบบไหน
วารสารส่วนใหญ่ตรวจสอบการอ้างอิงจาก DOI อยู่แล้ว ดังนั้นจึงควรเอางานเก่ามาเปรียบเทียบวิเคราะห์ด้วย
แค่โยนหัวข้อให้ LLM มันก็สามารถปั้นงานที่คล้ายกันออกมาได้แล้ว
ต้นเหตุคือ ระบบความรู้ของมนุษย์ที่ไม่สมบูรณ์ ไม่ใช่ปัญหาเฉพาะของ LLM เท่านั้น
จุดประสงค์ของ peer review ไม่ใช่แค่ตรวจหาความผิดพลาด แต่คือการประเมิน ความใหม่และความสมบูรณ์
ถ้าอย่างนั้นก็ควรมีแรงจูงใจเพื่อป้องกันความสะเพร่า
เช่น สำนักพิมพ์อาจตั้ง ระบบเงินรางวัล ให้คนที่พบความสะเพร่าร้ายแรงได้รับรางวัล หรือ
ทำ Wall of Shame เปิดเผยรายชื่อนักวิจัยที่สะเพร่าซ้ำ ๆ ก็ได้
ผมใช้เครื่องมือจัดการบรรณานุกรมอย่าง Zotero มาตั้งแต่ 15 ปีก่อน แต่ก็ยังน่าตกใจที่ทุกวันนี้ยังมีการอ้างอิงที่ใส่ชื่อผู้เขียนผิดอยู่มาก
ถ้าบังคับส่งไฟล์ .bib ก็น่าจะทำ quality control ขั้นพื้นฐานผ่านการตรวจ DOI ได้
เรื่องที่แม้แต่การตรวจสอบพื้นฐานแบบนี้ก็ยังไม่ทำ ทำให้ผมช็อกมาก
บางครั้งผู้เขียนก็อ้างงานของตัวเองผิด และแม้ DOI จะถูกต้องก็ยังมี การสะกดชื่อผู้เขียนผิด บ่อยมาก
เครื่องมือช่วยให้จำนวนการอ้างอิงเพิ่มขึ้นและลดอัตราความผิดพลาดลง แต่ก็ยังแทบจะเหลือข้อผิดพลาดอย่างน้อยหนึ่งจุดต่อหนึ่งบทความอยู่ดี
จากงานส่งเข้ากว่า 20,000 ชิ้น ตรวจไปแค่ 300 ชิ้นก็พบ บทความหลอน ไปแล้วหลายร้อยกรณี ขนาดจริงน่าจะใหญ่กว่านี้มาก
อาการหลอนของ LLM เป็นคุณสมบัติที่เกิดจากการออกแบบ
ในกระบวนการสร้างผลลัพธ์ที่น่าจะเป็นไปได้ทางสถิติ จึงเกิด การอ้างอิงปลอม ขึ้นได้ตามธรรมชาติ
แต่ในทางเทคนิค เครื่องจักรสามารถสร้างการอ้างอิงที่ถูกต้องจริงได้
เพียงแต่ LLM ในปัจจุบันไม่ได้ถูกทำมาเพื่อ ‘สร้างการอ้างอิงที่แม่นยำ’ แต่ให้ ผลลัพธ์ที่แค่หน้าตาคล้ายของจริง เท่านั้น