พบกรณี Hallucination กว่า 50 รายการในบทความที่ส่งเข้าร่วม ICLR 2026

(gptzero.me)

3 คะแนน โดย GN⁺ 2025-12-08 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

GPTZero ตรวจพบ ข้อผิดพลาดการอ้างอิงและข้อมูลผู้เขียนเท็จมากกว่า 50 รายการ ในบทความที่ส่งเข้าร่วม ICLR 2026
แต่ละบทความได้รับการตรวจสอบ การมีอยู่จริง และ ความตรงกันของการอ้างอิง ร่วมกับลิงก์ OpenReview
ในหลายกรณีพบว่า ผู้เขียนที่ไม่มีตัวตนจริง, ปีที่ผิด, หรือตั้งชื่อบทความต่างกัน ถูกพบอยู่
บางฉบับมี ความตรงกันกับบทความจริงบางส่วน แต่ข้อมูลเมตาดาต้ารายละเอียดถูกบิดเบือน
เป็นตัวอย่างที่ชี้ให้เห็นว่าปัญหา AI-generated hallucination กำลังขยายตัวอย่างต่อเนื่องแม้ในผลงานที่ส่งเข้าสู่แวดวงวิชาการ

ผลการตรวจจับ Hallucination ของ GPTZero ใน ICLR 2026

GPTZero ดำเนินการตรวจสอบอัตโนมัติ สำหรับการอ้างอิงและข้อมูลผู้เขียน ของบทความที่ส่งเข้าร่วม ICLR 2026
- บทความแต่ละชิ้นจะมีลิงก์ OpenReview, ลิงก์ตรวจสอบของ GPTZero และข้อมูลอ้างอิงอย่างครบถ้วน
- จากผลการตรวจสอบ พบว่ามีมากกว่า 50 ฉบับที่ตรวจพบ การอ้างอิงปลอมหรือผู้เขียนที่ไม่มีตัวตนจริง

กรณี Hallucination ที่เป็นตัวแทน

บทความ TamperTok มีอยู่จริง แต่ ข้อมูลผู้เขียนทั้งหมดผิดพลาด
บทความ MixtureVitae ตรงกับผู้เขียน 3 คนแรก แต่ ผู้เขียนที่เหลือ 7 คนไม่มีตัวตนจริง
OrtSAE, Principled Policy Optimization, IMPQ และอื่น ๆ มี ชื่อเรื่องหรือผู้เขียนไม่ตรงกับบทความจริง
PDMBench มีงานคล้ายกันจริง แต่ ปีที่เผยแพร่และชื่อเรื่องต่างกัน
C3-OWD, GRF-LLM และอื่น ๆ ถูกจัดอยู่ในหมวด ตรงกันบางส่วน

กรณีไม่ตรงกันทั้งหมด

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI และอื่น ๆ อ้างถึง บทความที่ไม่ปรากฏจริง
SAFE-LLM, Typed Chain-of-Thought, MANTA และอื่น ๆ มี งานคล้ายกันแต่ข้อมูลเมตาดาต้าไม่ตรงกัน
AI-Assisted Medical Triage Assistant, QUART, KARMA และอื่น ๆ อ้างถึง บทความที่ไม่เกี่ยวข้องเลย

วิธีการตรวจสอบและประเภทผลลัพธ์

GPTZero เปรียบเทียบการอ้างอิงแต่ละรายการกับฐานข้อมูลจริง (เช่น arXiv, NeurIPS, ICLR, ACL ฯลฯ)
- ผลลัพธ์จัดเป็น “มีอยู่”, “ตรงกันบางส่วน”, “ไม่ตรงกัน”, “ผู้เขียนปลอม” และอื่น ๆ
- มีบางรายการที่แสดงว่า มีบทความจริงแต่ผู้เขียน ปี และชื่อเรื่องต่างกันทั้งหมด

ความหมายและนัยสำคัญ

ในผลงานที่ส่งเข้าร่วม ICLR 2026 จำนวนมากยังมีการผสมปัญหา Hallucination ของเนื้อหาที่ AI สร้าง โดยตรง
ในขั้นตอนการเขียนบทความวิชาการ ความจำเป็นของ เครื่องมือตรวจสอบความถูกต้องข้อมูลอัตโนมัติ ถูกเน้นขึ้นอีกครั้ง
ผลการตรวจจับของ GPTZero แสดงให้เห็นความจำเป็นในการเสริมสร้างระบบตรวจสอบความน่าเชื่อถือของ เนื้อหาที่สร้างโดย AI

4 ความคิดเห็น

dbs0829 2025-12-08

ผมคิดมานานแล้วว่า LLM อาจกลายเป็นสิ่งที่ถ่วงความก้าวหน้าของมนุษยชาติแทนที่จะช่วยส่งเสริมมัน และในบริบทนั้น ปัญหาที่ผมเคยกังวลก็กำลังปรากฏขึ้นแล้ว การลดภาระทางความคิดสำหรับมนุษย์ดูจะคล้ายยาเสพติดอย่างหนึ่ง ผมเองก็ทำวิจัยเหมือนกัน และแม้แต่ในทีมก็เริ่มระวังกันว่าพอใช้โมเดล LLM มากขึ้นเรื่อย ๆ ก็เหมือนจะเกิดนิสัยไม่ค่อยคิดเอง ปัญหานี้คงจะยิ่งรุนแรงขึ้นต่อไป เพราะปริมาณงานจะพองตัวจนเกินกว่าที่ peer review จะรับมือได้ จึงน่าจะต้องหาวิธีอื่นกันแล้ว ช่วงหลังดูเหมือนจำนวนการส่งบทความไปยังงานประชุมชื่อดังต่าง ๆ เพิ่มขึ้นมาก และผมก็คิดว่าอาจเป็นเพราะเหตุผลคล้าย ๆ กัน

shakespeares 2025-12-09

เห็นด้วยครับ ถ้าเป็นแบบนี้ต่อไป ดูเหมือนว่าสมองของมนุษย์จะยิ่งหดเล็กลงเรื่อย ๆ
ท้ายที่สุดแล้ว สถานการณ์ที่ปัญญาประดิษฐ์เข้าครอบงำมนุษย์อาจกลายเป็นความคิดขั้นสูงที่สุดที่เราสามารถนึกถึงได้ในตอนนี้ ต่อจากนี้เราอาจไม่มีแม้แต่นวัตกรรมใหม่ที่จะไปถึงความคิดนั้นได้ และอาจเหลือเพียงช่วงการลู่เข้าจนกว่าจะถูก AI ควบคุมเท่านั้น

shakespeares 2025-12-09

ใน AI ที่มีระดับความรู้ใกล้เคียงกันแบบซ้ำๆ ยังจะมีพื้นที่ให้พัฒนาต่อไปได้อีกมากแค่ไหน?
ถ้าไม่เป็นเช่นนั้น ก็ดูเหมือนว่าโลกจะถูกปกคลุมไปด้วยเพียงงานเขียนที่เป็นการคัดลอกของมนุษย์โคลนแบบเดิมๆ และการคัดแยกของดีออกจากของด้อยท่ามกลางสิ่งเหล่านั้นก็คงจะยิ่งยากขึ้น

GN⁺ 2025-12-08

ความเห็นจาก Hacker News

ผมคิดว่านี่เป็น การประพฤติผิดทางวิชาชีพ อย่างชัดเจน
ถ้านักวิจัยของผมทำแบบนี้ ก็คงเสี่ยงถูกไล่ออก
ในฐานะผู้รีวิว ถ้าเห็นว่าผู้เขียนโกหก ก็จะไม่สามารถเชื่อถือทั้งบทความได้ และในเชิงจริยธรรมก็ควร reject ทันที
ความผิดพลาดเกิดขึ้นได้บ่อย แต่เรื่องนี้เป็นปัญหาคนละระดับ
- เรื่องนี้ดูเป็นประเด็นของ ความแตกต่างทางวัฒนธรรม ด้วย
  ในโลกตะวันตกมักมองว่า ความซื่อสัตย์ ของแต่ละคนคือสิ่งที่ค้ำจุนความน่าเชื่อถือของวงการวิชาการทั้งหมด แต่ในตะวันออกกลาง อินเดีย และจีน กลับมีแนวโน้มจะโยนความรับผิดชอบเรื่องแบบนี้ไปให้วารสาร
  ถ้าไม่เข้าใจความต่างนี้ การร่วมงานกันจะสับสนมาก
จากประสบการณ์ของผม ปัญหาหลักที่ทำให้คุณภาพงานวิจัยแย่ลงคือ การอ้างอิงผิด
ปัญหาที่ร้ายกว่าการไม่มีอ้างอิง คืออ้างแหล่งข้อมูลที่จริง ๆ แล้วไม่ได้พูดแบบนั้น หรือบิดเบือนบริบท
การหาข้อผิดพลาดแบบนี้ต้องอ่านและทำความเข้าใจต้นฉบับ จึงใช้เวลามหาศาล
เรื่องนี้ไม่ใช่แค่ความผิดพลาดเล็กน้อย แต่ก่อให้เกิด การผุกร่อนขององค์ความรู้ ดังนั้นจึงควรมีบทลงโทษแบบ ‘เตือน 3 ครั้งแล้วตัดออก’
- ในทางกลับกัน นี่อาจเป็นงานที่ LLM น่าจะทำได้ดี
  เช่น เอาข้ออ้างในบทความมาเทียบกับรายการอ้างอิง แล้วตรวจอัตโนมัติว่าอ้างอิงนั้นรองรับจริงหรือไม่
- แต่ก็มีนักวิจัยบางคนที่จงใจบิดเบือนผล เพื่อให้ถูกใจผู้ให้ทุน (Exxon, Meta, Pfizer ฯลฯ)
  กรณีแบบนี้ไม่ใช่ความสะเพร่า แต่เป็น การบิดเบือนตามผลประโยชน์ทับซ้อน
- การอ้างอิงปลอมเป็นแค่ส่วนยอดของภูเขาน้ำแข็ง และการใช้อ้างอิงอย่างผิด ๆ เป็นปัญหาที่เก่าแก่และร้ายแรงกว่ามาก
ผมคิดว่า ปัญหาไม่ใช่ AI แต่คือความขี้เกียจและความสะเพร่า
ถ้านักวิทยาศาสตร์ใช้ LLM เขียนบทความที่มีการอ้างอิงปลอม นั่นแปลว่าเขาเป็นนักวิทยาศาสตร์ที่แย่
ถ้าสังคมไม่ลงโทษพฤติกรรมแบบนี้ สุดท้ายมันก็จะถูกปล่อยผ่าน
- ผมเป็นช่างไฟฟ้าอุตสาหกรรม และงานไฟฟ้าที่แย่มักมีแต่ผู้เชี่ยวชาญเท่านั้นที่ดูออก
  การตรวจสอบทางเทคนิคจำเป็นต้องมี ผู้ตรวจที่มีความชำนาญ
- แต่คำว่า “AI ไม่ใช่ปัญหา” ฟังดูเหมือนตรรกะเลี่ยงประเด็นแบบ “ปัญหาไม่ใช่ปืน แต่เป็นคน” ในข้อถกเถียงเรื่องอาวุธปืน
  สุดท้ายแล้วผมมองว่า ตัว AI เองต่างหากคือปัญหา
- ถ้าจะต่ออุปมาเรื่องช่างไม้ ชั้นวางของที่ LLM สร้างขึ้นอาจดูเหมือนใช้ได้จากภายนอก แต่โครงสร้างจริงกลับไม่แข็งแรง
  และเพราะมันดูดีนี่เอง จึงยิ่งซ่อนปัญหาได้มากกว่าเดิม
- ผมเองก็ใช้ Gemini Pro หาเปเปอร์เหมือนกัน แต่การอ้างอิงก็ยังเละอยู่ดี
  อย่างน้อยในช่วง 1 ปีที่ผ่านมาอาการหลอนลดลง และถ้าจำกัดให้ค้นเฉพาะบทความที่ผ่านการตรวจสอบแล้วก็ถือว่าใช้งานได้พอสมควร
  แต่ถ้าไม่อยากให้นักวิจัยต้องพึ่งเครื่องมือแบบนี้ โครงสร้าง การแข่งขันขอทุนอย่างต่อเนื่อง ก็ต้องเปลี่ยนก่อน
- อย่างที่ Bruce Schneier พูดไว้ ใคร ๆ ก็สร้างอัลกอริทึมที่ตัวเองตรวจสอบไม่ได้
  LLM ก็เหมือนกัน มันแค่ส่งคำตอบที่ผู้ใช้ต้องการกลับมา และยิ่งเสริม อคติยืนยันความเชื่อเดิม
  ผมไม่คิดว่าจะมีวิธีใช้ LLM ในงานวิทยาศาสตร์อย่างปลอดภัยได้
ถ้าไปอ่านบทความเหล่านั้นจริง ๆ จะพบว่าปัญหาไม่ใช่แค่ AI เป็นคนเขียน แต่หลายกรณี แม้แต่ไอเดียก็สร้างโดย AI
ภายนอกดูเหมือนมีเหตุผล แต่เนื้อหาจริงกลับเพ้อฝันไร้สาระ
ถ้ามีนักวิจัยตัวจริงคนไหนถูกจัดเข้ากลุ่มนี้เพียงเพราะข้อผิดพลาดเล็ก ๆ ในไฟล์ .bib ก็น่าเสียดายมาก
Avi Loeb (นักฟิสิกส์ทฤษฎีจากฮาร์วาร์ด) บอกว่ากรณีนักศึกษาที่อ้างอิงงานวิจัยที่ไม่มีอยู่จริงเพิ่มขึ้นอย่างมาก
พวกเขาเชื่อเรื่องแต่งที่ LLM สร้างขึ้นมาโดยตรง และไม่แม้แต่จะตรวจสอบ
บทความที่เกี่ยวข้อง: How AI is making us dumber
- แต่ Loeb เองก็เป็นคนที่ขึ้นชื่อเรื่อง การอ้างว่า UFO มีอยู่จริง ด้วย จึงมีข้อถกเถียงเรื่องความน่าเชื่อถือ
- บางคนมองว่าเขาเป็น บุคคลที่ไม่น่าเชื่อถือ
- ผมคิดว่าปรากฏการณ์นี้มีรากมาจาก วัฒนธรรมการหลีกเลี่ยงความรับผิดชอบ ของผู้นำ
  การที่คนข้างบนทำตัวเป็นตัวอย่างที่ผิด แล้วหันมาดุลูกน้องทีหลัง คือการสอนที่แย่มาก
ผมสงสัยว่างานวิจัยนี้นับการอ้างอิงผิดทั้งหมดเป็นอาการหลอนของ LLM หรือไม่
จำเป็นต้องมี การวิเคราะห์ baseline ด้วยว่าในยุคก่อน LLM บทความก็มีข้อผิดพลาดแบบนี้อยู่แล้วหรือเปล่า
- ในบทความมีส่วน ‘Defining Hallucitations’ ที่อธิบายคำนิยามของการอ้างอิงเท็จและปัญหา false positive
  ผมอยากรู้ว่าถ้าเอาเครื่องมือเดียวกันไปใช้กับงานวิจัยยุค 2010s จะได้ผลแบบไหน
- ตอนเรียนปริญญาโทผมเองก็เคยมีข้อผิดพลาดเล็ก ๆ ในไฟล์ .bib
  วารสารส่วนใหญ่ตรวจสอบการอ้างอิงจาก DOI อยู่แล้ว ดังนั้นจึงควรเอางานเก่ามาเปรียบเทียบวิเคราะห์ด้วย
- ถ้าไปดูบทความที่เผยแพร่ออกมาจริง ๆ จะเห็น ร่องรอยที่สร้างโดย AI ชัดมาก
  แค่โยนหัวข้อให้ LLM มันก็สามารถปั้นงานที่คล้ายกันออกมาได้แล้ว
- จริง ๆ แล้วก่อนยุค LLM คนก็ทำพลาดอยู่แล้ว และทั้งหนังสือกับงานวิจัยก็มีข้อผิดพลาดมากมาย
  ต้นเหตุคือ ระบบความรู้ของมนุษย์ที่ไม่สมบูรณ์ ไม่ใช่ปัญหาเฉพาะของ LLM เท่านั้น
- สรุปคือ เครื่องมือของพวกเขากำลังทำการตรวจสอบแบบนี้อยู่
จุดประสงค์ของ peer review ไม่ใช่แค่ตรวจหาความผิดพลาด แต่คือการประเมิน ความใหม่และความสมบูรณ์
ถ้าอย่างนั้นก็ควรมีแรงจูงใจเพื่อป้องกันความสะเพร่า
เช่น สำนักพิมพ์อาจตั้ง ระบบเงินรางวัล ให้คนที่พบความสะเพร่าร้ายแรงได้รับรางวัล หรือ
ทำ Wall of Shame เปิดเผยรายชื่อนักวิจัยที่สะเพร่าซ้ำ ๆ ก็ได้
- หรืออาจนำระบบตรวจอ้างอิงอัตโนมัติมาใช้ตอนส่งบทความ แล้วแจ้งข้อผิดพลาดภายในหนึ่งหรือสองวันก็น่าจะดี
ผมใช้เครื่องมือจัดการบรรณานุกรมอย่าง Zotero มาตั้งแต่ 15 ปีก่อน แต่ก็ยังน่าตกใจที่ทุกวันนี้ยังมีการอ้างอิงที่ใส่ชื่อผู้เขียนผิดอยู่มาก
ถ้าบังคับส่งไฟล์ .bib ก็น่าจะทำ quality control ขั้นพื้นฐานผ่านการตรวจ DOI ได้
เรื่องที่แม้แต่การตรวจสอบพื้นฐานแบบนี้ก็ยังไม่ทำ ทำให้ผมช็อกมาก
- แต่ Zotero เองก็ไม่ได้สมบูรณ์แบบ
  บางครั้งผู้เขียนก็อ้างงานของตัวเองผิด และแม้ DOI จะถูกต้องก็ยังมี การสะกดชื่อผู้เขียนผิด บ่อยมาก
  เครื่องมือช่วยให้จำนวนการอ้างอิงเพิ่มขึ้นและลดอัตราความผิดพลาดลง แต่ก็ยังแทบจะเหลือข้อผิดพลาดอย่างน้อยหนึ่งจุดต่อหนึ่งบทความอยู่ดี
จากงานส่งเข้ากว่า 20,000 ชิ้น ตรวจไปแค่ 300 ชิ้นก็พบ บทความหลอน ไปแล้วหลายร้อยกรณี ขนาดจริงน่าจะใหญ่กว่านี้มาก
- การประชุมหนึ่งงานมีบทความส่งถึง 20,000 ชิ้นนี่เองก็เป็น ขนาดที่ผิดปกติ แล้ว
อาการหลอนของ LLM เป็นคุณสมบัติที่เกิดจากการออกแบบ
ในกระบวนการสร้างผลลัพธ์ที่น่าจะเป็นไปได้ทางสถิติ จึงเกิด การอ้างอิงปลอม ขึ้นได้ตามธรรมชาติ
แต่ในทางเทคนิค เครื่องจักรสามารถสร้างการอ้างอิงที่ถูกต้องจริงได้
เพียงแต่ LLM ในปัจจุบันไม่ได้ถูกทำมาเพื่อ ‘สร้างการอ้างอิงที่แม่นยำ’ แต่ให้ ผลลัพธ์ที่แค่หน้าตาคล้ายของจริง เท่านั้น