3 คะแนน โดย GN⁺ 2025-12-08 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPTZero ตรวจพบ ข้อผิดพลาดการอ้างอิงและข้อมูลผู้เขียนเท็จมากกว่า 50 รายการ ในบทความที่ส่งเข้าร่วม ICLR 2026
  • แต่ละบทความได้รับการตรวจสอบ การมีอยู่จริง และ ความตรงกันของการอ้างอิง ร่วมกับลิงก์ OpenReview
  • ในหลายกรณีพบว่า ผู้เขียนที่ไม่มีตัวตนจริง, ปีที่ผิด, หรือตั้งชื่อบทความต่างกัน ถูกพบอยู่
  • บางฉบับมี ความตรงกันกับบทความจริงบางส่วน แต่ข้อมูลเมตาดาต้ารายละเอียดถูกบิดเบือน
  • เป็นตัวอย่างที่ชี้ให้เห็นว่าปัญหา AI-generated hallucination กำลังขยายตัวอย่างต่อเนื่องแม้ในผลงานที่ส่งเข้าสู่แวดวงวิชาการ

ผลการตรวจจับ Hallucination ของ GPTZero ใน ICLR 2026

  • GPTZero ดำเนินการตรวจสอบอัตโนมัติ สำหรับการอ้างอิงและข้อมูลผู้เขียน ของบทความที่ส่งเข้าร่วม ICLR 2026
    • บทความแต่ละชิ้นจะมีลิงก์ OpenReview, ลิงก์ตรวจสอบของ GPTZero และข้อมูลอ้างอิงอย่างครบถ้วน
    • จากผลการตรวจสอบ พบว่ามีมากกว่า 50 ฉบับที่ตรวจพบ การอ้างอิงปลอมหรือผู้เขียนที่ไม่มีตัวตนจริง

กรณี Hallucination ที่เป็นตัวแทน

  • บทความ TamperTok มีอยู่จริง แต่ ข้อมูลผู้เขียนทั้งหมดผิดพลาด
  • บทความ MixtureVitae ตรงกับผู้เขียน 3 คนแรก แต่ ผู้เขียนที่เหลือ 7 คนไม่มีตัวตนจริง
  • OrtSAE, Principled Policy Optimization, IMPQ และอื่น ๆ มี ชื่อเรื่องหรือผู้เขียนไม่ตรงกับบทความจริง
  • PDMBench มีงานคล้ายกันจริง แต่ ปีที่เผยแพร่และชื่อเรื่องต่างกัน
  • C3-OWD, GRF-LLM และอื่น ๆ ถูกจัดอยู่ในหมวด ตรงกันบางส่วน

กรณีไม่ตรงกันทั้งหมด

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI และอื่น ๆ อ้างถึง บทความที่ไม่ปรากฏจริง
  • SAFE-LLM, Typed Chain-of-Thought, MANTA และอื่น ๆ มี งานคล้ายกันแต่ข้อมูลเมตาดาต้าไม่ตรงกัน
  • AI-Assisted Medical Triage Assistant, QUART, KARMA และอื่น ๆ อ้างถึง บทความที่ไม่เกี่ยวข้องเลย

วิธีการตรวจสอบและประเภทผลลัพธ์

  • GPTZero เปรียบเทียบการอ้างอิงแต่ละรายการกับฐานข้อมูลจริง (เช่น arXiv, NeurIPS, ICLR, ACL ฯลฯ)
    • ผลลัพธ์จัดเป็น “มีอยู่”, “ตรงกันบางส่วน”, “ไม่ตรงกัน”, “ผู้เขียนปลอม” และอื่น ๆ
    • มีบางรายการที่แสดงว่า มีบทความจริงแต่ผู้เขียน ปี และชื่อเรื่องต่างกันทั้งหมด

ความหมายและนัยสำคัญ

  • ในผลงานที่ส่งเข้าร่วม ICLR 2026 จำนวนมากยังมีการผสมปัญหา Hallucination ของเนื้อหาที่ AI สร้าง โดยตรง
  • ในขั้นตอนการเขียนบทความวิชาการ ความจำเป็นของ เครื่องมือตรวจสอบความถูกต้องข้อมูลอัตโนมัติ ถูกเน้นขึ้นอีกครั้ง
  • ผลการตรวจจับของ GPTZero แสดงให้เห็นความจำเป็นในการเสริมสร้างระบบตรวจสอบความน่าเชื่อถือของ เนื้อหาที่สร้างโดย AI

4 ความคิดเห็น

 
dbs0829 2025-12-08

ผมคิดมานานแล้วว่า LLM อาจกลายเป็นสิ่งที่ถ่วงความก้าวหน้าของมนุษยชาติแทนที่จะช่วยส่งเสริมมัน และในบริบทนั้น ปัญหาที่ผมเคยกังวลก็กำลังปรากฏขึ้นแล้ว การลดภาระทางความคิดสำหรับมนุษย์ดูจะคล้ายยาเสพติดอย่างหนึ่ง ผมเองก็ทำวิจัยเหมือนกัน และแม้แต่ในทีมก็เริ่มระวังกันว่าพอใช้โมเดล LLM มากขึ้นเรื่อย ๆ ก็เหมือนจะเกิดนิสัยไม่ค่อยคิดเอง ปัญหานี้คงจะยิ่งรุนแรงขึ้นต่อไป เพราะปริมาณงานจะพองตัวจนเกินกว่าที่ peer review จะรับมือได้ จึงน่าจะต้องหาวิธีอื่นกันแล้ว ช่วงหลังดูเหมือนจำนวนการส่งบทความไปยังงานประชุมชื่อดังต่าง ๆ เพิ่มขึ้นมาก และผมก็คิดว่าอาจเป็นเพราะเหตุผลคล้าย ๆ กัน

 
shakespeares 2025-12-09

เห็นด้วยครับ ถ้าเป็นแบบนี้ต่อไป ดูเหมือนว่าสมองของมนุษย์จะยิ่งหดเล็กลงเรื่อย ๆ
ท้ายที่สุดแล้ว สถานการณ์ที่ปัญญาประดิษฐ์เข้าครอบงำมนุษย์อาจกลายเป็นความคิดขั้นสูงที่สุดที่เราสามารถนึกถึงได้ในตอนนี้ ต่อจากนี้เราอาจไม่มีแม้แต่นวัตกรรมใหม่ที่จะไปถึงความคิดนั้นได้ และอาจเหลือเพียงช่วงการลู่เข้าจนกว่าจะถูก AI ควบคุมเท่านั้น

 
shakespeares 2025-12-09

ใน AI ที่มีระดับความรู้ใกล้เคียงกันแบบซ้ำๆ ยังจะมีพื้นที่ให้พัฒนาต่อไปได้อีกมากแค่ไหน?
ถ้าไม่เป็นเช่นนั้น ก็ดูเหมือนว่าโลกจะถูกปกคลุมไปด้วยเพียงงานเขียนที่เป็นการคัดลอกของมนุษย์โคลนแบบเดิมๆ และการคัดแยกของดีออกจากของด้อยท่ามกลางสิ่งเหล่านั้นก็คงจะยิ่งยากขึ้น

 
GN⁺ 2025-12-08
ความเห็นจาก Hacker News
  • ผมคิดว่านี่เป็น การประพฤติผิดทางวิชาชีพ อย่างชัดเจน
    ถ้านักวิจัยของผมทำแบบนี้ ก็คงเสี่ยงถูกไล่ออก
    ในฐานะผู้รีวิว ถ้าเห็นว่าผู้เขียนโกหก ก็จะไม่สามารถเชื่อถือทั้งบทความได้ และในเชิงจริยธรรมก็ควร reject ทันที
    ความผิดพลาดเกิดขึ้นได้บ่อย แต่เรื่องนี้เป็นปัญหาคนละระดับ

    • เรื่องนี้ดูเป็นประเด็นของ ความแตกต่างทางวัฒนธรรม ด้วย
      ในโลกตะวันตกมักมองว่า ความซื่อสัตย์ ของแต่ละคนคือสิ่งที่ค้ำจุนความน่าเชื่อถือของวงการวิชาการทั้งหมด แต่ในตะวันออกกลาง อินเดีย และจีน กลับมีแนวโน้มจะโยนความรับผิดชอบเรื่องแบบนี้ไปให้วารสาร
      ถ้าไม่เข้าใจความต่างนี้ การร่วมงานกันจะสับสนมาก
  • จากประสบการณ์ของผม ปัญหาหลักที่ทำให้คุณภาพงานวิจัยแย่ลงคือ การอ้างอิงผิด
    ปัญหาที่ร้ายกว่าการไม่มีอ้างอิง คืออ้างแหล่งข้อมูลที่จริง ๆ แล้วไม่ได้พูดแบบนั้น หรือบิดเบือนบริบท
    การหาข้อผิดพลาดแบบนี้ต้องอ่านและทำความเข้าใจต้นฉบับ จึงใช้เวลามหาศาล
    เรื่องนี้ไม่ใช่แค่ความผิดพลาดเล็กน้อย แต่ก่อให้เกิด การผุกร่อนขององค์ความรู้ ดังนั้นจึงควรมีบทลงโทษแบบ ‘เตือน 3 ครั้งแล้วตัดออก’

    • ในทางกลับกัน นี่อาจเป็นงานที่ LLM น่าจะทำได้ดี
      เช่น เอาข้ออ้างในบทความมาเทียบกับรายการอ้างอิง แล้วตรวจอัตโนมัติว่าอ้างอิงนั้นรองรับจริงหรือไม่
    • แต่ก็มีนักวิจัยบางคนที่จงใจบิดเบือนผล เพื่อให้ถูกใจผู้ให้ทุน (Exxon, Meta, Pfizer ฯลฯ)
      กรณีแบบนี้ไม่ใช่ความสะเพร่า แต่เป็น การบิดเบือนตามผลประโยชน์ทับซ้อน
    • การอ้างอิงปลอมเป็นแค่ส่วนยอดของภูเขาน้ำแข็ง และการใช้อ้างอิงอย่างผิด ๆ เป็นปัญหาที่เก่าแก่และร้ายแรงกว่ามาก
  • ผมคิดว่า ปัญหาไม่ใช่ AI แต่คือความขี้เกียจและความสะเพร่า
    ถ้านักวิทยาศาสตร์ใช้ LLM เขียนบทความที่มีการอ้างอิงปลอม นั่นแปลว่าเขาเป็นนักวิทยาศาสตร์ที่แย่
    ถ้าสังคมไม่ลงโทษพฤติกรรมแบบนี้ สุดท้ายมันก็จะถูกปล่อยผ่าน

    • ผมเป็นช่างไฟฟ้าอุตสาหกรรม และงานไฟฟ้าที่แย่มักมีแต่ผู้เชี่ยวชาญเท่านั้นที่ดูออก
      การตรวจสอบทางเทคนิคจำเป็นต้องมี ผู้ตรวจที่มีความชำนาญ
    • แต่คำว่า “AI ไม่ใช่ปัญหา” ฟังดูเหมือนตรรกะเลี่ยงประเด็นแบบ “ปัญหาไม่ใช่ปืน แต่เป็นคน” ในข้อถกเถียงเรื่องอาวุธปืน
      สุดท้ายแล้วผมมองว่า ตัว AI เองต่างหากคือปัญหา
    • ถ้าจะต่ออุปมาเรื่องช่างไม้ ชั้นวางของที่ LLM สร้างขึ้นอาจดูเหมือนใช้ได้จากภายนอก แต่โครงสร้างจริงกลับไม่แข็งแรง
      และเพราะมันดูดีนี่เอง จึงยิ่งซ่อนปัญหาได้มากกว่าเดิม
    • ผมเองก็ใช้ Gemini Pro หาเปเปอร์เหมือนกัน แต่การอ้างอิงก็ยังเละอยู่ดี
      อย่างน้อยในช่วง 1 ปีที่ผ่านมาอาการหลอนลดลง และถ้าจำกัดให้ค้นเฉพาะบทความที่ผ่านการตรวจสอบแล้วก็ถือว่าใช้งานได้พอสมควร
      แต่ถ้าไม่อยากให้นักวิจัยต้องพึ่งเครื่องมือแบบนี้ โครงสร้าง การแข่งขันขอทุนอย่างต่อเนื่อง ก็ต้องเปลี่ยนก่อน
    • อย่างที่ Bruce Schneier พูดไว้ ใคร ๆ ก็สร้างอัลกอริทึมที่ตัวเองตรวจสอบไม่ได้
      LLM ก็เหมือนกัน มันแค่ส่งคำตอบที่ผู้ใช้ต้องการกลับมา และยิ่งเสริม อคติยืนยันความเชื่อเดิม
      ผมไม่คิดว่าจะมีวิธีใช้ LLM ในงานวิทยาศาสตร์อย่างปลอดภัยได้
  • ถ้าไปอ่านบทความเหล่านั้นจริง ๆ จะพบว่าปัญหาไม่ใช่แค่ AI เป็นคนเขียน แต่หลายกรณี แม้แต่ไอเดียก็สร้างโดย AI
    ภายนอกดูเหมือนมีเหตุผล แต่เนื้อหาจริงกลับเพ้อฝันไร้สาระ
    ถ้ามีนักวิจัยตัวจริงคนไหนถูกจัดเข้ากลุ่มนี้เพียงเพราะข้อผิดพลาดเล็ก ๆ ในไฟล์ .bib ก็น่าเสียดายมาก

  • Avi Loeb (นักฟิสิกส์ทฤษฎีจากฮาร์วาร์ด) บอกว่ากรณีนักศึกษาที่อ้างอิงงานวิจัยที่ไม่มีอยู่จริงเพิ่มขึ้นอย่างมาก
    พวกเขาเชื่อเรื่องแต่งที่ LLM สร้างขึ้นมาโดยตรง และไม่แม้แต่จะตรวจสอบ
    บทความที่เกี่ยวข้อง: How AI is making us dumber

    • แต่ Loeb เองก็เป็นคนที่ขึ้นชื่อเรื่อง การอ้างว่า UFO มีอยู่จริง ด้วย จึงมีข้อถกเถียงเรื่องความน่าเชื่อถือ
    • บางคนมองว่าเขาเป็น บุคคลที่ไม่น่าเชื่อถือ
    • ผมคิดว่าปรากฏการณ์นี้มีรากมาจาก วัฒนธรรมการหลีกเลี่ยงความรับผิดชอบ ของผู้นำ
      การที่คนข้างบนทำตัวเป็นตัวอย่างที่ผิด แล้วหันมาดุลูกน้องทีหลัง คือการสอนที่แย่มาก
  • ผมสงสัยว่างานวิจัยนี้นับการอ้างอิงผิดทั้งหมดเป็นอาการหลอนของ LLM หรือไม่
    จำเป็นต้องมี การวิเคราะห์ baseline ด้วยว่าในยุคก่อน LLM บทความก็มีข้อผิดพลาดแบบนี้อยู่แล้วหรือเปล่า

    • ในบทความมีส่วน ‘Defining Hallucitations’ ที่อธิบายคำนิยามของการอ้างอิงเท็จและปัญหา false positive
      ผมอยากรู้ว่าถ้าเอาเครื่องมือเดียวกันไปใช้กับงานวิจัยยุค 2010s จะได้ผลแบบไหน
    • ตอนเรียนปริญญาโทผมเองก็เคยมีข้อผิดพลาดเล็ก ๆ ในไฟล์ .bib
      วารสารส่วนใหญ่ตรวจสอบการอ้างอิงจาก DOI อยู่แล้ว ดังนั้นจึงควรเอางานเก่ามาเปรียบเทียบวิเคราะห์ด้วย
    • ถ้าไปดูบทความที่เผยแพร่ออกมาจริง ๆ จะเห็น ร่องรอยที่สร้างโดย AI ชัดมาก
      แค่โยนหัวข้อให้ LLM มันก็สามารถปั้นงานที่คล้ายกันออกมาได้แล้ว
    • จริง ๆ แล้วก่อนยุค LLM คนก็ทำพลาดอยู่แล้ว และทั้งหนังสือกับงานวิจัยก็มีข้อผิดพลาดมากมาย
      ต้นเหตุคือ ระบบความรู้ของมนุษย์ที่ไม่สมบูรณ์ ไม่ใช่ปัญหาเฉพาะของ LLM เท่านั้น
    • สรุปคือ เครื่องมือของพวกเขากำลังทำการตรวจสอบแบบนี้อยู่
  • จุดประสงค์ของ peer review ไม่ใช่แค่ตรวจหาความผิดพลาด แต่คือการประเมิน ความใหม่และความสมบูรณ์
    ถ้าอย่างนั้นก็ควรมีแรงจูงใจเพื่อป้องกันความสะเพร่า
    เช่น สำนักพิมพ์อาจตั้ง ระบบเงินรางวัล ให้คนที่พบความสะเพร่าร้ายแรงได้รับรางวัล หรือ
    ทำ Wall of Shame เปิดเผยรายชื่อนักวิจัยที่สะเพร่าซ้ำ ๆ ก็ได้

    • หรืออาจนำระบบตรวจอ้างอิงอัตโนมัติมาใช้ตอนส่งบทความ แล้วแจ้งข้อผิดพลาดภายในหนึ่งหรือสองวันก็น่าจะดี
  • ผมใช้เครื่องมือจัดการบรรณานุกรมอย่าง Zotero มาตั้งแต่ 15 ปีก่อน แต่ก็ยังน่าตกใจที่ทุกวันนี้ยังมีการอ้างอิงที่ใส่ชื่อผู้เขียนผิดอยู่มาก
    ถ้าบังคับส่งไฟล์ .bib ก็น่าจะทำ quality control ขั้นพื้นฐานผ่านการตรวจ DOI ได้
    เรื่องที่แม้แต่การตรวจสอบพื้นฐานแบบนี้ก็ยังไม่ทำ ทำให้ผมช็อกมาก

    • แต่ Zotero เองก็ไม่ได้สมบูรณ์แบบ
      บางครั้งผู้เขียนก็อ้างงานของตัวเองผิด และแม้ DOI จะถูกต้องก็ยังมี การสะกดชื่อผู้เขียนผิด บ่อยมาก
      เครื่องมือช่วยให้จำนวนการอ้างอิงเพิ่มขึ้นและลดอัตราความผิดพลาดลง แต่ก็ยังแทบจะเหลือข้อผิดพลาดอย่างน้อยหนึ่งจุดต่อหนึ่งบทความอยู่ดี
  • จากงานส่งเข้ากว่า 20,000 ชิ้น ตรวจไปแค่ 300 ชิ้นก็พบ บทความหลอน ไปแล้วหลายร้อยกรณี ขนาดจริงน่าจะใหญ่กว่านี้มาก

    • การประชุมหนึ่งงานมีบทความส่งถึง 20,000 ชิ้นนี่เองก็เป็น ขนาดที่ผิดปกติ แล้ว
  • อาการหลอนของ LLM เป็นคุณสมบัติที่เกิดจากการออกแบบ
    ในกระบวนการสร้างผลลัพธ์ที่น่าจะเป็นไปได้ทางสถิติ จึงเกิด การอ้างอิงปลอม ขึ้นได้ตามธรรมชาติ
    แต่ในทางเทคนิค เครื่องจักรสามารถสร้างการอ้างอิงที่ถูกต้องจริงได้
    เพียงแต่ LLM ในปัจจุบันไม่ได้ถูกทำมาเพื่อ ‘สร้างการอ้างอิงที่แม่นยำ’ แต่ให้ ผลลัพธ์ที่แค่หน้าตาคล้ายของจริง เท่านั้น