- หมวด วิทยาการคอมพิวเตอร์ (CS) ของ arXiv ได้นำ แนวปฏิบัติการพิจารณาใหม่ สำหรับบทความรีวิว (survey) และบทความแสดงจุดยืนมาใช้
- จากนี้บทความประเภทดังกล่าวจะสามารถส่งเข้า arXiv ได้ ก็ต่อเมื่อผ่านการประเมินโดยผู้ทรงคุณวุฒิ (peer review) และได้รับการตอบรับจากวารสารหรือการประชุมวิชาการแล้วเท่านั้น
- ขณะส่งต้องแนบ เอกสารยืนยันว่าผ่านการประเมินโดยผู้ทรงคุณวุฒิสำเร็จแล้ว (เช่น ข้อมูลอ้างอิงวารสาร, DOI metadata) มาด้วยเสมอ
- งานส่งที่ไม่มีเอกสารยืนยันมีโอกาสสูงที่จะถูกปฏิเสธ ซึ่งเป็นมาตรการเพื่อตอบสนองต่อ การหลั่งไหลเข้ามาของบทความจำนวนมากเกินไปจาก generative AI ในช่วงหลัง
- arXiv มีเป้าหมายจากการเปลี่ยนแปลงนี้เพื่อ แบ่งปันเฉพาะบทความทบทวนคุณภาพสูง และมุ่งเน้นการเผยแพร่งานวิจัยหลัก
ข้อกำหนดการส่งที่เปลี่ยนไป
- บทความรีวิวและบทความแสดงจุดยืนจะส่งเข้า arXiv ได้ หลังจากได้รับการตอบรับจากวารสารหรือการประชุมวิชาการและผ่าน peer review แล้วเท่านั้น
- ขณะส่งต้องแนบ เอกสารหลักฐานการผ่าน peer review สำเร็จ มาด้วย
- หากไม่มีหลักฐาน มีโอกาสสูงที่จะถูกปฏิเสธ
- การพิจารณาระดับเวิร์กช็อป ไม่นับเป็นการประเมินแบบ peer review ตามความหมายดั้งเดิม และไม่เข้าเกณฑ์ข้อกำหนดการส่ง
เบื้องหลังเชิงนโยบาย
- ตามนโยบายทางการของ arXiv บทความรีวิวและบทความแสดงจุดยืน ไม่ใช่ประเภทเนื้อหาที่อนุญาตอย่างเป็นทางการ
- ในอดีตมีเพียง บทความคุณภาพสูงจำนวนไม่มาก เท่านั้นที่ถูกรับเข้าโดย ดุลยพินิจของผู้ดูแลหมวด
- ช่วงหลังการแพร่หลายของ generative AI และโมเดลภาษาขนาดใหญ่ (LLM) ทำให้ บทความรีวิวคุณภาพต่ำเพิ่มขึ้นอย่างรวดเร็ว
- ส่วนใหญ่เป็นเพียงการเรียงรายการบรรณานุกรม และ ขาดการอภิปรายวิจัยใหม่
- ในสถานการณ์เช่นนี้ ภาระการตรวจของผู้ดูแลหมวดเพิ่มสูงเกินไป และเริ่มกระทบต่อ เป้าหมายหลักของ arXiv (การแบ่งปันบทความวิจัย)
เป้าหมายของการเปลี่ยนแปลง
- สนับสนุนให้ค้นพบบน arXiv ได้ง่ายเฉพาะ บทความรีวิวและบทความแสดงจุดยืนที่มีคุณค่าและเขียนโดยผู้เชี่ยวชาญ
- ลดภาระงานของผู้ดูแลหมวด และ มุ่งเน้นกับการพิจารณาประเภทเนื้อหาอย่างเป็นทางการ
- รักษาเป้าหมายหลักของ arXiv ในการ ส่งเสริมการค้นพบทางวิทยาศาสตร์อย่างรวดเร็วและเสรี
ความแตกต่างระหว่างอดีตกับปัจจุบัน
- ในอดีตบทความรีวิวมักเขียนขึ้นตามคำขอของ นักวิจัยที่มีชื่อเสียงจำนวนไม่มาก หรือ องค์กรทางการ (เช่น Annual Reviews, IEEE, Computing Surveys) จึงมีคุณภาพสูง
- บทความแสดงจุดยืนส่วนใหญ่ก็จัดทำโดย การประชุมวิชาการหรือหน่วยงานวิจัยภาครัฐ (เช่น Computing Research Association, National Academies)
- ปัจจุบันมี บทความรีวิวถูกส่งเข้ามาหลายร้อยฉบับต่อเดือน และไปถึงระดับที่ ควบคุมคุณภาพได้ยาก
การใช้หน่วยงานประเมินภายนอก
- arXiv ไม่มีบุคลากรและทรัพยากรเพียงพอที่จะทำการตรวจสอบคุณภาพด้วยตนเอง
- จึงเลือกยอมรับการตรวจสอบจาก หน่วยงานประเมินภายนอกที่น่าเชื่อถือ (การประชุมวิชาการ·วารสาร) แทน
- หน่วยงานเหล่านี้ทำการทบทวนเชิงลึกในประเด็น ความเป็นส่วนตัว จริยธรรม ความปลอดภัย และความมั่นคง ที่เกี่ยวข้องกับ AI
- ด้วยวิธีนี้ arXiv จึงสามารถ เผยแพร่เฉพาะบทความที่มีการรับประกันคุณภาพแล้ว
การส่งใหม่และข้อยกเว้น
- บทความที่ถูกปฏิเสธเพราะยังไม่ผ่าน peer review ครบถ้วน สามารถส่งใหม่ได้ผ่านกระบวนการ อุทธรณ์ (appeal) หากต่อมาผ่านการประเมินครบแล้ว
- อย่างไรก็ตาม จะไม่สามารถส่งใหม่ได้หากไม่มีการอุทธรณ์ที่ได้รับอนุมัติ
- บทความวิจัย ที่ว่าด้วย ผลกระทบทางสังคมของวิทยาศาสตร์และเทคโนโลยี (เช่น cs.CY, physics.soc-ph) ไม่อยู่ภายใต้การเปลี่ยนแปลงครั้งนี้
ความเป็นไปได้ที่จะขยายไปยังหมวดอื่น
- แต่ละหมวดของ arXiv ดำเนินการอย่างอิสระโดย ผู้ดูแลหมวดที่เป็นผู้เชี่ยวชาญ
- แม้ทุกหมวดจะใช้นโยบายเดียวกัน แต่ บทความรีวิวโดยพื้นฐานแล้วยังเป็นประเภทเนื้อหาที่ไม่เป็นทางการ
- หากในสาขาอื่นเกิดการเพิ่มขึ้นอย่างรวดเร็วของบทความที่อาศัย LLM เช่นกัน ก็อาจมีการนำ มาตรการเข้มงวดด้านการพิจารณาในลักษณะคล้ายกัน มาใช้
- หากมีการเปลี่ยนแปลงดังกล่าว จะมี การประกาศอย่างเป็นทางการ
1 ความคิดเห็น
ความเห็นจาก Hacker News
มีการชี้ให้เห็นว่าโครงสร้างที่ให้รางวัลตาม ปริมาณ ที่ผู้คนสร้างขึ้นนั้นเป็นปัญหา
หากให้อินเซนทีฟแก่นักวิจัยตามจำนวนบทความ พวกเขาก็จะ เล่นกับระบบ ด้วยการผลิตบทความให้ได้มากที่สุดด้วยคุณภาพขั้นต่ำ
ระบบให้รางวัลตามยอดเข้าชมหรือตามจำนวนการแสดงโฆษณาก็ทำให้เกิดพฤติกรรมบิดเบือนแบบเดียวกัน
สุดท้ายแล้วโลกออนไลน์ก็เป็นระบบที่ถูกออกแบบมาเพื่อ เพิ่มประสิทธิภาพให้อัลกอริทึม ไม่ใช่เพื่อมนุษย์
ในซานฟรานซิสโก จำนวนเงินสนับสนุนที่ NGO ได้รับถูกกำหนดตาม ‘จำนวนคนไร้บ้านที่ช่วยเหลือ’ ส่งผลให้เกิดแรงจูงใจในการคงจำนวนคนไร้บ้านไว้ แทนที่จะลดจำนวนลง
ปัญหาคือ มนุษย์และระบบแรงจูงใจ ไม่ใช่ตัวเครื่องมือเอง
วัฒนธรรมที่วัดผลงานด้วย ตัวชี้วัดไร้ความหมาย อย่างจำนวนบรรทัดโค้ดหรือจำนวนคอมมิตนั้นผิดเพี้ยนอยู่แล้ว
ดูเหมือนว่าเรากำลังอาศัยอยู่ใน ‘นรกของ Goodhart’ — โลกที่การปั่นตัวชี้วัดกลายเป็นเป้าหมายไปแล้ว
แม้จะพูดแบบติดตลก แต่ก็เป็นการเสียดสีความจริงขององค์กรที่การบริหารแบบยึดตัวชี้วัดเป็นศูนย์กลางนำไปสู่เหตุขัดข้องครั้งใหญ่ในที่สุด
ตั้งคำถามว่าโลกออนไลน์ที่ยึดมนุษย์เป็นศูนย์กลางควรเป็นแบบไหน และผู้สร้างคอนเทนต์ควรได้รับผลตอบแทนอย่างไร
โดยเน้นว่าสิ่งสำคัญจริง ๆ ไม่ใช่จำนวนบทความ แต่คือ การได้ทุนวิจัยและคุณภาพของข้อเสนอโครงการ
มีความเข้าใจผิดว่า arXiv จะไม่รับ preprint (บทความวิจัยที่เผยแพร่ก่อนการพิจารณา) อีกต่อไป
ความจริงคือมีการเปลี่ยนให้เฉพาะ ‘บทความรีวิว’ และ ‘position paper’ เท่านั้นที่ส่งได้ หลังผ่านการพิจารณาจากวารสารหรือการประชุมวิชาการแล้ว
มีข้อเสนอให้ arXiv นำ ระบบชื่อเสียง มาใช้
แนวคิดคือให้ผู้เขียนอัปโหลดคีย์ PGP แบบสาธารณะร่วมด้วย เพื่อสร้างเครือข่ายความน่าเชื่อถือ
ซึ่งอาจเปิดกว้างน้อยกว่าวารสารแบบเดิม แต่ก็เป็นระเบียบมากกว่าการเปิดเสรีทั้งหมด
มีการชี้ปัญหา การควบคุมคุณภาพ ของ arXiv
แค่ในเดือนตุลาคมก็มีการส่งบทความ 26,000 ชิ้น(ลิงก์สถิติ) และมีบทความที่ไม่ผ่านการตรวจสอบจำนวนมาก
มีข้อเสนอว่าการเก็บค่าส่งเพียงเล็กน้อยอาจช่วยลดสแปมได้
มีการชี้ว่าชื่อหัวข้อของโพสต์ใน HN นั้นไม่ถูกต้อง
ที่ถูกต้องควรเป็น “เนื่องจากบทความรีวิวที่ AI เขียนเพิ่มขึ้นอย่างรวดเร็ว arXiv ในหมวด CS จึง กำหนดให้บทความรีวิวต้องผ่าน peer review”
มีคนสงสัยถึงแรงจูงใจของผู้ที่อัปโหลดบทความที่ AI สร้างขึ้นทั้งหมดลง arXiv
ขั้นตอนการส่งก็ค่อนข้างยุ่งยาก จึงสงสัยว่าทำไมยังตั้งใจทำ
มีการชี้ว่าบทความคุณภาพต่ำส่วนใหญ่เป็น หัวข้อเกี่ยวกับ AI
หลายคนเมื่อเพิ่งได้ใช้ LLM ครั้งแรกก็มักทดลองแบบอ้างอิงตัวเองว่า “ให้ LLM เขียนเรื่อง LLM”
ผลลัพธ์คือได้งานสรุปแบบ จับฉ่ายจากข้อมูลต้นทาง
มีการ ประเมินเชิงบวก ต่อมาตรการครั้งนี้ของ arXiv
ในสาขาที่เปลี่ยนเร็วอย่าง multi-agent systems หรือ agentic LLMs จำเป็นต้องมีเกณฑ์ที่ชัดเจน
หากกำหนดให้ต้องมี metadata ที่เครื่องอ่านได้ เช่น ประเภทบทความ ลิงก์ข้อมูล·โค้ด และขอบเขตของ benchmark ก็จะช่วยเพิ่มความน่าเชื่อถือได้
หากทำให้แท็ก ‘Survey’ หรือ ‘Position’ และ เช็กลิสต์ด้านการทำซ้ำได้ เป็นมาตรฐาน ก็จะช่วยรักษาคุณภาพได้โดยไม่ปิดกั้นไอเดียระยะเริ่มต้น
arXiv เผชิญปัญหา บทความคุณภาพต่ำเพื่อการโปรโมตตัวเอง มานานแล้ว
เป็นปรากฏการณ์ที่มีอยู่ก่อนยุค LLM