- ผลการวิเคราะห์ รูปแบบคอมเมนต์ของบัญชีใหม่บน Hacker News ในช่วงหลัง พบความแตกต่างอย่างชัดเจนจากผู้ใช้เดิม
- ในคอมเมนต์ของบัญชีใหม่ 17.47% ใช้ EM dash (—), ลูกศร และสัญลักษณ์พิเศษอื่น ๆ ซึ่งสูงกว่าบัญชีเดิมที่มีเพียง 1.83% ราว 10 เท่า
- นอกจากนี้ บัญชีใหม่ยังมีโอกาสกล่าวถึง คำที่เกี่ยวข้องกับ AI และ LLM ที่ 18.67% สูงกว่าบัญชีเดิมซึ่งอยู่ที่ 11.8%
- การวิเคราะห์นี้อ้างอิงจากการเปรียบเทียบตัวอย่างข้อมูลราว 700 รายการจาก
/newcomments และ /noobcomments
- สถิติเหล่านี้บ่งชี้ถึง ความเป็นไปได้ที่บัญชีอัตโนมัติ (บอต) ในชุมชน HN จะเพิ่มขึ้น
สังเกตสัญญาณผิดปกติในคอมเมนต์ HN
- ในช่วงไม่กี่เดือนที่ผ่านมา มีการสังเกตเห็น ปรากฏการณ์ที่ดูเหมือนว่าบอตบน HN เพิ่มขึ้นอย่างรวดเร็ว
- บางบัญชีโพสต์เพียงสตริงหรือชุดตัวเลขที่ไม่มีความหมาย
- ตัวอย่างเช่นข้อความประหลาดอย่าง “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” หรือคอมเมนต์ที่มีเพียง “1662476506”, “Аё” เป็นต้น
- นอกจากบัญชีลักษณะนี้แล้ว ยังมี คอมเมนต์ที่ดูปกติแต่แปลก ๆ หรือไม่ตรงประเด็น อยู่จำนวนมาก
วิธีเก็บและวิเคราะห์ข้อมูล
- ทำ การสแครปและเปรียบเทียบวิเคราะห์ จากหน้า
/newcomments (คอมเมนต์ล่าสุด) และ /noobcomments (คอมเมนต์ของบัญชีใหม่)
- เก็บตัวอย่างคอมเมนต์ประมาณ 700 รายการต่อกลุ่ม แล้วคำนวณสถิติอย่างง่าย
ผลสถิติหลัก
- 17.47% ของคอมเมนต์จากบัญชีใหม่มี EM dash, ลูกศร หรือสัญลักษณ์พิเศษอื่น ๆ เทียบกับ 1.83% ของบัญชีเดิม ต่างกันราว 10 เท่า
- นัยสำคัญทางสถิติ p = 7e-20
- 18.67% ของคอมเมนต์จากบัญชีใหม่มีการกล่าวถึง AI หรือ LLM สูงกว่าบัญชีเดิมที่ 11.8%
- นัยสำคัญทางสถิติ p = 0.0018
การตีความและข้อสงสัย
- แม้ผู้ใช้จริงก็อาจใช้ EM dash ได้ แต่ สัดส่วนการใช้งานที่สูงผิดปกติในบัญชีใหม่อธิบายได้ยาก
- ความแตกต่างนี้ชี้ให้เห็นถึง ความเป็นไปได้ว่ามีบัญชีที่ถูกสร้างอัตโนมัติปะปนอยู่ในบัญชีใหม่ของ HN
เอกสารอ้างอิง
- ซอร์สโค้ดและข้อมูลที่ใช้ในการวิเคราะห์เปิดเผยอยู่ใน GitHub repository (vlofgren/hn-green-clankers)
- Marginalia.nu เผยแพร่งานชิ้นนี้เป็นส่วนหนึ่งของซีรีส์ “Weird AI Crap”
1 ความคิดเห็น
ความเห็นจาก Hacker News
เมื่อก่อนบน HN มีการใช้ em dash และ en dash กันบ่อย
แค่ชอบงานไทโปกราฟีเลยติดนิสัยใช้ dash แทน semicolon
ตั้งคีย์ลัดคีย์บอร์ดไว้ด้วย AHK แต่ตอนนี้กลับทำให้คนเข้าใจผิดว่าข้อความของฉันเหมือนถูกเขียนโดย LLM
เคยถูกเข้าใจผิดว่าเป็น AI หลายครั้ง เลยเสียดายที่รสนิยมด้านไทโปกราฟีซึ่งเคยสนุก ตอนนี้กลับถูกมองในแง่ลบ
ทั้งที่จริงก็แค่มีคนที่ใส่ใจกับประโยคที่สมบูรณ์ การสะกด ไวยากรณ์ และตัวพิมพ์ใหญ่ แต่ตอนนี้โลกกลับมองว่านั่นดูเหมือน AI
ช่วงนี้เหมือนการ เขียนให้ดูรกนิดหน่อยโดยตั้งใจ กลายเป็นสัญญาณของความเป็นมนุษย์ ไปแล้ว คิดว่าแชตบอตในอนาคตก็คงเรียนรู้แบบนั้นเหมือนกัน
ถึงประโยคจะดูขัดๆ หน่อย แต่กลับชอบตรงที่มันให้ความรู้สึก จริงใจแบบทำมือ
แต่เรื่อง เว้นสองช่องตอนจบประโยค นี่ไม่มีทางยอมแพ้เด็ดขาด อาจารย์พิมพ์ดีดของฉันเมื่อปี 1993 เคยบอกว่าประโยคก็ต้องการที่ให้หายใจเหมือนกัน
เป็นนิสัยที่ใช้บน Mac มาตั้งแต่กด option+8 แต่ตอนนี้แม้แต่นั่นก็ดูเหมือนสไตล์ของ LLM ไปแล้ว
มีการลองเทียบสถิติคำที่ใช้บ่อยในคอมเมนต์ของผู้ใช้ใหม่บน HN
คำอย่าง “ai”, “actually”, “code”, “real”, “built” ปรากฏบ่อยกว่ามากในบัญชีใหม่
มีสรุปไว้ละเอียดใน ตารางข้อมูล
ในเชิงวิชาการมันไม่เหมาะสม แต่ในที่นี้ก็มองได้ว่าเป็นข้อสังเกตที่น่าสนใจ
ถ้าคำนวณขนาดอิทธิพลอย่าง Cohen’s d เพิ่ม ก็จะเห็นขนาดของความต่างที่แท้จริงได้
ส่วนใหญ่เป็นแค่ คำฟุ่มเฟือย ที่ทำให้ข้อความชัดเจนน้อยลง
เลยตั้งสมมติฐานว่าอาจมี บอตบางตัวคอยดันหัวข้อเกี่ยวกับ AI แบบไม่เป็นธรรมชาติ
เมื่อก่อนชอบใช้ em-dash มาก แต่ตอนนี้เสียดายที่ใช้ไม่ได้เพราะ กลัวจะถูกเข้าใจผิดว่าเป็น AI
บน Mac พิมพ์ง่ายด้วย
alt+shift+-เลยรู้สึกเหมือนธรรมเนียมไทโปกราฟีที่ดีถูกทำให้แปดเปื้อนถ้ามีสิ่งนั้น ไม่ว่าจะใช้เครื่องหมายวรรคตอนแบบไหนก็ดูเป็นงานเขียนของคน
เลยแชร์ คู่มือ Alt code บน Mac เพื่อชวนกันทวงคืนไทโปกราฟี
สุดท้ายแล้ว รูปแบบการแสดงออกที่เป็นเอกลักษณ์ของมนุษย์ ก็ย่อมปรากฏออกมาอยู่ดี
ข้อมูลถูกเผยแพร่เป็น SQLite DB ใน GitHub repository
สามารถรัน SQL query ได้ตรงจากเบราว์เซอร์ผ่าน Datasette Lite
ถ้าดูรายชื่อผู้ใช้ที่ใช้ em-dash เยอะ ส่วนใหญ่ก็ดูเป็น บัญชีปกติ
sourceลงใน query จะเห็นว่ามี บัญชี green ที่ใช้ em-dash เยอะสะดุดตามันให้ความรู้สึกเหมือนไม่ใช่แค่ HN แต่เป็น วิกฤตของวาทกรรมออนไลน์แบบไม่เปิดเผยตัวตนทั้งหมด
ถ้าความเชื่อใจพัง แพลตฟอร์มเองก็พังตาม
การยืนยันตัวตนน่าจะเป็นทางออกเดียว แต่ถึงอย่างนั้นก็ไม่สมบูรณ์แบบ
ฉันอธิบายไอเดียนั้นไว้ใน บล็อกโพสต์ของฉัน
สุดท้ายดูเหมือนเราจะเข้าสู่ยุคที่ต้องพิสูจน์ว่าเราเป็นมนุษย์จริง
ถ้ามูลค่าของคอมเมนต์พิสูจน์ได้ด้วยปริมาณการคำนวณแฮช ก็อาจสร้างความน่าเชื่อถือได้โดยไม่ต้องมีตัวตน
ถ้าบอตรักษา karma เชิงบวกไว้ไม่ได้ ก็จะไม่ได้สิทธิ์บางอย่าง ดังนั้นถึงไม่ใช่การยืนยันตัวตนเต็มรูปแบบ ก็ยังพอใช้ป้องกันได้
ช่วงนี้บน HN เริ่มเห็น รูปแบบคอมเมนต์ที่เป็นทางการแต่จืดชืด ชัดเจนขึ้น
โครงแบบ “this is [สรุป] / not just x, it’s y / punchy ending” โผล่ซ้ำๆ
ถ้าดู บัญชี snowhale จะเห็นได้ชัด
อาจเป็นกลยุทธ์เพื่อ สร้างเครือข่ายโหวตและบิดทิศทางของเรื่องเล่า
ใน ผลการค้นหา มีหลายบัญชีใช้ประโยคเดียวกันซ้ำๆ
หลายคำตอบเหมือนไม่ได้อ่านบริบทของบทสนทนา และให้ความรู้สึก แยกขาดอย่างประหลาด
มันแสร้งทำเป็นเป็นกลางเหมือนมนุษย์ แต่ข้างในก็ยังมีอคติจากข้อมูลฝึกปะปนอยู่
ความเป็นกลางอย่างสมบูรณ์อาจเป็นเพียงภาพลวง
แค่เพิ่มในพรอมป์ต์ว่า “พูดเหมือนฉัน อย่าเขียนเหมือน AI เขียนให้กระชับ” ก็แก้ไปได้ครึ่งหนึ่งแล้ว
กลับกัน ดราม่ารอบนี้ทำให้หลายคน เพิ่งรู้จักการมีอยู่ของ em-dash เป็นครั้งแรก
ตอนนี้เลยมี ผู้ใช้มนุษย์หน้าใหม่ จำนวนไม่น้อยที่เริ่มใส่ em-dash ในทุกประโยคแล้ว
บัญชีบอตส่วนใหญ่ที่ฉันจับได้แทบไม่ใช้ em-dash เลย
ตัวอย่างเช่น aplomb1026 โพสต์คอมเมนต์ยาวสองอันห่างกัน 30 วินาที
ดูได้จาก คอมเมนต์แรก และ คอมเมนต์ที่สอง
ถ้าไม่ได้ตั้งค่าพลาดแบบนี้ คนส่วนใหญ่ก็คงไม่ทันสังเกต
บอตอื่นๆ ก็มี dirtytoken7, fdefitte เป็นต้น
คนที่ เรียนเอกวรรณคดีอังกฤษ ใช้ em-dash กันมานานแล้ว แต่ตอนนี้เริ่มยั้งมือเพราะกลัวจะดูเหมือน AI
ถ้าวันหนึ่ง AI เริ่มใช้ diaeresis แบบ New Yorker ด้วย คงบ้าตายแน่
ถึงอย่างนั้นฉันก็ยังใช้ภายในอยู่ดี
ถ้าแทนที่จะ “ไม่ให้ดูเหมือน AI” เราเลือกที่จะ “กลมกลืนไปกับการลุกฮือของหุ่นยนต์” ล่ะ?
ฉันขอเสนอ ⸻ (U+2E3B dash)