Athena - การทดลองให้ AI จำลองคนเกาหลีปลอม 5,000 คนไปลงคะแนนเสียง (ผู้ว่าราชการจังหวัด/นครในการเลือกตั้งท้องถิ่นปี 2026)
(github.com/Kimchikilla)นำ LLM มาต่อกับ Nemotron-Personas-Korea แล้วลองรันการจำลองการเลือกตั้งผู้ว่าราชการจังหวัด/นครในปี 2026
รวบรวมข้อมูลผู้สมัคร 8,300 คนจาก NEC → สุ่มเพอร์โซนา 5,100 คน โดยจังหวัดละ 300 คน → จำลองคะแนนเสียง 4,800 ใบด้วย Gemma 4 e4b (RTX 5060, 3 ชั่วโมง)
ผลลัพธ์
นายกเทศมนตรีแทกู: Kim Han-gu (อิสระ) 90.5% / Lee Jae-man (พรรคพลังประชาชน) 8.2% / Kim Boo-kyum (พรรคประชาธิปไตย) 1.4%
อดีตนายกรัฐมนตรี + ส.ส. 4 สมัย + เป็นคนแทกู ได้แค่ 1.4% เพราะ LLM ถูกดึงไปตามป้ายกำกับ "แรงงาน" ของเพอร์โซนา แล้วเทคะแนนให้ผู้สมัครอิสระสายแรงงาน
แพตเทิร์นโดยรวม:
- ให้ค่าน้ำหนักกับตำแหน่งผู้ดำรงตำแหน่งปัจจุบันสูงเกินจริง (Gangwon: Kim Jin-tae 100%, Gyeongbuk: Lee Cheol-woo 99%)
- จับคู่ตามป้ายกำกับอาชีพแบบตรงไปตรงมา
- เมื่อข้อมูลไม่เพียงพอ อัตรางดออกเสียงพุ่งสูง (Chungbuk 73%, Incheon 93%)
บทสรุป
การจำลองเพอร์โซนาด้วย LLM ไม่สามารถเป็นตัวแทนของแบบสำรวจความคิดเห็นได้ งานวิจัยสไตล์ LLM-as-voter ในสหรัฐฯ ไม่สามารถนำมาใช้กับการเมืองเกาหลีได้ตรง ๆ และผลนี้ยืนยันเชิงปริมาณ
4 ความคิดเห็น
ผมเป็นผู้สร้าง "ManyPerson" ที่อยู่ใน "บทความที่น่าอ่านร่วมกัน" ครับ
อย่างที่คุณกล่าวไว้ การจำลองเพอร์โซนาด้วย LLM ไม่ใช่สิ่งทดแทนแบบสำรวจความคิดเห็นของประชาชน แต่เป็น "เครื่องมือเสริม"
แน่นอนว่า ยิ่งใส่ความละเอียดของเพอร์โซนาและข้อมูลพื้นหลังเข้าไปมากเท่าไร ก็ยิ่งเข้าใกล้ผลลัพธ์จริงมากขึ้นเท่านั้น แต่โดยพื้นฐานแล้ว ผมเองก็พัฒนาบริการนี้โดยมองว่าเป็นบริการในฐานะเครื่องมือเสริม มากกว่าจะเป็นบริการในฐานะสิ่งทดแทน
ถึงอย่างนั้น ผมก็คิดว่ามันมีคุณค่าเพียงพออยู่ดีครับ
เห็นด้วยครับ!!
ตอนนี้กลับมาดูแล้ว เหมือนเมื่อกี้ผมค่อนข้างลน ๆ เลยเขียนคำตอบค้างไว้;;
ก่อนอื่น หนึ่งในคุณค่าที่ผมมองเห็นจากคำตอบของ AI persona คือ..
ผมคิดว่าสิ่งที่ใหญ่ที่สุดคือการช่วยเปิดมุมมองให้กว้างขึ้นแก่ผู้ใช้หรือผู้เขียน
ตอนที่ผมทำบริการนี้เองก็รู้สึกได้ว่า อย่างแรกเลยคือมุมมองต่อโลกหรือเหตุการณ์ต่าง ๆ กว้างขึ้นจริง ๆ
จาก ทำไมถึงคิดเรื่องนั้นแบบนั้นนะ? กลายเป็น "อ้อ เหตุการณ์แบบนั้นก็อาจรับรู้และทำความเข้าใจในแบบนั้นได้เหมือนกันสินะ.."
ทำให้มองสิ่งต่าง ๆ ได้กว้างขึ้นมากกว่าเดิม
กรณีของ การเลือกตั้ง ที่คุณพูดถึงก็น่าจะคล้ายกันครับ
เมื่อกี้ผมลองรันกับพื้นที่อย่าง แทกู ดูครั้งหนึ่ง ผลก็ออกมาค่อนข้างห่างจากความเป็นจริงเหมือนกัน
manyperson Link
ฝั่งบริการของเราก็เคยทดสอบในลักษณะคล้าย ๆ กัน แต่ผลลัพธ์ก็ไม่ได้ออกมาตรงเป๊ะตามที่ผมคิดไว้เสมอไป ทว่ามันก็ช่วยให้เห็นมุมมองที่หลากหลายได้จริงครับ ( แน่นอนว่าด้วยข้อจำกัดเรื่องการอัปเดตข้อมูลล่าสุด มันเลยยังไม่แม่นยำนัก แต่ผมคิดว่าส่วนนี้ค่อย ๆ แก้ด้วยเทคนิคได้ในอนาคต )
จริง ๆ แล้วตัวบริการของเราก็เคยลองทดสอบโดยคิดว่าคนอื่นจะมองมันยังไงบ้างเหมือนกัน.. ผลออกมาในเชิงบวกมาก แต่ในความเป็นจริงจะเป็นอย่างไร อันนี้ตอนนี้ผมก็ยังไม่แน่ใจครับ ^^;;
เนื่องจาก llm อนุมานในระดับโทเคนของข้อความ เมื่อมีป้ายกำกับที่มีความถี่สูงปรากฏขึ้น ดูเหมือนว่าแพตเทิร์นที่เคยปรากฏร่วมกับป้ายกำกับนั้นระหว่างการฝึกจะถูกกระตุ้น จนมีแนวโน้มจะกลบข้อมูลอื่นไป
นอกจากนี้ ต่อให้เพอร์โซนามีป้ายกำกับที่ละเอียด พฤติกรรมการลงคะแนนของคนนั้นก็ไม่ได้ถูกกำหนดด้วยฟังก์ชันที่ LLM อนุมานได้ และสิ่งที่กำหนดพฤติกรรมทางการเมืองจริง ๆ คือปัจจัยอย่างประวัติการลงคะแนนก่อนหน้า พรรคการเมืองที่ครอบครัวและเพื่อนร่วมงานสนับสนุน ข่าวที่เพิ่งเห็นล่าสุด ความชอบส่วนตัวต่อผู้สมัคร ซึ่งล้วนเป็นข้อมูลที่ไม่มีอยู่ในเพอร์โซนาแบบสังเคราะห์และมีอิทธิพลมากเกินไป
สิ่งนี้ดูเหมือนจะเกิดขึ้นพร้อมกันกับการอนุมานสถานการณ์หรือปรากฏการณ์ทางเศรษฐกิจ/การเมืองทุกประเภทด้วยเช่นกัน