ถ้า LLM มีคุณลักษณะเหมือนมนุษย์ Age of Empires II ก็มีเช่นกัน

(arxiv.org)

1 คะแนน โดย GN⁺ 2026-06-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การประเมิน anthropomorphic ในงานวิจัย LLM ตั้งข้อสังเกตถึงปัญหาว่า เมื่อมีการมอบหรือสมมุติคุณลักษณะเหมือนมนุษย์ให้กับผลลัพธ์ของโมเดล การตีความอาจขึ้นอยู่กับรูปแบบการนำเสนอโดยไม่มีเกณฑ์การวัดที่ชัดเจน
กรณีศึกษาการสร้างและฝึกโครงข่ายประสาทอย่างง่ายภายใน Age of Empires II เป็นหลักฐานว่า หากมี substrate ที่ทรงพลังเพียงพอ ก็สามารถสร้างเอนทิตีที่เทียบเท่า LLM ได้
ข้อเสนอคือ คุณสมบัติบางอย่าง เช่น ความสอดคล้องระหว่างพรอมป์ต์กับเอาต์พุต อาจคงอยู่ได้ แต่การตีความพฤติกรรมที่รับรู้หรือ คุณภาพการลดทอนความเป็นมนุษย์ อาจเปลี่ยนไปตาม substrate
หากทำการทดลองโดยตั้งต้นว่าคุณลักษณะ anthropomorphic แบบทั่วไปมีอยู่หรือไม่มีอยู่ บทสรุปที่ได้อาจ วนกลับหาเหตุผลเดิม หรือมีข้อมูลเชิงสาระต่ำ
เพื่อให้เกิดการอภิปรายเชิงประจักษ์ จำเป็นต้องมีเกณฑ์การวัดที่ระบุชัด และต้องประกาศให้ชัดว่ากำลังทั่วไปข้าม substrate ในแง่ใด โดยค่าเริ่มต้นคือสมมุติฐาน ความไม่เฉพาะตัวของ LLM

บทคัดย่อ

แม้จะมีงานวิจัยจำนวนมากเกี่ยวกับ LLM และเวิร์กโฟลว์เอเจนต์ที่อิง LLM แต่งานบางส่วนกล่าวถึงการเกิดขึ้นของคุณลักษณะ anthropomorphic แบบทั่วไป เช่น ศีลธรรมหรือความเข้าใจภาษาธรรมชาติ หรือไม่ก็ให้คุณลักษณะเหล่านั้น หรือสมมุติว่ามีอยู่
เป้าหมายหลักไม่ใช่การโต้แย้งว่าคุณลักษณะดังกล่าวมีอยู่ใน LLM หรือไม่ แต่เพื่อแสดงให้เห็นว่าข้อสรุปเช่นนั้นอาจผิดพลาดได้
หลังจากสร้างและฝึกโครงข่ายประสาทอย่างง่ายใน Age of Empires II ผู้เขียนเสนอว่าเอนทิตีใดก็ตามบน substrate ที่ทรงพลังเพียงพอ เช่น LEGO หรือ Greater Boston Area ก็อาจแสดงคุณลักษณะดังกล่าวได้
คุณลักษณะ anthropomorphic ของ LLM ไม่ได้มีความเฉพาะเชิงประจักษ์ โดยแม้คุณสมบัติบางอย่าง เช่น การตอบสนองต่อพรอมป์ต์ จะคงที่ได้ แต่คุณสมบัติอื่น เช่น การตีความพฤติกรรมที่รับรู้ อาจเปลี่ยนไปตาม substrate
การอภิปรายที่ยึดโยงกับประสบการณ์เชิงประจักษ์ต้องมีเกณฑ์การวัดที่ชัดเจน มิฉะนั้นโครงสร้างจะปล่อยให้การตีความขึ้นอยู่กับวิธีการนำเสนอ
หากสมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะทั่วไปที่เป็นอิสระจาก substrate จะนำไปสู่ข้อสรุปที่วนกลับหาเหตุผลเดิมหรือมีข้อมูลเชิงสาระต่ำ ไม่ว่าผู้ทดลองจะยืนอยู่ในมุมมองใด
สมมุติฐานตั้งต้นคือสมมุติฐาน ‘null’ ที่ถือความไม่เฉพาะตัวของ LLM แทนการตั้งการทดลองบนฐานว่าคุณลักษณะ anthropomorphic มีอยู่ก่อนแล้ว
ผู้เขียนพิสูจน์ว่า Age of Empires II มีความสมบูรณ์เชิงฟังก์ชันและเป็น Turing-complete

บทนำ

LLM เป็นเทคโนโลยีที่ค่อนข้างใหม่ ใช้อย่างแพร่หลาย แต่ในขณะเดียวกันก็ยังเป็นสิ่งที่เข้าใจได้ไม่เพียงพอ
ความสามารถของ LLM และคุณลักษณะที่ภายนอกดูเหมือนมนุษย์ เช่น ความสามารถในการสื่อสาร เป็นปัจจัยที่ทำให้ผู้คนโน้มเอียงไปสู่การมอง LLM แบบ anthropomorphic
ระบบสนทนาที่น่าเชื่อถืออย่าง ELIZA มีอยู่มานานกว่าครึ่งศตวรรษ แต่แชตบอตที่อิง LLM เป็นเอนทิตีที่มีความสามารถที่ไม่เคยมีมาก่อน จนต้องอธิบายจากจุดตั้งต้นที่เราคุ้นเคย
ในบริบทนี้จึงมีการประเมินจากสาขาต่าง ๆ เช่น ทฤษฎีจิตใจ การเรียนรู้และความเข้าใจ และจิตวิทยา โดยให้ผลลัพธ์ที่หลากหลาย
งานวิจัยบางส่วนทดสอบและมอบคุณลักษณะคล้ายมนุษย์แบบครอบคลุม เช่น ความกังวลหรือศีลธรรม ให้กับ LLM และตั้ง LLM เป็นวัตถุศูนย์กลางของการทดลอง
ไม่ว่าผลการประเมินจะเป็นบวกหรือลบ สมมุติฐานแกนกลางที่ว่า LLM มีคุณลักษณะ anthropomorphic ย่อมส่งผลต่อการวางแผนการทดลอง ตั้งแต่การออกแบบชุดทดสอบ การตีความเอาต์พุตภาษาธรรมชาติ ไปจนถึงสมมุติฐานศูนย์
สมมุติฐานเช่นนั้นส่งผลโดยตรงต่อข้อสรุปและอาจบิดเบือนข้อสรุปได้
วิธีการในงานวิจัย LLM ที่สมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ทั่วไปเป็นส่วนหนึ่งของการวัดนั้น เป็นแนวทางที่มีข้อบกพร่องตั้งแต่รากฐาน

Age of Empires II และความไม่เฉพาะของ substrate

การสร้างและฝึกโครงข่ายประสาทภายใน Age of Empires II อาจดูเป็นเพียงแบบฝึกหัดที่น่าสนุกและไม่เกี่ยวกับ anthropomorphism ของ LLM
แต่การสร้างเช่นนี้มีนัยโดยตรงว่า หาก substrate ทรงพลังเพียงพอ ก็สามารถสร้างเอนทิตีที่เทียบเท่า LLM ได้ และการสร้างดังกล่าวอาจเปลี่ยนรูปการนำเสนอของ LLM จนกระทบต่อคุณลักษณะที่ถูกรับรู้
หาก LLM มีประสิทธิภาพเพียงพอในการเลียนแบบคุณลักษณะ anthropomorphic ได้ในระดับหนึ่ง ไม่ว่าการเลียนแบบนั้นหรือพฤติกรรม anthropomorphic ที่ถือว่าแท้จริงตามบางมุมมอง ก็ไม่ได้เป็นสิ่งเฉพาะของเอนทิตี LLM ที่อยู่ในคอมพิวเตอร์เท่านั้น
LLM ไม่ได้มีความเฉพาะตัว และการนำไปสร้างบน substrate อื่นอาจรักษาคุณสมบัติบางอย่าง เช่น การแม็ปพรอมป์ต์-เอาต์พุต ไว้ได้ แต่ไม่จำเป็นต้องรักษาคุณภาพการลดทอนความเป็นมนุษย์ไว้
ผลก็คือการรับรู้และการตีความคุณภาพดังกล่าวอาจเปลี่ยนไป
การอภิปรายที่อิงการสังเกตเชิงประจักษ์จึงต้องมีเกณฑ์การวัดที่ชัดเจน รวมถึงคำประกาศที่ชัดว่าด้านใดควรทั่วไปข้าม substrate ได้

ปัญหาของสมมุติฐานและสมมุติฐาน ‘null’

หากนักวิทยาศาสตร์คนหนึ่งยอมรับกรอบอย่างทฤษฎีจิตเชิงคำนวณในฐานะจุดยืนเชิงตีความ และมองว่าคุณลักษณะนั้นสามารถมีอยู่ในระบบได้โดยไม่ขึ้นกับ substrate ข้อสรุปก็จะไม่มั่นคง
หากยอมรับกรอบเช่นนั้นแล้วสร้างข้ออ้างแบบทั่วไปหรือไม่ทั่วไปเกี่ยวกับคุณลักษณะ anthropomorphic ข้อสรุปจะกลายเป็นการวนกลับหาเหตุผลเดิมหรือมีข้อมูลเชิงสาระต่ำ
ผลเช่นเดียวกันนี้เกิดขึ้นได้แม้ในกรณีที่ปฏิเสธกรอบดังกล่าว
การทดสอบสมมุติฐานที่มุ่งพิสูจน์หรือหักล้างการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic แบบทั่วไป ด้วยวิธีที่สมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะนั้นไว้ก่อนแล้ว เป็นแนวทางที่บกพร่อง
ข้อสรุปเชิงบวกหรือเชิงลบที่ออกมาจากการทดลองลักษณะนี้ไม่สามารถสนับสนุนข้ออ้างนั้นได้
ปัญหานี้เป็นอิสระจากความชอบธรรมของกรอบนั้น การยอมรับหรือปฏิเสธกรอบนั้น และเป็นอิสระจากการเลือกกรอบด้วย
สมมุติฐานดังกล่าวอาจไม่ถูกเปิดเผยอย่างชัดเจน เช่น บทความที่บอกว่า LLM ไม่มีความสามารถในการ ‘อธิบายตัวเอง’ อย่างตรงข้อเท็จจริง ก็ได้สมมุติการมีอยู่ของการตระหนักรู้ตนเองในระดับหนึ่งไว้แล้ว
หากไม่อ้างว่าทั่วไปได้ข้ามบริบทและไม่ตั้งสมมุติฐานเช่นนี้ คุณลักษณะนั้นก็อาจถูกวัดได้อย่างใกล้เคียงความจริงโดยประมาณ
สมมุติฐาน ‘null’ สะท้อนความไม่เฉพาะตัวของ LLM โดยไม่กล่าวอะไรเลยเกี่ยวกับการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ภายในระบบ

1.1 Contributions

เป้าหมายไม่ใช่การอภิปรายว่าคุณลักษณะ anthropomorphic มีอยู่ใน LLM หรือไม่ ความชอบธรรมของทฤษฎีจิตใจ หรือความหมายต่อประเด็นเรื่องจิตสำนึกและปัญหากาย-ใจที่เกี่ยวข้องกับ AI
การอภิปรายเรื่องการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ต้องการการวัดที่นิยามไว้อย่างดี และในประเด็นจิตสำนึกหรือปัญหากาย-ใจ ก็ยังไม่มีโปรโตคอลการทดลองหรือสำนักคิดที่ได้รับการยอมรับอย่างกว้างขวาง
การจัดทำ LLM ที่ทำงานได้จริงบนฐาน Age of Empires II ก็อยู่นอกขอบเขตเช่นกัน
จุดประสงค์หลักคือเพื่อกระตุ้นการอภิปรายเกี่ยวกับความถูกต้องของสมมุติฐานและผลลัพธ์ที่เกี่ยวข้องกับ anthropomorphism ของ LLM
โดยเฉพาะอย่างยิ่ง มุ่งไปที่กรณีที่ผลการทดลองซึ่งถูกใช้เป็นฐานรองรับข้อสรุปดังกล่าว กลับเกิดจากการสมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะนั้นตั้งแต่แรก
ยังรวมถึงข้อโต้แย้งที่อาจเกิดขึ้นและคำตอบ เมตารีวิวขนาดเล็กของสาขาที่เกี่ยวข้องกับ anthropomorphism ตลอดจนการพิสูจน์ความสมบูรณ์เชิงฟังก์ชันและความเป็น Turing-complete ของ Age of Empires II
เป้าหมายสูงสุดคือ ไม่ว่าผู้อ่านจะยึดมุมมองใดต่อความสัมพันธ์ระหว่างจิตใจกับเครื่องจักร ก็เพื่อมอบเบาะแสในการสร้างการทดลองที่เข้มงวดซึ่งสามารถสนับสนุนหรือหักล้างการมีอยู่ของคุณลักษณะ anthropomorphic ใน LLM ได้อย่างน่าเชื่อถือ

1 ความคิดเห็น

GN⁺ 2026-06-07

ความคิดเห็นจาก Lobste.rs

อาจจะเป็นความเห็นที่งี่เง่าก็ได้ แต่ผมไม่ค่อยเข้าใจประเด็นหลักเท่าไร ข้ออ้างพื้นฐานค่อนข้างธรรมดามาก และตามที่ FAQ ก็ยอมรับไว้ คือถ้าเป็น สภาพแวดล้อมการคำนวณที่สมบูรณ์แบบแบบทัวริง ก็สามารถอิมพลีเมนต์ LLM ได้ทุกที่ รวมถึงกลไกภายในของวิดีโอเกมด้วย
แต่จากจุดนั้นกลับสรุปว่าจำเป็นต้องเปลี่ยนวิธีคิดเกี่ยวกับ LLM ครั้งใหญ่ ตัวอย่างเช่น ถ้าคัดลอก LLM เข้าไปใน AoE II แล้วป้อนคำว่า “เหงา” จากนั้นมันตอบว่า “น่าเสียดายนะ ลองไปเจอเพื่อนดูไหม? ในสถานการณ์แบบนี้ ความใกล้ชิดช่วยได้นะ” ก็ยังยากที่จะโน้มน้าวว่า AoE II-LLM นั้นรู้จริงว่าอะไรช่วยได้ มีความเห็นอกเห็นใจจริง หรือผลลัพธ์ของมันน่าเชื่อถือโดยไม่ขึ้นกับธรรมชาติที่เป็นเพียงการจำลอง
อาจเป็นอคติจากการที่ผมคุ้นกับวิศวกรรมซอฟต์แวร์และฮาร์ดแวร์ แต่ผมไม่รู้สึกว่ามีการเปลี่ยนกรอบคิดอะไรเลย “การ์ดจอในดาต้าเซ็นเตอร์สร้างโทเค็นนี้ขึ้นมา” กับ “เครื่องทัวริงในวิดีโอเกมสร้างมันขึ้นมา” สำหรับผมไม่ได้ให้ความรู้สึกต่างกัน
ผมเห็นด้วย 100% ว่าเราจัดวาง LLM ไว้ในแบบจำลองโลกของเราได้ยาก และเรามีแนวโน้มจะ ทำให้มันมีลักษณะเป็นมนุษย์ มากเกินไป แต่ไม่เข้าใจว่าบทความนี้ช่วยแก้ปัญหานั้นอย่างไร
- ฟังดูเหมือนการเอา ข้อโต้แย้งห้องภาษาจีน ของ Searle มาแพ็กใหม่ ซึ่งผมก็รู้สึกติดขัดทางปรัชญากับมันมาตลอด และดูเหมือนในบทความก็พูดถึงเรื่องนี้แค่สั้น ๆ
  มันน่าจะกำลังทำผิดพลาดแบบเดิม คือแสดงให้เห็นว่าระบบอย่างคนในห้องภาษาจีนหรือเกมเอนจิน “ก็แค่” ทำตามกฎ แล้วจึงสรุปว่าเพราะแบบนั้นเราจึงไม่อาจมอบความฉลาดหรือคุณสมบัติแบบมนุษย์ทั่วไปให้มันได้
  แต่ผมไม่คิดว่าจะโต้แย้งได้ว่า เพียงเพราะเราลดบางสิ่งลงเป็นชิ้นส่วนที่ไม่ฉลาดหรือเป็นกฎเกณฑ์ คุณสมบัติที่สังเกตได้ขององค์รวมจะหายไปอย่างน่าอัศจรรย์
  แต่ก็ไม่ได้อ่านข้อโต้แย้งทั้งหมดของบทความนะ ผมก็เป็นแค่คนคอมเมนต์ในอินเทอร์เน็ต
น่าเสียดายที่บทความไม่ได้พูดถึง AI จริง ๆ ของ AOE2 เลย AI ของ AOE2 ใช้ CLIPS เป็นฐาน ซึ่งเป็นระบบผู้เชี่ยวชาญแบบ s-expression บนเอนจิน RETE และมีคนรู้จักของผมอินกับมันมากจนเขียนทั้งบทแนะนำ, คอร์สสอน หรือแม้แต่เซิร์ฟเวอร์แชตแบบประกาศเจตนา
เอกสาร AI ของ AOE2 อยู่ที่ https://www.scribd.com/document/348253/CPSB และ https://userpatch.aiscripters.net/reference.html ตัวอย่างจะเป็นการตั้งเงื่อนไขเชิงกลยุทธ์และเป้าหมายแบบอิงกฎตามนี้
- ทีม Magic the Gathering: Arena ก็ใช้ CLIPS เพื่อสร้างส่วนสำคัญของเอนจินกฎที่ขับเคลื่อน Magic แบบดิจิทัลด้วย
ในบทคัดย่อมีคำผิดที่ทำให้ความหมายเปลี่ยน ควรเป็น “Age of Empires II in” ไม่ใช่ “Age of Empires II on”
บทความนี้อ้างว่าได้สร้างและฝึกโครงข่ายประสาทใน AoE 2 และยังอ้างอีกว่า Lego หรือแม้แต่ Boston ก็สามารถเป็นซับสเตรตของโครงข่ายประสาทได้ ตัวอย่างที่เกี่ยวข้องกับกรณีแรกคือ Wang tiling และของกรณีหลังคือ billiard-ball computers แนวคิดนี้ยังถูกนำไปทำจริงในงานวิจัยปี 2011 โดยใช้ฝูงปูทหารมีชีวิต M. guinotae จนถูกเรียกว่า “crab computers”
วันนี้เพิ่งรู้ว่า AOEII สมบูรณ์แบบแบบทัวริง
- ความสมบูรณ์แบบแบบทัวริง เป็นเกณฑ์ที่ต่ำมาก
- บ่อยครั้งแค่เพิ่มความซับซ้อนให้ระบบเพียงนิดเดียว ก็แทบเป็นไปไม่ได้แล้วที่จะทำให้มันยังคงต่ำกว่า เกณฑ์ความสมบูรณ์แบบแบบทัวริง บทความดีมากของ Gwern อยู่ที่นี่
มันน่าจะเป็นโพสต์บล็อกที่น่าสนใจได้ แต่กลับกลายเป็นบทความวิชาการที่อ่านยากและวางท่าฟุ่มเฟือย น่าจะใช้เงินภาษีด้วย และไม่ได้เป็นประโยชน์กับใครเลย
- โชคดีที่ในบทความไม่มีข้อมูลทุนวิจัย แต่ดูจากลำดับสังกัดผู้เขียนแล้ว เกือบแน่ใจว่า Microsoft เป็นคนออกทุนทั้งหมด
พออ่านย่อหน้านี้แล้ว ผมก็เสียดายที่ไม่เชื่อสัญชาตญาณตัวเองตั้งแต่แรกว่ามันคงไม่คุ้มค่าแก่การอ่าน
ผมมีพื้นฐานด้านปรัชญาจิต และพอเห็นการอ้างอิงในบทที่ 2 ก็พอเดาได้ว่าบทความจะเดินข้อโต้แย้งแบบไหน แต่พออ่านจบแล้ว ผมก็ยังไม่เข้าใจเลยว่าตกลงบทความนี้กำลังเสนอข้อโต้แย้งอะไรกันแน่

ถ้า LLM มีคุณลักษณะเหมือนมนุษย์ Age of Empires II ก็มีเช่นกัน

บทคัดย่อ

บทนำ

Age of Empires II และความไม่เฉพาะของ substrate

ปัญหาของสมมุติฐานและสมมุติฐาน ‘null’

1.1 Contributions

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Lobste.rs