1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • การประเมิน anthropomorphic ในงานวิจัย LLM ตั้งข้อสังเกตถึงปัญหาว่า เมื่อมีการมอบหรือสมมุติคุณลักษณะเหมือนมนุษย์ให้กับผลลัพธ์ของโมเดล การตีความอาจขึ้นอยู่กับรูปแบบการนำเสนอโดยไม่มีเกณฑ์การวัดที่ชัดเจน
  • กรณีศึกษาการสร้างและฝึกโครงข่ายประสาทอย่างง่ายภายใน Age of Empires II เป็นหลักฐานว่า หากมี substrate ที่ทรงพลังเพียงพอ ก็สามารถสร้างเอนทิตีที่เทียบเท่า LLM ได้
  • ข้อเสนอคือ คุณสมบัติบางอย่าง เช่น ความสอดคล้องระหว่างพรอมป์ต์กับเอาต์พุต อาจคงอยู่ได้ แต่การตีความพฤติกรรมที่รับรู้หรือ คุณภาพการลดทอนความเป็นมนุษย์ อาจเปลี่ยนไปตาม substrate
  • หากทำการทดลองโดยตั้งต้นว่าคุณลักษณะ anthropomorphic แบบทั่วไปมีอยู่หรือไม่มีอยู่ บทสรุปที่ได้อาจ วนกลับหาเหตุผลเดิม หรือมีข้อมูลเชิงสาระต่ำ
  • เพื่อให้เกิดการอภิปรายเชิงประจักษ์ จำเป็นต้องมีเกณฑ์การวัดที่ระบุชัด และต้องประกาศให้ชัดว่ากำลังทั่วไปข้าม substrate ในแง่ใด โดยค่าเริ่มต้นคือสมมุติฐาน ความไม่เฉพาะตัวของ LLM

บทคัดย่อ

  • แม้จะมีงานวิจัยจำนวนมากเกี่ยวกับ LLM และเวิร์กโฟลว์เอเจนต์ที่อิง LLM แต่งานบางส่วนกล่าวถึงการเกิดขึ้นของคุณลักษณะ anthropomorphic แบบทั่วไป เช่น ศีลธรรมหรือความเข้าใจภาษาธรรมชาติ หรือไม่ก็ให้คุณลักษณะเหล่านั้น หรือสมมุติว่ามีอยู่
  • เป้าหมายหลักไม่ใช่การโต้แย้งว่าคุณลักษณะดังกล่าวมีอยู่ใน LLM หรือไม่ แต่เพื่อแสดงให้เห็นว่าข้อสรุปเช่นนั้นอาจผิดพลาดได้
  • หลังจากสร้างและฝึกโครงข่ายประสาทอย่างง่ายใน Age of Empires II ผู้เขียนเสนอว่าเอนทิตีใดก็ตามบน substrate ที่ทรงพลังเพียงพอ เช่น LEGO หรือ Greater Boston Area ก็อาจแสดงคุณลักษณะดังกล่าวได้
  • คุณลักษณะ anthropomorphic ของ LLM ไม่ได้มีความเฉพาะเชิงประจักษ์ โดยแม้คุณสมบัติบางอย่าง เช่น การตอบสนองต่อพรอมป์ต์ จะคงที่ได้ แต่คุณสมบัติอื่น เช่น การตีความพฤติกรรมที่รับรู้ อาจเปลี่ยนไปตาม substrate
  • การอภิปรายที่ยึดโยงกับประสบการณ์เชิงประจักษ์ต้องมีเกณฑ์การวัดที่ชัดเจน มิฉะนั้นโครงสร้างจะปล่อยให้การตีความขึ้นอยู่กับวิธีการนำเสนอ
  • หากสมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะทั่วไปที่เป็นอิสระจาก substrate จะนำไปสู่ข้อสรุปที่วนกลับหาเหตุผลเดิมหรือมีข้อมูลเชิงสาระต่ำ ไม่ว่าผู้ทดลองจะยืนอยู่ในมุมมองใด
  • สมมุติฐานตั้งต้นคือสมมุติฐาน ‘null’ ที่ถือความไม่เฉพาะตัวของ LLM แทนการตั้งการทดลองบนฐานว่าคุณลักษณะ anthropomorphic มีอยู่ก่อนแล้ว
  • ผู้เขียนพิสูจน์ว่า Age of Empires II มีความสมบูรณ์เชิงฟังก์ชันและเป็น Turing-complete

บทนำ

  • LLM เป็นเทคโนโลยีที่ค่อนข้างใหม่ ใช้อย่างแพร่หลาย แต่ในขณะเดียวกันก็ยังเป็นสิ่งที่เข้าใจได้ไม่เพียงพอ
  • ความสามารถของ LLM และคุณลักษณะที่ภายนอกดูเหมือนมนุษย์ เช่น ความสามารถในการสื่อสาร เป็นปัจจัยที่ทำให้ผู้คนโน้มเอียงไปสู่การมอง LLM แบบ anthropomorphic
  • ระบบสนทนาที่น่าเชื่อถืออย่าง ELIZA มีอยู่มานานกว่าครึ่งศตวรรษ แต่แชตบอตที่อิง LLM เป็นเอนทิตีที่มีความสามารถที่ไม่เคยมีมาก่อน จนต้องอธิบายจากจุดตั้งต้นที่เราคุ้นเคย
  • ในบริบทนี้จึงมีการประเมินจากสาขาต่าง ๆ เช่น ทฤษฎีจิตใจ การเรียนรู้และความเข้าใจ และจิตวิทยา โดยให้ผลลัพธ์ที่หลากหลาย
  • งานวิจัยบางส่วนทดสอบและมอบคุณลักษณะคล้ายมนุษย์แบบครอบคลุม เช่น ความกังวลหรือศีลธรรม ให้กับ LLM และตั้ง LLM เป็นวัตถุศูนย์กลางของการทดลอง
  • ไม่ว่าผลการประเมินจะเป็นบวกหรือลบ สมมุติฐานแกนกลางที่ว่า LLM มีคุณลักษณะ anthropomorphic ย่อมส่งผลต่อการวางแผนการทดลอง ตั้งแต่การออกแบบชุดทดสอบ การตีความเอาต์พุตภาษาธรรมชาติ ไปจนถึงสมมุติฐานศูนย์
  • สมมุติฐานเช่นนั้นส่งผลโดยตรงต่อข้อสรุปและอาจบิดเบือนข้อสรุปได้
  • วิธีการในงานวิจัย LLM ที่สมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ทั่วไปเป็นส่วนหนึ่งของการวัดนั้น เป็นแนวทางที่มีข้อบกพร่องตั้งแต่รากฐาน
โฆษณา

Age of Empires II และความไม่เฉพาะของ substrate

  • การสร้างและฝึกโครงข่ายประสาทภายใน Age of Empires II อาจดูเป็นเพียงแบบฝึกหัดที่น่าสนุกและไม่เกี่ยวกับ anthropomorphism ของ LLM
  • แต่การสร้างเช่นนี้มีนัยโดยตรงว่า หาก substrate ทรงพลังเพียงพอ ก็สามารถสร้างเอนทิตีที่เทียบเท่า LLM ได้ และการสร้างดังกล่าวอาจเปลี่ยนรูปการนำเสนอของ LLM จนกระทบต่อคุณลักษณะที่ถูกรับรู้
  • หาก LLM มีประสิทธิภาพเพียงพอในการเลียนแบบคุณลักษณะ anthropomorphic ได้ในระดับหนึ่ง ไม่ว่าการเลียนแบบนั้นหรือพฤติกรรม anthropomorphic ที่ถือว่าแท้จริงตามบางมุมมอง ก็ไม่ได้เป็นสิ่งเฉพาะของเอนทิตี LLM ที่อยู่ในคอมพิวเตอร์เท่านั้น
  • LLM ไม่ได้มีความเฉพาะตัว และการนำไปสร้างบน substrate อื่นอาจรักษาคุณสมบัติบางอย่าง เช่น การแม็ปพรอมป์ต์-เอาต์พุต ไว้ได้ แต่ไม่จำเป็นต้องรักษาคุณภาพการลดทอนความเป็นมนุษย์ไว้
  • ผลก็คือการรับรู้และการตีความคุณภาพดังกล่าวอาจเปลี่ยนไป
  • การอภิปรายที่อิงการสังเกตเชิงประจักษ์จึงต้องมีเกณฑ์การวัดที่ชัดเจน รวมถึงคำประกาศที่ชัดว่าด้านใดควรทั่วไปข้าม substrate ได้

ปัญหาของสมมุติฐานและสมมุติฐาน ‘null’

  • หากนักวิทยาศาสตร์คนหนึ่งยอมรับกรอบอย่างทฤษฎีจิตเชิงคำนวณในฐานะจุดยืนเชิงตีความ และมองว่าคุณลักษณะนั้นสามารถมีอยู่ในระบบได้โดยไม่ขึ้นกับ substrate ข้อสรุปก็จะไม่มั่นคง
  • หากยอมรับกรอบเช่นนั้นแล้วสร้างข้ออ้างแบบทั่วไปหรือไม่ทั่วไปเกี่ยวกับคุณลักษณะ anthropomorphic ข้อสรุปจะกลายเป็นการวนกลับหาเหตุผลเดิมหรือมีข้อมูลเชิงสาระต่ำ
  • ผลเช่นเดียวกันนี้เกิดขึ้นได้แม้ในกรณีที่ปฏิเสธกรอบดังกล่าว
  • การทดสอบสมมุติฐานที่มุ่งพิสูจน์หรือหักล้างการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic แบบทั่วไป ด้วยวิธีที่สมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะนั้นไว้ก่อนแล้ว เป็นแนวทางที่บกพร่อง
  • ข้อสรุปเชิงบวกหรือเชิงลบที่ออกมาจากการทดลองลักษณะนี้ไม่สามารถสนับสนุนข้ออ้างนั้นได้
  • ปัญหานี้เป็นอิสระจากความชอบธรรมของกรอบนั้น การยอมรับหรือปฏิเสธกรอบนั้น และเป็นอิสระจากการเลือกกรอบด้วย
  • สมมุติฐานดังกล่าวอาจไม่ถูกเปิดเผยอย่างชัดเจน เช่น บทความที่บอกว่า LLM ไม่มีความสามารถในการ ‘อธิบายตัวเอง’ อย่างตรงข้อเท็จจริง ก็ได้สมมุติการมีอยู่ของการตระหนักรู้ตนเองในระดับหนึ่งไว้แล้ว
  • หากไม่อ้างว่าทั่วไปได้ข้ามบริบทและไม่ตั้งสมมุติฐานเช่นนี้ คุณลักษณะนั้นก็อาจถูกวัดได้อย่างใกล้เคียงความจริงโดยประมาณ
  • สมมุติฐาน ‘null’ สะท้อนความไม่เฉพาะตัวของ LLM โดยไม่กล่าวอะไรเลยเกี่ยวกับการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ภายในระบบ

1.1 Contributions

  • เป้าหมายไม่ใช่การอภิปรายว่าคุณลักษณะ anthropomorphic มีอยู่ใน LLM หรือไม่ ความชอบธรรมของทฤษฎีจิตใจ หรือความหมายต่อประเด็นเรื่องจิตสำนึกและปัญหากาย-ใจที่เกี่ยวข้องกับ AI
  • การอภิปรายเรื่องการมีอยู่หรือไม่มีอยู่ของคุณลักษณะ anthropomorphic ต้องการการวัดที่นิยามไว้อย่างดี และในประเด็นจิตสำนึกหรือปัญหากาย-ใจ ก็ยังไม่มีโปรโตคอลการทดลองหรือสำนักคิดที่ได้รับการยอมรับอย่างกว้างขวาง
  • การจัดทำ LLM ที่ทำงานได้จริงบนฐาน Age of Empires II ก็อยู่นอกขอบเขตเช่นกัน
  • จุดประสงค์หลักคือเพื่อกระตุ้นการอภิปรายเกี่ยวกับความถูกต้องของสมมุติฐานและผลลัพธ์ที่เกี่ยวข้องกับ anthropomorphism ของ LLM
  • โดยเฉพาะอย่างยิ่ง มุ่งไปที่กรณีที่ผลการทดลองซึ่งถูกใช้เป็นฐานรองรับข้อสรุปดังกล่าว กลับเกิดจากการสมมุติการมีอยู่หรือไม่มีอยู่ของคุณลักษณะนั้นตั้งแต่แรก
  • ยังรวมถึงข้อโต้แย้งที่อาจเกิดขึ้นและคำตอบ เมตารีวิวขนาดเล็กของสาขาที่เกี่ยวข้องกับ anthropomorphism ตลอดจนการพิสูจน์ความสมบูรณ์เชิงฟังก์ชันและความเป็น Turing-complete ของ Age of Empires II
  • เป้าหมายสูงสุดคือ ไม่ว่าผู้อ่านจะยึดมุมมองใดต่อความสัมพันธ์ระหว่างจิตใจกับเครื่องจักร ก็เพื่อมอบเบาะแสในการสร้างการทดลองที่เข้มงวดซึ่งสามารถสนับสนุนหรือหักล้างการมีอยู่ของคุณลักษณะ anthropomorphic ใน LLM ได้อย่างน่าเชื่อถือ

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Lobste.rs
  • อาจจะเป็นความเห็นที่งี่เง่าก็ได้ แต่ผมไม่ค่อยเข้าใจประเด็นหลักเท่าไร ข้ออ้างพื้นฐานค่อนข้างธรรมดามาก และตามที่ FAQ ก็ยอมรับไว้ คือถ้าเป็น สภาพแวดล้อมการคำนวณที่สมบูรณ์แบบแบบทัวริง ก็สามารถอิมพลีเมนต์ LLM ได้ทุกที่ รวมถึงกลไกภายในของวิดีโอเกมด้วย
    แต่จากจุดนั้นกลับสรุปว่าจำเป็นต้องเปลี่ยนวิธีคิดเกี่ยวกับ LLM ครั้งใหญ่ ตัวอย่างเช่น ถ้าคัดลอก LLM เข้าไปใน AoE II แล้วป้อนคำว่า “เหงา” จากนั้นมันตอบว่า “น่าเสียดายนะ ลองไปเจอเพื่อนดูไหม? ในสถานการณ์แบบนี้ ความใกล้ชิดช่วยได้นะ” ก็ยังยากที่จะโน้มน้าวว่า AoE II-LLM นั้นรู้จริงว่าอะไรช่วยได้ มีความเห็นอกเห็นใจจริง หรือผลลัพธ์ของมันน่าเชื่อถือโดยไม่ขึ้นกับธรรมชาติที่เป็นเพียงการจำลอง
    อาจเป็นอคติจากการที่ผมคุ้นกับวิศวกรรมซอฟต์แวร์และฮาร์ดแวร์ แต่ผมไม่รู้สึกว่ามีการเปลี่ยนกรอบคิดอะไรเลย “การ์ดจอในดาต้าเซ็นเตอร์สร้างโทเค็นนี้ขึ้นมา” กับ “เครื่องทัวริงในวิดีโอเกมสร้างมันขึ้นมา” สำหรับผมไม่ได้ให้ความรู้สึกต่างกัน
    ผมเห็นด้วย 100% ว่าเราจัดวาง LLM ไว้ในแบบจำลองโลกของเราได้ยาก และเรามีแนวโน้มจะ ทำให้มันมีลักษณะเป็นมนุษย์ มากเกินไป แต่ไม่เข้าใจว่าบทความนี้ช่วยแก้ปัญหานั้นอย่างไร

    • ฟังดูเหมือนการเอา ข้อโต้แย้งห้องภาษาจีน ของ Searle มาแพ็กใหม่ ซึ่งผมก็รู้สึกติดขัดทางปรัชญากับมันมาตลอด และดูเหมือนในบทความก็พูดถึงเรื่องนี้แค่สั้น ๆ
      มันน่าจะกำลังทำผิดพลาดแบบเดิม คือแสดงให้เห็นว่าระบบอย่างคนในห้องภาษาจีนหรือเกมเอนจิน “ก็แค่” ทำตามกฎ แล้วจึงสรุปว่าเพราะแบบนั้นเราจึงไม่อาจมอบความฉลาดหรือคุณสมบัติแบบมนุษย์ทั่วไปให้มันได้
      แต่ผมไม่คิดว่าจะโต้แย้งได้ว่า เพียงเพราะเราลดบางสิ่งลงเป็นชิ้นส่วนที่ไม่ฉลาดหรือเป็นกฎเกณฑ์ คุณสมบัติที่สังเกตได้ขององค์รวมจะหายไปอย่างน่าอัศจรรย์
      แต่ก็ไม่ได้อ่านข้อโต้แย้งทั้งหมดของบทความนะ ผมก็เป็นแค่คนคอมเมนต์ในอินเทอร์เน็ต
  • น่าเสียดายที่บทความไม่ได้พูดถึง AI จริง ๆ ของ AOE2 เลย AI ของ AOE2 ใช้ CLIPS เป็นฐาน ซึ่งเป็นระบบผู้เชี่ยวชาญแบบ s-expression บนเอนจิน RETE และมีคนรู้จักของผมอินกับมันมากจนเขียนทั้งบทแนะนำ, คอร์สสอน หรือแม้แต่เซิร์ฟเวอร์แชตแบบประกาศเจตนา
    เอกสาร AI ของ AOE2 อยู่ที่ https://www.scribd.com/document/348253/CPSB และ https://userpatch.aiscripters.net/reference.html ตัวอย่างจะเป็นการตั้งเงื่อนไขเชิงกลยุทธ์และเป้าหมายแบบอิงกฎตามนี้

    • ทีม Magic the Gathering: Arena ก็ใช้ CLIPS เพื่อสร้างส่วนสำคัญของเอนจินกฎที่ขับเคลื่อน Magic แบบดิจิทัลด้วย
  • ในบทคัดย่อมีคำผิดที่ทำให้ความหมายเปลี่ยน ควรเป็น “Age of Empires II in” ไม่ใช่ “Age of Empires II on
    บทความนี้อ้างว่าได้สร้างและฝึกโครงข่ายประสาทใน AoE 2 และยังอ้างอีกว่า Lego หรือแม้แต่ Boston ก็สามารถเป็นซับสเตรตของโครงข่ายประสาทได้ ตัวอย่างที่เกี่ยวข้องกับกรณีแรกคือ Wang tiling และของกรณีหลังคือ billiard-ball computers แนวคิดนี้ยังถูกนำไปทำจริงในงานวิจัยปี 2011 โดยใช้ฝูงปูทหารมีชีวิต M. guinotae จนถูกเรียกว่า “crab computers”

  • วันนี้เพิ่งรู้ว่า AOEII สมบูรณ์แบบแบบทัวริง

    • ความสมบูรณ์แบบแบบทัวริง เป็นเกณฑ์ที่ต่ำมาก
    • บ่อยครั้งแค่เพิ่มความซับซ้อนให้ระบบเพียงนิดเดียว ก็แทบเป็นไปไม่ได้แล้วที่จะทำให้มันยังคงต่ำกว่า เกณฑ์ความสมบูรณ์แบบแบบทัวริง บทความดีมากของ Gwern อยู่ที่นี่
  • มันน่าจะเป็นโพสต์บล็อกที่น่าสนใจได้ แต่กลับกลายเป็นบทความวิชาการที่อ่านยากและวางท่าฟุ่มเฟือย น่าจะใช้เงินภาษีด้วย และไม่ได้เป็นประโยชน์กับใครเลย

    • โชคดีที่ในบทความไม่มีข้อมูลทุนวิจัย แต่ดูจากลำดับสังกัดผู้เขียนแล้ว เกือบแน่ใจว่า Microsoft เป็นคนออกทุนทั้งหมด
  • พออ่านย่อหน้านี้แล้ว ผมก็เสียดายที่ไม่เชื่อสัญชาตญาณตัวเองตั้งแต่แรกว่ามันคงไม่คุ้มค่าแก่การอ่าน
    ผมมีพื้นฐานด้านปรัชญาจิต และพอเห็นการอ้างอิงในบทที่ 2 ก็พอเดาได้ว่าบทความจะเดินข้อโต้แย้งแบบไหน แต่พออ่านจบแล้ว ผมก็ยังไม่เข้าใจเลยว่าตกลงบทความนี้กำลังเสนอข้อโต้แย้งอะไรกันแน่