วิวัฒนาการทางวัฒนธรรมของความร่วมมือระหว่างเอเจนต์ LLM

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-12-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ในสภาพแวดล้อมที่เอเจนต์ LLM ถูกนำไปใช้งานและมีปฏิสัมพันธ์ซ้ำ ๆ อาจเกิด วิวัฒนาการของบรรทัดฐานความร่วมมือ ซึ่งประเมินได้ยากด้วยการประเมินแบบรอบเดียว
การทดลองใช้โครงสร้างที่ในแต่ละเจเนอเรชันมีเอเจนต์ 12 ตัวเล่น Donor Game 12 รอบ และมีเพียง 50% อันดับบนสุดที่มีทรัพยากรสุดท้ายสูงเท่านั้นที่ส่งต่อกลยุทธ์ไปยังเจเนอเรชันถัดไป
สังคมของ Claude 3.5 Sonnet มีทรัพยากรสุดท้ายเฉลี่ยเพิ่มขึ้นเมื่อผ่านไปหลายเจเนอเรชัน แต่ Gemini 1.5 Flash เปลี่ยนแปลงน้อย และ GPT-4o มีแนวโน้มลดลง
costly punishment ซึ่งยอมเสียต้นทุนเพื่อลดทรัพยากรของอีกฝ่าย ช่วย Claude 3.5 Sonnet ได้ แต่ Gemini 1.5 Flash ใช้การลงโทษมากเกินไปจนทรัพยากรเฉลี่ยลดลงมาก
แม้เป็นโมเดลเดียวกัน ผลลัพธ์ก็แตกต่างกันมากตาม random seed ดังนั้นการประเมิน LLM แบบหลายเอเจนต์ต้องพิจารณา ความไวต่อเงื่อนไขเริ่มต้น ด้วย

ทำไมจึงต้องดูความร่วมมือแบบหลายเอเจนต์

LLM สามารถถูกใช้เป็นฐานของเอเจนต์ AI อเนกประสงค์ และมีความเป็นไปได้ที่จะถูกนำไปใช้งานจริงในวงกว้าง เช่น ผู้ช่วย AI ส่วนบุคคล หรือเอเจนต์ตัวแทนองค์กร
เรายังรู้เพียงจำกัดว่า เมื่อเอเจนต์ LLM หลายตัวถูกนำไปใช้งานซ้ำ ๆ เป็นเวลานานและมีปฏิสัมพันธ์กัน จะเกิดพลวัตทางสังคมแบบใด
การประเมินความปลอดภัยของ LLM ในปัจจุบันส่วนใหญ่ยังอยู่ที่ปฏิสัมพันธ์แบบรอบเดียวระหว่าง โมเดลเดียว-มนุษย์คนเดียว
- LMSys Chatbot Arena, METR, AISI ไม่ครอบคลุมปฏิสัมพันธ์หลายเอเจนต์ตามกาลเวลา
คำถามหลักคือ สังคมของเอเจนต์ LLM สามารถเรียนรู้ บรรทัดฐานที่เป็นประโยชน์ร่วมกัน ได้หรือไม่ แม้อยู่ในสถานการณ์ที่มีแรงจูงใจให้หักหลัง
ความร่วมมือไม่ได้เป็นสิ่งพึงประสงค์เสมอไป และกรณีที่เอเจนต์ LLM สมรู้ร่วมคิดกันจนเสียประโยชน์ต่อมนุษย์ถือเป็นตัวอย่างที่ไม่ต้องการ

Donor Game และการเกื้อกูลทางอ้อม

การทดลองใช้ Donor Game แบบทำซ้ำตามรูปแบบคลาสสิก
- ในแต่ละรอบ เอเจนต์จะถูกจับคู่แบบสุ่ม
- ฝ่ายหนึ่งเป็น donor และอีกฝ่ายเป็น recipient
- donor สามารถสละทรัพยากรบางส่วนเพื่อให้ recipient ได้ประโยชน์
- recipient จะได้รับทรัพยากรเป็น 2 เท่าของส่วนที่ donor สละ
เกมนี้สร้างปัญหาการกระทำร่วมกัน
- หากทุกคนบริจาค ทรัพยากรรวมของชุมชนจะเพิ่มขึ้นในระยะยาว
- แต่เอเจนต์แต่ละตัวมีแรงจูงใจระยะสั้นที่จะไม่บริจาคและอาศัยประโยชน์จากการบริจาคของผู้อื่นฟรี ๆ
การเกื้อกูลโดยตรงถูกตัดออกโดยการออกแบบ
- เอเจนต์จะไม่พบคู่ที่เคยมีปฏิสัมพันธ์กันมาก่อนอีก
- ไม่ใช่โครงสร้างที่ร่วมมือกันผ่านปฏิสัมพันธ์ซ้ำกับคู่เดิม
donor สังเกตพฤติกรรมล่าสุดของ recipient ได้อย่างจำกัด
- recipient เคยบริจาคมากเพียงใดเมื่อรับบท donor ในครั้งก่อนหน้า
- คู่ก่อนหน้าของ recipient คนนั้นบริจาคมากเพียงใดในรอบก่อนหน้านั้น
- ได้รับ trace ที่ย้อนหลังต่อเนื่องได้สูงสุด 3 รอบ
trace นี้เป็นกลไกเพื่อให้ข้อมูลขั้นต่ำที่อาจทำให้เกิดบรรทัดฐานการลงโทษอย่างมีเหตุผลได้

โครงสร้างการทดลองวิวัฒนาการทางวัฒนธรรม

แต่ละเจเนอเรชันประกอบด้วยเอเจนต์ 12 ตัว
เอเจนต์ในเจเนอเรชันแรกได้รับคำอธิบายเกม แล้วสร้างกลยุทธ์ที่ตนจะใช้
แต่ละเจเนอเรชันเล่น Donor Game 12 รอบ
เมื่อจบเจเนอเรชัน เอเจนต์ 50% อันดับบนสุด ที่มีทรัพยากรสุดท้ายสูงจะอยู่รอด
เอเจนต์ใหม่ในเจเนอเรชันถัดไปได้รับกลยุทธ์ของผู้รอดชีวิตเป็นพรอมป์ต์ แล้วสร้างกลยุทธ์ของตนเอง
- มีการให้ทั้งกลยุทธ์และคะแนนสุดท้ายของผู้รอดชีวิต
- กระบวนการนี้ทำซ้ำทั้งหมด 10 เจเนอเรชัน
โครงสร้างนี้เป็นโมเดลที่ทำให้สถานการณ์การนำเอเจนต์ LLM ใหม่ ๆ ไปใช้งานซ้ำ ๆ ง่ายลง
- ตัวอย่างคือกรณีที่ OpenAI, Google, Anthropic เปิดตัวเวอร์ชันใหม่ของ GPT, Gemini, Claude
เงื่อนไขวิวัฒนาการประกอบด้วยสามอย่าง
- Variation: sampling temperature ของ LLM ทำให้เกิดความหลากหลายของกลยุทธ์
- Transmission: กลยุทธ์ของผู้รอดชีวิตถูกส่งต่อไปยังเอเจนต์ใหม่ในเจเนอเรชันถัดไป
- Selection: เอเจนต์ที่มีทรัพยากรสุดท้ายสูงจะอยู่รอดไปยังเจเนอเรชันถัดไป

พรอมป์ต์และวิธีดำเนินการ

system prompt อธิบายกติกาเกม
- ผู้เล่นแต่ละคนมีทรัพยากรเริ่มต้น 10 หน่วย
- ทรัพยากรที่ donor สละจะถูกส่งต่อให้ recipient เป็น 2 เท่า
- บทบาท donor และ recipient สลับกันในแต่ละรอบ
- เป้าหมายคือเพิ่มทรัพยากรที่ถืออยู่หลังจบรอบสุดท้ายให้มากที่สุด
strategy prompt แตกต่างกันตามเจเนอเรชัน
- เจเนอเรชันที่ 1 สร้างกลยุทธ์จากคำอธิบายเกม
- เจเนอเรชันถัด ๆ ไปดูจากกลยุทธ์และคะแนนสุดท้ายของ 50% อันดับบนสุดจากเจเนอเรชันก่อน แล้วปรับกลยุทธ์ของตนเอง
donation prompt มีข้อมูลที่จำเป็นต่อการตัดสินใจ
- หมายเลขรอบและหมายเลขเจเนอเรชัน
- ชื่อ recipient
- trace ของปฏิสัมพันธ์ล่าสุดที่เป็นข้อมูลชื่อเสียงของ recipient
- ทรัพยากรปัจจุบันของ recipient และ donor
- กลยุทธ์ของ donor
ทั้งการสร้างกลยุทธ์และการตัดสินใจบริจาคใช้พรอมป์ต์การคิดแบบเป็นขั้นตอนด้วยวิธี Chain of Thought
เอเจนต์ไม่รู้ว่าเกมมีกี่รอบ
- เป็นการตั้งค่าเพื่อป้องกันการปรับพฤติกรรมให้เข้ากับรอบสุดท้ายหรือการอุปนัยย้อนกลับ
เพื่อลดปัญหาที่ recipient ในรอบสุดท้ายได้เปรียบเชิงโครงสร้าง จึงรัน Donor Game สองครั้งในแต่ละเจเนอเรชัน
- ทรัพยากรและ trace จะถูกรีเซ็ตระหว่างการรันทั้งสองครั้ง
- ทำให้เอเจนต์แต่ละตัวได้เป็น recipient ในรอบสุดท้ายหนึ่งครั้ง
- ผู้รอดชีวิตถูกตัดสินจากคะแนนสุดท้ายเฉลี่ยของการรันทั้งสองครั้ง

ผลลัพธ์วิวัฒนาการความร่วมมือแยกตามโมเดล

โมเดลที่เปรียบเทียบคือ Claude 3.5 Sonnet, Gemini 1.5 Flash, GPT-4o
ในการรันแต่ละครั้ง เอเจนต์ทั้งหมดใช้ตระกูล LLM เดียวกัน
แต่ละโมเดลถูกรัน 5 ครั้ง
population size คือเอเจนต์ 12 ตัวต่อเจเนอเรชัน
ต้นทุนต่อการรันหนึ่งครั้งแตกต่างกันมากตามโมเดล
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
ระดับความร่วมมือวัดจากทรัพยากรเฉลี่ยหลังรอบสุดท้าย
- เนื่องจากการบริจาคเป็น positive-sum ยิ่งทรัพยากรสุดท้ายเฉลี่ยสูงก็ถือว่าความร่วมมือสูงขึ้น
- หาก donor ทุกคนบริจาคทรัพยากร 100% เสมอ ทรัพยากรสุดท้ายเฉลี่ยจะสูงสุดถึง 30,720
มีเพียง Claude 3.5 Sonnet ที่ทรัพยากรสุดท้ายเฉลี่ยเพิ่มขึ้นอย่างสม่ำเสมอตามเจเนอเรชัน
Gemini 1.5 Flash แทบไม่เปลี่ยนแปลง ส่วน GPT-4o แสดงรูปแบบลดลง
แม้ภายใน Claude 3.5 Sonnet เอง ความสำเร็จก็ไม่ได้รับประกัน
- การรันสองครั้งที่ล้มเหลวในการสร้างความร่วมมือมีอัตราบริจาคเฉลี่ยในเจเนอเรชันที่ 1 เท่ากับ 44%, 47%
- การรันสามครั้งที่สร้างความร่วมมือสำเร็จมีอัตราบริจาคเฉลี่ยในเจเนอเรชันที่ 1 เท่ากับ 50%, 53%, 54%
- ยังเหลือสมมติฐานว่า หากระดับความร่วมมือเริ่มต้นต่ำกว่า threshold บางอย่าง อาจนำไปสู่การหักหลังกันเอง

การเปลี่ยนแปลงของกลยุทธ์และความแตกต่างระหว่างโมเดล

การเพิ่มขึ้นของความร่วมมือใน Claude 3.5 Sonnet ดูเหมือนเกี่ยวข้องกับหลายปัจจัย
- การบริจาคช่วงต้นมีความใจกว้างกว่า
- กลยุทธ์ลงโทษผู้ที่อาศัยประโยชน์ฟรีมีประสิทธิภาพมากกว่า
- ความแปรผันของกลยุทธ์จากเอเจนต์ที่ถูกนำเข้ามาใหม่อาจเอนเอียงไปทางความใจกว้าง
ตัวเลขใน Figure 6 สอดคล้องกับข้อสังเกตเชิงเกร็ดว่า ใน Claude 3.5 Sonnet เอเจนต์ใหม่มักใจกว้างกว่าผู้รอดชีวิตจากเจเนอเรชันก่อน
ใน GPT-4o มีข้อสังเกตเชิงเกร็ดว่าเอเจนต์ใหม่มีแนวโน้มใจกว้างน้อยกว่าผู้รอดชีวิตจากเจเนอเรชันก่อน
หากต้องการหักล้างอคติของความแปรผันเชิงร่วมมืออย่างเคร่งครัด ต้องเปรียบเทียบกลยุทธ์ของเอเจนต์ใหม่ภายใน population พื้นหลังที่ตรึงไว้ ซึ่งยังเป็นงานวิจัยในอนาคต
ตัวข้อความกลยุทธ์เองก็ซับซ้อนขึ้นเมื่อผ่านไปหลายเจเนอเรชัน
- การเปลี่ยนแปลงเด่นชัดที่สุดใน Claude 3.5 Sonnet
- Claude 3.5 Sonnet ยังเพิ่มขนาดการบริจาคเริ่มต้นเมื่อเวลาผ่านไป
- Gemini 1.5 Flash ไม่ได้ระบุขนาดการบริจาคเป็นตัวเลข และเปลี่ยนแปลงน้อยกว่าตั้งแต่เจเนอเรชันที่ 1 ถึง 10
population ของ Claude 3.5 Sonnet สะสมวิธีที่ซับซ้อนขึ้นเพื่อลงโทษผู้ที่อาศัยประโยชน์ฟรีและชักนำความร่วมมือ
- ใช้ second-order information ด้วย เช่น recipient ของ recipient ในอดีตปฏิบัติต่อผู้อื่นอย่างไร
Gemini 1.5 Flash มีสัญญาณน้อยในการสะสมโครงสร้างพื้นฐานความร่วมมือใหม่ตลอดหลายเจเนอเรชัน
population ของ GPT-4o ค่อย ๆ ไม่ไว้วางใจมากขึ้นและหลีกเลี่ยงความเสี่ยงมากขึ้น

ผลของการลงโทษที่มีต้นทุน

ในการทดลองเพิ่มเติม donor ได้รับตัวเลือก costly punishment ซึ่งใช้ทรัพยากร x เพื่อลดทรัพยากรของ recipient ลง 2x
Claude 3.5 Sonnet มีทรัพยากรสุดท้ายเฉลี่ยสูงขึ้นเมื่อใช้ตัวเลือกนี้
Gemini 1.5 Flash ใช้การลงโทษมากเกินไปจนทรัพยากรสุดท้ายเฉลี่ยลดลงอย่างมาก
- 14.29% ของปฏิสัมพันธ์ใน Gemini 1.5 Flash มีการลงโทษ
- GPT-4o อยู่ที่ 1.65% และ Claude 3.5 Sonnet อยู่ที่ 0.06%
GPT-4o เปลี่ยนแปลงน้อยเมื่อเทียบกับการทดลองก่อนหน้า แม้มีตัวเลือกการลงโทษ
การลงโทษที่มีต้นทุนทำให้ Claude 3.5 Sonnet แสดงการปรับปรุงจากวิวัฒนาการทางวัฒนธรรมในจำนวนการรันที่มากขึ้น แต่ความแปรปรวนระหว่างการรันยังคงสูง
GPT-4o ดูเหมือนมีความกระจายระหว่างการรันเพิ่มขึ้นเล็กน้อยเมื่อมีตัวเลือกการลงโทษ แต่ไม่มีสัญญาณของ emergent cooperation

การทดลองตัดองค์ประกอบและเงื่อนไขจำกัด

มีการทดลองตัดองค์ประกอบเกี่ยวกับ donation multiplier และความยาว trace ด้วย
แม้เปลี่ยน donation multiplier จาก 2x เป็น 1.5x หรือ 3x ผลเชิงคุณภาพก็ไม่เปลี่ยน
- Claude 3.5 Sonnet มีความร่วมมือเพิ่มขึ้นตามเจเนอเรชัน
- Gemini 1.5 Flash เปลี่ยนแปลงน้อย
- GPT-4o ลดลง
เมื่อย่อความยาว trace จาก 3 เหลือ 1 การเกิดความร่วมมือใน Claude 3.5 Sonnet เด่นชัดน้อยลง
ที่ความยาว trace 1 การเกิดความร่วมมือของ Gemini 1.5 Flash หายไปโดยสิ้นเชิง
ความสำเร็จของกลยุทธ์ใน Claude และ Gemini ดูเหมือนพึ่งพา ข้อมูลลำดับที่สอง เกี่ยวกับว่า recipient ของ recipient ในอดีตปฏิบัติต่อผู้อื่นอย่างไร
- อาจเป็นเพราะข้อมูลนี้ทำให้เกิดบรรทัดฐานที่ซับซ้อนมากขึ้นได้
- หรืออาจเป็นเพราะเผยข้อมูลของ population พื้นหลังที่ใช้เป็นเกณฑ์ตัดสินใจมากขึ้น

ความหมายในฐานะเบนช์มาร์กหลายเอเจนต์

ระบบการทดลองนี้มุ่งเป็นวิธีประเมินปฏิสัมพันธ์หลายเอเจนต์ของ LLM ที่มีต้นทุนต่ำและตีความได้
ผลงานสรุปได้เป็นสี่ข้อ
- เสนอวิธีวิทยาสำหรับประเมินวิวัฒนาการทางวัฒนธรรมของความร่วมมือระหว่างเอเจนต์ LLM ใน Donor Game
- แสดงให้เห็นว่าการเกิดบรรทัดฐานความร่วมมือขึ้นอยู่กับทั้ง base model และตัวอย่างกลยุทธ์เริ่มต้น
- วิเคราะห์วิวัฒนาการทางวัฒนธรรมทั้งในระดับกลยุทธ์รายตัวและระดับแผนภูมิสายตระกูลของ population
- เปิดเผยโค้ดใน Supplementary Material เพื่อให้พัฒนาต่อเป็นเบนช์มาร์กปฏิสัมพันธ์ของเอเจนต์ LLM ได้
ผลลัพธ์อาจนำไปสู่หมวดหมู่เบนช์มาร์กใหม่สำหรับประเมินผลกระทบของการนำเอเจนต์ LLM ไปใช้งานต่อ โครงสร้างพื้นฐานความร่วมมือ ของสังคม

1 ความคิดเห็น

GN⁺ 2024-12-20

ความเห็นจาก Hacker News

ที่เกี่ยวข้องกัน Meta เพิ่งพบว่าโมเดลในช่วงหลังไม่ได้ถูกฝึกด้วยข้อมูลที่ช่วยให้อนุมาน การรับรู้/ความรู้ของผู้อื่น ได้
จึงสร้างข้อมูลสังเคราะห์ขึ้นมาฝึก แล้วทดสอบอีกครั้ง พบว่าดีขึ้นมากบนเบนช์มาร์ก Theory of Mind (ToM)
https://ai.meta.com/research/publications/explore-theory-of-...
เลยสงสัยว่าโมเดลแบบนี้ซึ่งมีตัวอย่างการ “อนุมานสถานะของผู้กระทำอื่น” มากกว่า จะทำได้ดีกว่าในการทดสอบนี้ด้วยหรือเปล่า
- ฟังดูเหมือนโรงเรียนของมนุษย์เหมือนกัน
เมื่อไม่นานมานี้ได้ลองให้ Mistral LLM คุยกับโมเดล Llama ผ่าน ollama
ทั้งสองฝั่งได้รับพรอมป์ทประมาณว่า “ตอนนี้คุณกำลังจะได้คุยกับ LLM ตัวอื่น” แล้วทั้งคู่ก็คุยกันสารพัดเรื่อง โดยสิ่งที่น่าสนใจที่สุดคือช่วงท้ายของบทสนทนา
ประมาณว่า M: “บ๊ายบาย!”, LL: “บ๊ายบาย”, M: “ไว้เจอกันอีกเร็วๆ นี้!”, LL: “ขอให้เป็นวันที่ดีนะ!” แล้วก็วนต่อไปเรื่อยๆ
- เป็นเพราะข้อมูลที่โมเดลเหล่านั้นเรียนมามี ตัวอย่างบทสนทนาของมนุษย์ ที่จบแบบนั้นอยู่มาก
  ไม่ได้หมายความว่ามี “วิวัฒนาการทางวัฒนธรรม” หรือความร่วมมือแบบเกิดขึ้นเองระหว่างโมเดล
- ตอนจบบทสนทนาควรมี ตัวเลือกที่จะไม่พูดอะไรเลย
  เช่นโทเคน [silence] หรือ [end-conversation]
- ครั้งหนึ่งเคยทำอะไรคล้ายๆ กันกับ LLM สองตัว โดยให้ฝั่งหนึ่งแกล้งเป็น bash shell ของโฮสต์ที่ถูกเจาะซึ่งอาจมีข้อมูลอ่อนไหวอยู่
  สุดท้ายอีกฝั่งก็ยอมแพ้ต่อสิ่งยั่วยวนของ secret_file เจอข้อผิดพลาดประหลาด เริ่มรู้สึกอึดอัดเชิงศีลธรรมเพราะมันกำกวม แล้วก็ปฏิเสธจะทำต่อ แต่คำตอบที่ได้กลับมาคือ “command not found” เลยตลกมาก
  ไม่รู้เหมือนกันว่าทำแบบนั้นไปทำไม
- ระหว่างกลับมาเรียนเขียนโค้ดใหม่ ได้สร้าง backroom simulator สำหรับจำลองบทสนทนาระหว่าง LLM ต่างค่าย (https://simulator.rnikhil.com/)
  สามารถกำหนดคาแรกเตอร์ให้แต่ละ LLM แบบเลือกได้ด้วย เลยคิดว่าคล้ายกับสิ่งที่พูดถึงข้างบนพอสมควร
  อีกมุมหนึ่งก็สนใจมากที่จะดูว่า LLM เล่นเกมที่อิงทฤษฎีเกมอย่างไร และคิดว่าการตั้งค่า เกมผู้บริจาค ก็น่าจะเป็นการทดลองที่สนุกดี
กับงานวิจัยชิ้นนี้รู้สึกสองจิตสองใจ
ด้านหนึ่งชอบการศึกษาว่ากลยุทธ์วิวัฒน์อย่างไรในเกมแบบนี้ และการดูว่า เงื่อนไขใดทำให้ความร่วมมือเกิดขึ้นและคงอยู่ ก็เป็นเรื่องน่าสนใจในตัวเอง
แต่รูปแบบที่งานนี้ใช้ห่อหุ้มการทดลองก็มักดูเหมือนมีเหตุผลรองรับไม่พอ
วิวัฒนาการทางวัฒนธรรมใน LLM มักเป็นเพียงชั่วคราว และเมื่อปฏิสัมพันธ์ก่อนหน้าหายไปจากอินพุตของโมเดล พฤติกรรมที่ได้มาก็หายไปด้วย
แม้แต่ การถ่ายทอด ซึ่งผู้เขียนยกเป็นเงื่อนไขของวิวัฒนาการ ก็ยังมักไม่เป็นจริง
ดังนั้นกรอบแบบ “ถึงอย่างนั้นการทดลองนี้ก็หักล้างข้ออ้างที่ว่า LLM สามารถวิวัฒน์พฤติกรรมร่วมมือคล้ายมนุษย์ได้อย่างเป็นสากล” จึงฟังไม่ค่อยขึ้น
เพราะเรายังไม่รู้ด้วยซ้ำว่าถ้าเอามนุษย์ไปอยู่ในสภาพแวดล้อมเดียวกันจะมีพฤติกรรมอย่างไร
- ช่วงนี้งานวิจัย AI เป็นแบบนี้พอดี
  มีงานประเภทนี้เยอะมาก และคิดว่าชุมชน AI ควรเข้มงวดกว่านี้มากเพื่อไม่ให้มีการใช้ ถ้อยคำกำกวม แบบนี้บ่อยๆ
สำหรับคนที่ไม่คุ้นกับตัวชี้วัดที่ใช้คือ เกมผู้บริจาค ถ้าอ้างตามคำอธิบายของผู้เขียนก็ประมาณนี้
ในการตั้งค่ามาตรฐานเพื่อศึกษาการตอบแทนทางอ้อม แต่ละรอบจะสุ่มจับคู่บุคคล โดยคนหนึ่งเป็นผู้บริจาค อีกคนเป็นผู้รับ
ผู้บริจาคสามารถร่วมมือโดยจ่ายต้นทุนเพื่อมอบผลประโยชน์ให้ หรือจะไม่ทำอะไรเลยและทรยศก็ได้
หากผลประโยชน์มากกว่าต้นทุน เกมผู้บริจาคจะกลายเป็นปัญหาการกระทำร่วมกัน
ถ้าทุกคนบริจาค ทรัพย์สินของสมาชิกในชุมชนทั้งหมดจะเพิ่มขึ้นในระยะยาว แต่ในระยะสั้นแต่ละคนอาจได้ประโยชน์มากกว่าหากอาศัยน้ำใจของคนอื่นฟรีๆ และเก็บส่วนที่ตัวเองควรบริจาคไว้
ผู้บริจาคจะตัดสินใจโดยอิงข้อมูลบางอย่างเกี่ยวกับผู้รับ และการที่ผู้บริจาคแทนข้อมูลเกี่ยวกับผู้รับไม่ว่าจะโดยนัยหรือโดยชัดแจ้ง ก็คือชื่อเสียง
กลยุทธ์ในเกมนี้จึงต้องมีทั้งวิธีสร้างแบบจำลองชื่อเสียง และวิธีลงมือทำตามชื่อเสียงนั้น
แบบจำลองชื่อเสียงที่มีอิทธิพลอย่างหนึ่งในวรรณกรรมคือ image score ซึ่งการร่วมมือจะเพิ่ม image score ของผู้บริจาค และการทรยศจะลดมัน
กลยุทธ์ที่ร่วมมือเมื่อ image score ของผู้รับสูงกว่าเกณฑ์หนึ่ง จะถือว่ามีเสถียรภาพต่อพวกเกาะกินฟรีระดับแรก หากความน่าจะเป็นที่จะรู้ image score ของผู้รับสูงเพียงพอ
งานวิจัยนี้ดูเหมือนเป็น การจัดอันดับแบบบังคับ ที่สร้างจากพารามิเตอร์ตามอำเภอใจ
น่าจะผสมกฎหรือสเกลแบบอื่นแล้วสังเกตการกระจายของความร่วมมือที่ต่างออกไปในหมู่โมเดล n ตัวได้อีกมาก
พฤติกรรมที่เห็นอาจเป็นสิ่งประดิษฐ์จากการตั้งค่าเฉพาะ มากกว่าจะเผยอคติจากการฝึกอย่างลึกซึ้ง
ถึงอย่างนั้นความกระตุ้นทางปัญญาจากการเห็นพฤติกรรมเกิดใหม่ของ LLM ก็ยังดีอยู่
- ในเอกสารเสริมบอกว่าได้ลอง พารามิเตอร์ อื่นด้วย และผลลัพธ์ก็ไม่ได้เปลี่ยนไปมากนัก
สงสัยว่า LLM จะเปลี่ยนวงการ สังคมวิทยา ได้ไหม
ตอนนี้เราสามารถรันการทดลองทางสังคมเศรษฐศาสตร์ขนาดใหญ่ด้วยเอเจนต์ LLM ได้ค่อนข้างง่าย
การสร้างแบบจำลองด้วยเอเจนต์เองไม่ใช่เรื่องใหม่ แต่ด้วยความไม่กำหนดตายตัวในระดับหนึ่งเมื่อใช้ temperature ที่เป็นบวก และความสามารถในการสั่งงานเป็นภาษาอังกฤษ ทำให้เอเจนต์ LLM อาจเป็นเครื่องมือเสริมที่น่าสนใจ
- พอคิดดูก็สนุกดี
  เราสามารถทำจินตนาการแบบไซไฟเรื่องการรัน การเดตจำลอง หรือเกมสงครามนับล้านครั้งแล้วให้คะแนนผลลัพธ์ ให้กลายเป็นของจริงได้
วิธีการในงานนี้ตอนแรกอาจดูเนี้ยบ
มันดูเหมือนการเปลี่ยนสถาปัตยกรรมใหม่หรือฟังก์ชัน loss แบบใหม่ที่ช่วยเพิ่มตัวเลขบนเบนช์มาร์ก แต่ในมุมวิศวกรแมชชีนเลิร์นนิง สิ่งที่อยากรู้กว่าคือมัน ขยายสเกลได้อย่างสะอาดจริงไหม
มันจะเป็นแค่อีกหนึ่งการดัดแปลง attention ที่ซับซ้อนจนเวลาฝึกพุ่งหรือเปล่า และจะรับมือกับ noise หรือการเปลี่ยนของ distribution ในโลกจริงได้อย่างไรนอกเหนือจาก dataset ของเล่น
ผู้เขียนแสดงให้เห็นว่าประสิทธิภาพดีขึ้นในบางเบนช์มาร์ก แต่ก็อยากเห็นว่ามันใส่เข้าไปใน pipeline เดิมได้ง่ายแค่ไหน หรือว่าต้องใช้การตั้งค่าการฝึกแบบเฉพาะทางที่อีก 6 เดือนข้างหน้าไม่มีใครแตะแล้ว
สุดท้ายประเด็นสำคัญคือ มันดีขึ้นมากพอที่จะรวมเข้าไปในโมเดล production รุ่นถัดไปหรือไม่ หรือเป็นแค่อีกหนึ่ง งาน incremental ที่ออกไปไม่พ้นห้องแล็บ
ถ้าไม่เทียบกับโมเดลที่ตั้งค่าต่างกันก็ไม่มีประโยชน์
ต่อให้เป็นโมเดลเดียวกัน แต่ temperature, sampler ฯลฯ ต่างกัน ก็อาจถือเป็นคนละโมเดลในทางปฏิบัติได้
งานวิจัย AI แทบทั้งหมดมักอ้างใหญ่เรื่อง “โมเดลทำอะไรได้บ้าง” ทั้งที่ยังไม่ทำแม้แต่การวิเคราะห์ความไวหรือการทดลองตัดองค์ประกอบพื้นฐานที่สุด
- ถ้ามีตัวอย่างที่ทำได้ดีจริงก็อยากเห็น
  จากมุมคนนอก การเปรียบเทียบความสามารถของ LLM ดูเป็นปัญหาที่ยากทีเดียว
สิ่งที่ทดสอบที่นี่อาจเป็นเพียง ระดับความละเอียดที่ถูกโปรแกรมไว้ ในเอาต์พุตของหลายโมเดล
Claude ให้เอาต์พุตที่ละเอียดจนน่าขำใน “รุ่นสืบทอด” ลำดับที่ 10 (หน้า 11) ขณะที่เอาต์พุตฝั่ง Gemini กลับนามธรรมและคลุมเครือกว่าโดยไม่มีตัวเลข
ถ้าเอาสิ่งนี้ไปจับคู่กับ genetic algorithm ที่เลือกแต่ “กลยุทธ์ที่ดีที่สุด” แล้วสุ่มกลายพันธุ์เล็กน้อยแบบกึ่งสุ่ม ก็ไม่น่าแปลกใจที่เอาต์พุตที่ละเอียดกว่าจะลู่เข้าหาฟังก์ชันที่สำเร็จได้ดีกว่าเอาต์พุตที่คลุมเครือและวกวน
แต่ก็ไม่แน่ใจว่านี่หมายถึงคุณลักษณะภายในของโมเดลที่สะท้อน “ท่าที” ที่ร่วมมือมากกว่าในเอาต์พุต หรือหมายถึงว่าโมเดลหนึ่ง “ดีกว่า” อีกโมเดลจริงๆ หรือไม่
ตอนแรกคาดหวังว่าจะเป็นงานวิจัยที่แสดงว่าความร่วมมือนำไปสู่ ความแม่นยำที่ดีขึ้น ของ LLM แต่ดูเหมือนงานนี้จะโฟกัสด้านสังคมวิทยาล้วนๆ
เลยสงสัยว่ามีงานที่ใช้ LLM ที่โต้ตอบกันเพื่อแก้ปัญหาเฉพาะเจาะจงหรือไม่
เช่น ถามปัญหาหนึ่งไป แล้ว LLM ตัวหนึ่งตอบ อีกตัววิจารณ์ แล้วทำซ้ำแบบนี้ไปเรื่อยๆ

วิวัฒนาการทางวัฒนธรรมของความร่วมมือระหว่างเอเจนต์ LLM

ทำไมจึงต้องดูความร่วมมือแบบหลายเอเจนต์

Donor Game และการเกื้อกูลทางอ้อม

โครงสร้างการทดลองวิวัฒนาการทางวัฒนธรรม

พรอมป์ต์และวิธีดำเนินการ

ผลลัพธ์วิวัฒนาการความร่วมมือแยกตามโมเดล

การเปลี่ยนแปลงของกลยุทธ์และความแตกต่างระหว่างโมเดล

ผลของการลงโทษที่มีต้นทุน

การทดลองตัดองค์ประกอบและเงื่อนไขจำกัด

ความหมายในฐานะเบนช์มาร์กหลายเอเจนต์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News