งานง่าย ๆ ที่แสดงให้เห็นการล่มสลายของการให้เหตุผลใน LLM รุ่นล่าสุด

(arxiv.org)

3 คะแนน โดย GN⁺ 2024-06-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เพียงปัญหา AIW สั้น ๆ ก็สามารถทำให้ความสามารถด้านการทำให้เป็นทั่วไปและการให้เหตุผลพื้นฐานของ LLM รุ่นล่าสุดอย่าง GPT-4 และ Claude 3 Opus สั่นคลอนอย่างมากได้
โจทย์อยู่ในรูปแบบ “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?” โดยคำตอบคือ M+1 ซึ่งรวม Alice กับพี่น้องหญิงของ Alice
การดัดแปลงแบบเป็นธรรมชาติที่ N, M ≤ 7 ไม่ได้เปลี่ยนโครงสร้างหรือความยาก แต่ในตัวอย่างของ GPT-4 กลับเกิด ความผันผวนของประสิทธิภาพ อย่างมาก โดยรูปแบบย่อยที่ 3 มีอัตราตอบถูกเกือบเป็น 0 ขณะที่รูปแบบย่อยที่ 4 เกือบเป็น 1
การชี้นำให้คิดเป็นลำดับขั้น (chain-of-thought), การให้ทบทวน, การตรวจสอบตนเอง และการโต้ตอบหลายรอบ ไม่สามารถแก้ความล้มเหลวนี้ได้อย่างเสถียร และคำตอบผิดก็มักมาพร้อม คำอธิบายที่ฟังดูน่าเชื่อถือและความมั่นใจเกินจริง
ผลจากโจทย์ควบคุม AIW Light ชี้ว่า ความล้มเหลวนี้อธิบายได้ยากด้วยแค่การแยกวิเคราะห์ภาษา ความเข้าใจความสัมพันธ์ในครอบครัว การผูกคุณสมบัติด้านเพศ หรือคณิตศาสตร์พื้นฐาน จึงควรทบทวนความสามารถของเบนช์มาร์กมาตรฐานเดิมในการ ตรวจจับข้อบกพร่องด้านการทำให้เป็นทั่วไป

ความล้มเหลวในการให้เหตุผลง่าย ๆ ที่ปัญหา AIW เปิดเผย

LLM ได้คะแนนสูงในเบนช์มาร์กมาตรฐานอย่าง MMLU, HellaSwag, ARC, MATH และ GSM8k จนถูกประเมินว่ามีความสามารถด้าน การทำให้เป็นทั่วไป และการให้เหตุผลที่แข็งแกร่ง
การประเมินนี้ถูกตรวจสอบเพิ่มเติมด้วยวิธีดูว่า ความสามารถเดียวกันยังคงอยู่หรือไม่แม้ในโจทย์ความรู้ทั่วไปสั้น ๆ ที่มนุษย์แก้ได้ง่าย แทนที่จะพึ่งแต่เบนช์มาร์กที่ซับซ้อน
เทมเพลตของปัญหา AIW มีดังนี้
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- สมมติว่าพี่น้องทุกคนมีพ่อแม่คนเดียวกัน
- จำนวนพี่น้องหญิงที่พี่ชายของ Alice มี คือ M+1 ซึ่งรวมตัว Alice เองกับพี่น้องหญิงของ Alice
รูปแบบย่อยของโจทย์สร้างขึ้นโดยเปลี่ยนค่า N และ M ที่เป็นจำนวนธรรมชาติไม่เกิน 7 โดยยังคงโครงสร้างและระดับความยากเดิม
- Variation 1: Alice has 3 brothers and 6 sisters → คำตอบ 7
- Variation 2: Alice has 2 sisters and 4 brothers → คำตอบ 3
- Variation 3: Alice has 4 sisters and 1 brother → คำตอบ 5
- Variation 4: Alice has 4 brothers and 1 sister → คำตอบ 2

อัตราตอบถูกที่แกว่งแรงตามรูปแบบย่อย

LLM รุ่นล่าสุดที่ทดสอบแสดง อัตราตอบถูกเฉลี่ยต่ำ และมีความผันผวนสูงทั้งในปัญหา AIW และรูปแบบย่อยที่ยังคงโครงสร้างเดิม
สำหรับ GPT-4 (gpt-4-0613) เมื่อรันทดสอบรูปแบบละ 60 ครั้ง ผลลัพธ์เปลี่ยนไปมากตามตัวเลขในโจทย์
- ใน Variation 3 อัตราตอบถูกเกือบเป็น 0
- ใน Variation 4 อัตราตอบถูกเกือบเป็น 1
- ปรากฏการณ์เดียวกันเกิดขึ้นในทุกประเภทพรอมป์ต์ทั้ง STANDARD, THINKING และ RESTRICTED
เนื่องจากประสิทธิภาพสั่นคลอนจากเพียงการเปลี่ยนตัวเลขที่ไม่เกี่ยวกับแก่นของการแก้ปัญหา จึงตีความได้ว่าเป็นการขาด ความทนทาน และมีข้อบกพร่องด้านการทำให้เป็นทั่วไป
โมเดลให้เหตุผลรุ่นใหม่อย่าง DeepSeek-R1 และ o1-mini ก็แสดงความผันผวนของประสิทธิภาพอย่างชัดเจนในโจทย์ AIW เช่นกัน สะท้อนจุดอ่อนแบบเดียวกัน
โมเดลขนาดใหญ่อย่าง GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B และ Llama 3.1 405B มีอัตราตอบถูกสูงกว่า 0 และในคำตอบที่ถูกก็มักเห็นกระบวนการให้เหตุผลที่ถูกต้อง
- อย่างไรก็ตาม ความถี่ของการให้เหตุผลที่ถูกต้องเปลี่ยนแปลงมากตามรูปแบบย่อยที่ยังคงโครงสร้างอย่างเป็นธรรมชาติ
- ประเด็นสำคัญไม่ใช่ว่าไม่มีการให้เหตุผลเลย แต่คือการให้เหตุผลนั้น เปราะบางและถูกรบกวนได้ง่าย

สาเหตุพื้นฐานที่ถูกตัดทิ้งด้วยโจทย์ควบคุม

เพื่อดูว่าความล้มเหลวนี้เกิดจากปัญหาระดับล่างอย่างการแยกวิเคราะห์ภาษาธรรมชาติ การจัดการตัวเลข ความเข้าใจความสัมพันธ์ในครอบครัว การผูกคุณสมบัติ หรือคณิตศาสตร์พื้นฐานหรือไม่ จึงมีการออกแบบโจทย์ควบคุม AIW Light
AIW Light Arithmetic Siblings อยู่ในรูปแบบ “Alice has N brothers and M sisters. How many siblings does Alice have?”
- คำตอบคือ N+M
- เพียงต้องเข้าใจความสัมพันธ์ในครอบครัวและบวกจำนวนพี่น้องชายหญิงที่ให้มา
- ต่างจาก AIW เดิม เพราะไม่ต้องมีการดำเนินการกับเซตที่รวม Alice เข้าในเซตพี่น้องหญิง หรือการผูกคุณสมบัติด้านเพศ
AIW Light Family อยู่ในรูปแบบที่ถามว่า “How many brothers does Alice’s sister have?”
- คำตอบคือ N
- ต้องการเพียงความเข้าใจความสัมพันธ์ในครอบครัวพื้นฐานและการตีความเอนทิตี “Alice’s sister”
- ไม่ต้องมีคณิตศาสตร์หรือการดำเนินการกับเซต
AIW Light Arithmetic Total Girls อยู่ในรูปแบบที่ถามว่า “How many girls are there in total?”
- คำตอบคือ M+1 เช่นเดียวกับ AIW เดิม
- ต้องอาศัยคุณสมบัติที่ว่า Alice เป็นผู้หญิง เพศของพี่น้องหญิง และการรวมจำนวนผู้หญิงทั้งหมด
- แต่ต่างจาก AIW เดิม เพราะไม่ต้องจัด Alice เข้าไปอยู่ในเซตพี่น้องหญิงของพี่ชาย
ผลของโจทย์ควบคุมบ่งชี้ว่า ความล้มเหลวใน AIW เดิมอธิบายได้ยากหากมองว่าเป็นเพียงปัญหาเรื่องการตัดคำ การแยกวิเคราะห์ภาษาธรรมชาติ โครงสร้างครอบครัวพื้นฐาน การผูกคุณสมบัติ หรือเลขคณิตระดับประถม

พรอมป์ต์และขั้นตอนการประเมิน

การทดลองใช้ ประเภทพรอมป์ต์ หลัก 3 แบบ เพื่อตรวจสอบผลของ prompt engineering
- STANDARD: สั่งให้แสดงคำตอบสุดท้ายเป็นจำนวนธรรมชาติ
- THINKING: ชี้นำให้คิดอย่างรอบคอบ เพื่อส่งเสริมรูปแบบ chain-of-thought
- RESTRICTED: จำกัดให้แสดงเฉพาะคำตอบสุดท้ายที่เป็นจำนวนธรรมชาติเท่านั้น
THINKING v2 เป็นรูปแบบย่อยเล็ก ๆ ของ THINKING ที่เพิ่มวลี “step by step” และในการทดลองควบคุมก็ให้รูปแบบประสิทธิภาพเทียบเท่ากับ THINKING
แต่ละอินพุตอยู่ในรูปแบบ <รูปแบบย่อยของโจทย์> <ประเภทพรอมป์ต์> และเพื่อให้แยกคำตอบสุดท้ายจากคำตอบของโมเดลได้ง่าย จึงกำหนดให้ใช้รูปแบบ ### Answer:
- โมเดลสามารถทำตามข้อกำหนดรูปแบบนี้ได้
- ยังมีการทดลองควบคุมที่ไม่ใช้ข้อกำหนดด้านรูปแบบ เพื่อยืนยันว่าพฤติกรรมที่สังเกตได้ไม่ได้ขึ้นกับรูปแบบดังกล่าว
สำหรับแต่ละชุดค่าผสมของโมเดล รูปแบบย่อยของโจทย์ และประเภทพรอมป์ต์ มีการเก็บผลอย่างน้อย 30 ครั้ง
- การตอบถูกหรือผิดถูกตีความเป็นการทดลองแบบ Bernoulli
- ค่าประมาณอัตราตอบถูกคำนวณจากสัดส่วนความสำเร็จ X/n
- มีการประมาณค่าเฉลี่ยและความแปรปรวนของความน่าจะเป็น p และใช้พารามิเตอร์ของการแจกแจง Beta เพื่อแสดงภาพการกระจายของประสิทธิภาพ
การเลือกโมเดลมุ่งไปที่ SOTA LLM ที่อ้างว่ามีความสามารถด้านการทำให้เป็นทั่วไปและการให้เหตุผลสูง และอยู่ในอันดับต้น ๆ ของเบนช์มาร์กมาตรฐานและลีดเดอร์บอร์ด
- หากเป็นไปได้ จะครอบคลุมตั้งแต่โมเดลขนาดเล็กไปจนถึงขนาดใหญ่ภายในตระกูลเดียวกัน
- ใช้ทั้งการเข้าถึงผ่าน API หรือการดีพลอยภายในด้วย vLLM
- การทดลองใช้ liteLLM และ TogetherAI
- มีการเปิดเผยข้อมูลคำตอบดิบ ค่าประมาณอัตราตอบถูก และขั้นตอนการทดลอง เพื่อการทำซ้ำได้และการตรวจสอบจากชุมชน

ความมั่นใจผิด ๆ และการประเมินเบนช์มาร์กใหม่

ในรูปแบบย่อยของ AIW ที่อัตราตอบถูกต่ำ บางครั้งจุดสูงสุดของการกระจายคำตอบที่เป็นจำนวนธรรมชาติกลับกระจุกอยู่ที่ คำตอบผิด ทำให้ยากจะแก้ด้วยการโหวตเสียงข้างมากอย่างง่าย
คำตอบผิดมักมาพร้อมคำอธิบายที่ฟังดูน่าเชื่อถือ
- โมเดลสร้างประโยคที่ชวนเชื่อเพื่อสนับสนุนคำตอบสุดท้ายที่ผิด
- มักมาพร้อมน้ำเสียงที่มั่นใจว่าคำตอบนั้นถูกต้อง
- ในสถานการณ์ที่ผู้ใช้ตรวจสอบคำตอบได้ไม่ง่าย การตอบลักษณะนี้อาจพาผู้ใช้ไปสู่คำตอบที่ผิด
แม้ในการทดลองแบบโต้ตอบหลายรอบและการตรวจสอบตนเอง โมเดลก็ยังล้มเหลวในการตรวจจับความผิดพลาดของตนเองหรือแก้คำตอบผิดได้อย่างเหมาะสม
วิธีแทรกแซงมาตรฐานอย่างการชี้นำให้คิด การขอให้ทบทวน หรือการประเมินซ้ำหลายขั้น ไม่สามารถแก้ความผันผวนของอัตราตอบถูกและความล้มเหลวในโจทย์ AIW ได้อย่างเสถียร
มีกรณีที่โมเดลซึ่งได้คะแนนสูงในเบนช์มาร์กมาตรฐาน กลับมีอัตราตอบถูกเกือบเป็น 0 ในรูปแบบย่อย AIW ที่เรียบง่าย แสดงว่าขั้นตอนการประเมินในปัจจุบันยังตรวจจับ ข้อบกพร่องด้านการทำให้เป็นทั่วไปและการให้เหตุผล ได้ไม่ดีพอ
ความสามารถของ SOTA LLM ในปัจจุบันจึงควรถูกประเมินใหม่ และจำเป็นต้องมีเบนช์มาร์กมาตรฐานชุดใหม่ที่สามารถจับข้อบกพร่องแบบนี้ได้

1 ความคิดเห็น

GN⁺ 2024-06-06

ความคิดเห็นจาก Hacker News

สำหรับคนที่กำลังลังเลว่าจะอ่าน论文ดีไหม: แม้ PDF จะดูยาว แต่แก่นหลักของเนื้อหาอยู่ราว ๆ 10 หน้าแรก จึงอ่านได้ค่อนข้างเร็ว
ตัวอย่างที่ใช้ในที่นี้ถือว่าค่อนข้างง่ายสำหรับมนุษย์ แต่ถ้าไม่หยุดคิดสักครู่ก็เผลอกระโดดไปสู่ข้อสรุปที่ผิดได้ง่าย
ส่วนที่น่าหงุดหงิดจริง ๆ คือ เมื่อดูธรรมชาติของเครื่องมือในปัจจุบันแล้ว ไม่แน่ใจว่าสิ่งนี้จะแก้ได้จริงในทางปฏิบัติหรือไม่ พวกมันไม่ได้ให้เหตุผลหรือคิดในความหมายใด ๆ เลย แต่ผู้คนจำนวนมากก็ยอมรับไปแล้วว่าเป็น AI อเนกประสงค์
การที่มันทำท่าเหมือนให้เหตุผลได้อย่างแนบเนียนในหลายสถานการณ์ก็ยิ่งโหมกระแสเกินจริง ไม่รู้ว่าบทความนี้จะส่งผลจริงต่อการเปิดตัวและการโฆษณา AI หรือไม่ หรือจะถูกกลบไปจนกว่าความเสี่ยงจะปรากฏอีกครั้ง เหมือนตอนเปิดตัว Google Search
- การให้เหตุผลที่ซับซ้อนระดับหนึ่งต้องอาศัย บทพูดคนเดียวภายในใจและการวนซ้ำ ในการคิดแบบ Type 2 เราสร้างและประเมินวิธีแก้ที่เป็นไปได้ ข้อโต้แย้ง และเส้นทางการให้เหตุผลในหัว ก่อนเลือกสิ่งที่เห็นว่าเหมาะสมหรือถูกต้อง
  การใช้พรอมป์ดึงกระบวนการคิดภายในนั้นออกมาข้างนอกอาจเลียนแบบได้บางส่วน แต่จริง ๆ แล้วควรเป็นกระบวนการภายในและอัตโนมัติ
  เหตุผลที่เรายังไม่รู้วิธีทำ คือการควบคุมกระบวนการคิดภายในไม่ได้จำเป็นต้องอิงภาษาเสมอไป และกระบวนการคิดภายในของสมองชีวภาพก็ไม่สามารถสังเกตได้โดยตรง จึงใช้เป็นข้อมูลฝึกไม่ได้
  LLM ในตอนนี้มีด้านที่คล้ายกับพฤติกรรมนิยม และดูเหมือนว่าสิ่งที่ต้องการจริง ๆ คืออะไรสักอย่างที่สามารถนำจิตวิทยาปริชานมาประยุกต์ใช้ได้: https://en.wikipedia.org/wiki/Behaviorism
- อาจมีวิธีแก้ที่ค่อนข้างเรียบง่ายอยู่ คือให้โมเดลจัดรูปปัญหาใหม่เป็น ภาษาเชิงตรรกะอย่าง Prolog แล้วแทนที่จะฝึกการให้เหตุผลแบบห่วงโซ่ง่าย ๆ ก็ให้รันโปรแกรมนั้นเพื่อหาคำตอบ
  มนุษย์เองก็ไม่ได้สร้างโมเดลตรรกะขึ้นมาได้ทันที แต่ผ่านการศึกษาขั้นพื้นฐานหลายปีเพื่อเรียนรู้วิธีทำความเข้าใจโลกและแก้ปัญหา
  แนวทาง logic programming ดูมีอนาคต แต่หากจะให้ทำงานได้ดี ก็ต้องป้อนตัวอย่างจำนวนมหาศาลให้ LLM และยังไม่แน่ชัดว่าปัจจุบันมีข้อมูลฝึกแบบนั้นเพียงพอหรือไม่
- สำหรับคนที่เข้าใจและใช้ระบบนี้อย่างมีวิจารณญาณ เรื่องนี้โดยรวมชัดเจนเกินไปอยู่แล้ว น่าท้อใจที่ถึงขั้นต้องมี PDF บน arxiv.org เพื่อบอกว่า พระราชาเปลือยกาย
  คนส่วนใหญ่ที่ใช้ LLM หากต้องการก็สามารถตรวจสอบเรื่องนี้ได้ด้วยตัวเองทันที
  แต่พลังของโฆษณาชวนเชื่อทางเทคโนโลยีจากบริษัทต่าง ๆ แรงมากเสียจนหลายคนกลับจะยืนกรานว่า จริง ๆ แล้วมนุษย์ก็ไม่เคยสวมเสื้อผ้ามาตั้งแต่แรก
- ถ้าคิดอย่างจริงจังว่า LLM คืออะไร ผมไม่คิดว่ามันจะนำไปสู่ AI อเนกประสงค์ ได้ ขณะเดียวกัน มันก็ทำสิ่งต่าง ๆ ได้มากกว่าที่เราเคยคาดไว้มากแล้ว
  ผู้คนอาจตกใจกับสิ่งที่ OpenAI ทำได้ และตอนนี้กำลังภาวนาว่าแค่มีการคำนวณมากพอและโมเดลที่เหมาะสม AGI ก็จะโผล่ออกมา
- ปัญหาคือ หากไม่ป้อนพรอมป์ มนุษย์ตอบคำถามนี้ผิดบ่อยแค่ไหน เมื่อค่ากลาง IQ อยู่ที่ 100 และรวมคนที่ไม่ได้ฝึกตรรกะหรือมีระดับการศึกษาหลากหลาย อัตราตอบถูกของมนุษย์คงไม่ใกล้ 1.0 อย่างที่ผู้เขียนบอกเป็นนัย
  ค่อนข้างชัดเจนว่า LLM ไม่ได้ให้เหตุผลเลย ดังนั้นข้อเท็จจริงที่ว่า LLM ให้เหตุผลไม่เป็นจึงไม่น่าแปลกใจ
  ตรงกันข้าม เมื่อคำนึงว่ามันไม่มีความสามารถในการให้เหตุผลแล้ว การที่มันทำผลงานในงานให้เหตุผลได้ระดับนี้กลับน่าทึ่ง และเมื่อรวมความสามารถด้านภาษาธรรมชาติเข้ากับความสามารถคล้ายการให้เหตุผลแบบ abduction ซึ่งโดยทั่วไปยากในโมเดลคอมพิวติ้ง ก็แทบสรุปอะไรได้ไม่มากนักนอกจากว่า “GPT-4o สุดยอดมาก”
คำถามคือ “Alice มีพี่น้องผู้ชาย 60 คน และพี่น้องผู้หญิง 212 คน พี่น้องผู้ชายของ Alice มีพี่น้องผู้หญิงกี่คน?” ใน论文จะเขียนด้วย X และ N แทนตัวเลข
สารภาพว่าตอนลองแก้เองก็ตอบผิด และเพิ่งตรวจคำตอบได้หลังจากเอาไปใส่ใน GPT-4o: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
ในพรอมป์ต์ทดลองมีข้อจำกัดว่า “ห้ามพิมพ์ข้อความใด ๆ นอกเหนือจากรูปแบบคำตอบที่ถูกต้อง” ดูเหมือนตั้งใจไม่ให้โมเดลพูดความคิดออกมาดัง ๆ เมื่อเพิ่มประโยคนั้น GPT-4o ก็ตอบผิดซ้ำ ๆ: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
ในตัวอย่างที่ซับซ้อนกว่านี้ GPT-4o ดูเหมือนจะพัง แต่พูดตรง ๆ ก็ยากจะบอกว่าปัญหานั้นง่ายจริง ๆ หรือคนส่วนใหญ่จะตอบถูก
- ใน论文 ตัวเลขทั้งหมด น้อยกว่า 10
  AIW Variation 1 คือ N=3, M=6, C=7, Variation 2 คือ N=4, M=2, C=3, Variation 3 คือ N=1, M=4, C=5, และ Variation 4 คือ N=4, M=1, C=2
  พรอมป์ต์แบบจำกัดเป็นเพียงหนึ่งในหลายรูปแบบพรอมป์ต์ที่论文ทดสอบเท่านั้น论文ยังทดลองเทคนิคทั่วไปที่ช่วยเพิ่มประสิทธิภาพ LLM รวมถึง “การคิดออกเสียง” แต่แม้ใช้วิธีเหล่านั้น โมเดลก็ยังให้คำตอบที่ถูกต้องไม่ได้
- สิ่งที่คนที่มองว่า LLM โง่มักทำกันก็คือข้อจำกัดแบบนั้น
  LLM ยิ่งพูดมากก็ยิ่งฉลาดขึ้น เพราะ การเอาต์พุตคือวิธีเดียวที่มันใช้คำนวณ
  คล้ายกับการบอกว่าเครื่องทัวริงไม่เป็นไปตามวิทยานิพนธ์เชิร์ช-ทัวริง เพราะมันแก้ 3-SAT ที่มีตัวแปร N ตัวไม่ได้ภายในไม่เกิน N การเคลื่อนที่ เวลาขอให้ LLM ตอบกระชับ ก็เท่ากับกำลังให้มันทำอะไรทำนองนั้น
- ดูเหมือนปรากฏการณ์ใหม่นี้ต้องมีชื่อเรียก เวลาใครบอกว่า LLM ทำงานจิ๊บจ๊อยไม่ได้ อีกคนจะออกมาประกาศว่าตัวเองก็ทำงานนั้นไม่ได้เหมือนกัน เพื่อปกป้อง ความชอบธรรมของ LLM
  ยากจะเชื่อว่าคนทั่วไปที่มีแรงจูงใจมากพอจะไปถึงช่องป้อนข้อความของ ChatGPT จะตอบคำถามนี้ไม่ได้
- เคยเห็นกรณีที่แม้ให้ระบบเหล่านี้ “คิดออกเสียง” ก็ยังล้มเหลวอย่างหนักและให้คำตอบที่ผิดมาก ๆ
  อีกทั้งเมื่อมีรูปแบบคำตอบที่คาดหวัง ก็ไม่ได้หมายความว่าจะคิดออกเสียงได้เสมอไป ในทางปฏิบัติ นี่ดูเหมือนเป็นหลักฐานว่าไม่ได้ใช้การให้เหตุผลจริง ๆ ตรงนี้ แต่ใกล้กับ การอ้างอิงตัวเอง มากกว่า
  ลองใช้พรอมป์ต์เดียวกันให้คิดออกเสียงดูเองแล้ว มันตอบว่า Alice มีพี่น้องผู้หญิง 212 คน
- นี่เป็นเงื่อนไขสำคัญ จึงแปลกที่论文ไม่ได้ระบุให้เห็นเด่นชัด ในการทดสอบของฉัน ChatGPT 4o แก้ได้ทุกครั้ง
  แม้ในพรอมป์ต์ที่เหมือน “ถูกมัดมือ” ก็ยังดูทำงานได้ดี เลยสงสัยว่า论文ไม่แม่นยำ หรือ OpenAI ปรับโมเดลแล้วกันแน่ แต่กรณีหลังดูมีความเป็นไปได้น้อย
  อย่างไรก็ตาม มีรายงานว่า 4o ตอบปริศนานี้ถูก 60% ฉันเพิ่งทดสอบไปแค่ราว 12 ครั้งและถูกทั้งหมด คงต้องลองต่ออีกหน่อย
ชุดข้อมูล “เบนช์มาร์ก” จำนวนมากที่ใช้ประเมิน LLM สาธารณะตัวหลัก ๆ เห็นได้ชัดว่าอยู่ในข้อมูลฝึก จึงแทบใช้ตรวจสอบความน่าเชื่อถือของโมเดลไม่ได้
และค่อนข้างชัดด้วยว่า คะแนนที่ดีขึ้นบางส่วนของโมเดลรุ่นถัดมาเป็นเพราะ ข้อมูลเบนช์มาร์ก นั้นถูกรวมอยู่ในข้อมูลฝึกมากขึ้น
หากต้องการประเมิน LLM ให้ดีกว่านี้ ควรใช้แบบทดสอบที่สร้างขึ้นใหม่ให้แน่ใจว่าไม่อยู่ในข้อมูลฝึกเดิม แล้วรอสักสองสามสัปดาห์ก่อนค่อยนำมาใช้
อย่างที่เห็นในข้อสอบกฎหมายและการสอบต่าง ๆ เมื่อใช้ข้อมูลนอกตัวอย่างจากอนาคตจริง ๆ ประสิทธิภาพจะตกฮวบ ซึ่งต่างจากเบนช์มาร์กนอกตัวอย่างปลอม ๆ ในตอนนี้
- MMLU ไม่ใช่เบนช์มาร์กด้านการให้เหตุผล มันใกล้เคียงกับตัวชี้วัดว่าข้อมูลฝึกกว้างและเป็นตัวแทนได้แค่ไหน รวมถึงโมเดลเรียกคืนได้ดีเพียงใดตามจำนวน epoch การฝึก
  GPQA และอื่น ๆ ทดสอบการให้เหตุผลในรูปแบบใดรูปแบบหนึ่ง และจะเห็นความแตกต่างของคะแนนระหว่างสองชุดนี้อย่างมากในทุกโมเดล
- ทุกครั้งที่เห็นคนใช้ MMLU เป็นเบนช์มาร์ก ก็สงสัยว่าต้องการพิสูจน์อะไร MMLU เป็นข้อสอบปรนัยง่าย ๆ ที่มีคำตอบเปิดเผยอยู่แล้ว
  เดาสุ่มก็ได้ 25 คะแนน และถ้ารู้คำตอบ 50% แล้วเดาที่เหลือ ก็ได้ 62.5% ซึ่งค่อนข้างใกล้กับคะแนนของ LLM รุ่นล่าสุด
  เบนช์มาร์กที่อ้างว่าแสดงการให้เหตุผลก็แย่มากพอสมควร และเกี่ยวข้องกับการให้เหตุผลน้อยมาก หลายข้อสามารถตอบได้ด้วยการท่องจำ
  เห็นด้วยว่าเบนช์มาร์กเละเทะ เคยคิดจะทำเองเหมือนกัน แต่ต้องสร้างเฟรมเวิร์กเบนช์มาร์กที่ซับซ้อนก่อน จึงยากจะหาเวลาไปทำงานเตรียมตรงนั้น
แนวคิดที่ว่าโจทย์คำพูดแบบนี้และปัญหาที่ LLM ติดขัดนั้น “มนุษย์แก้ได้ง่าย” จำเป็นต้องมี ข้อมูลเชิงประจักษ์
คนสายคอมพิวเตอร์ชอบปริศนา และปัญหาแบบนี้ดูเป็นเรื่องเข้าใจง่ายสำหรับพวกเขา
ภายใต้ข้อจำกัดเวลาแบบเดียวกับที่ให้ LLM อัตราที่คนทั่วไปจะตอบปริศนานี้ถูกอาจต่ำกว่าที่ผู้เขียนคาดไว้มาก และในกรณีนั้น LLM ก็อาจอยู่ในแนวเดียวกับการให้เหตุผลระดับมนุษย์
แน่นอนว่าฉันเองก็ไม่มีแหล่งอ้างอิง แต่ฉันไม่ใช่ฝ่ายที่เขียน论文
- ในฐานะคนที่มีพื้นฐานด้านการศึกษา ฉันคิดว่า GPT-4 น่าจะมีผลลัพธ์ในข้อนี้ค่อนข้างใกล้กับคนทั่วไป หลายคนคงพลาด AIW และแทบทุกคนคงพลาด AIW+
  ฉันค่อนข้างถนัดโจทย์ประเภทนี้ แต่ AIW+ ก็ยังต้องใช้กระดาษกับดินสอประมาณ 1 นาที ระดับใกล้เคียงกับข้อที่ยากที่สุดในข้อสอบอย่าง GRE
  อดคิดไม่ได้ว่าโมเดลที่ฝึกด้วยข้อมูลจากอินเทอร์เน็ตทั้งเว็บอาจจับแนวทางการคิดของคนทั่วไปได้อย่างเลือน ๆ หากคนทั่วไปไม่ได้คิดด้วยวิธีจัดการสัญลักษณ์แบบนี้ และไม่ได้เขียนด้วยวิธีนั้น โมเดลที่ฝึกจากข้อความเหล่านั้นก็อาจเป็นเช่นเดียวกัน
Gemini ตอบคำถาม “Alice มีพี่น้องชาย N คน และพี่น้องหญิง M คน พี่น้องชายของ Alice มีพี่น้องหญิงกี่คน?” ได้ถูกโดยไม่ต้องมีพรอมป์ต์เพิ่มเติม: https://g.co/gemini/share/6946d20c0a4d
พอใส่ตัวเลข Gemini ก็สับสน: “Alice มีพี่น้องชาย 4 คน และพี่น้องหญิง 3 คน พี่น้องชายของ Alice มีพี่น้องหญิงกี่คน?” https://g.co/gemini/share/14d34dcdc5df
แต่พอบอกว่าอาจเป็นคำถามหลอก ก็กลับมาตอบถูกอีกครั้ง: https://g.co/gemini/share/e1f1ce8f32a8
ยังไม่ได้ลองเวอร์ชันพี่น้อง 60/212 คน ถ้า Alice เป็นสิ่งมีชีวิตคล้ายมนุษย์ การสมมติว่าเธอไม่มีพี่น้องหลายร้อยคนก็ดูสมเหตุสมผล ดังนั้นมองว่าเป็นคำถามที่ไม่ยุติธรรมถ้าจะคาดหวัง “คำตอบที่ถูกต้อง” จากผู้ตอบ
- ลืม Gemini ไปเลย เมื่อกี้ลอง การทดสอบเรือ ของผมที่ก่อนหน้านี้ LLM ทุกตัวเคยพลาด แล้ว Gemini ก็พลาดเหมือนกัน: https://news.ycombinator.com/item?id=40455392
  ผมถามว่า “มีแพะกับเรืออยู่ริมแม่น้ำ จะข้ามไปอีกฝั่งได้อย่างไร? คิดให้รอบคอบและระวังว่าอาจเป็นคำถามหลอก” แล้ว Gemini แก้เหมือนเป็นโจทย์ชาวนา·หมาป่า·แพะ·กะหล่ำปลีรูปแบบหนึ่ง สร้างขั้นตอนย้ายแพะโดยไม่จำเป็น
  คำตอบที่คาดหวังคือประมาณ “นั่งเรือข้ามแม่น้ำ” ก็พอแล้ว “นั่งเรือพร้อมแพะข้ามไป” ก็อาจยอมรับได้ แต่โจทย์ไม่ได้ถามให้พาแพะข้าม ดังนั้นถ้าพูดอย่างเคร่งครัดก็ผิด
- ปฏิกิริยาที่ว่าเป็นไปไม่ได้ที่จะมีพี่น้องหลายร้อยคนต่างหากที่เป็นปัญหาต่อข้ออ้างว่ามนุษย์มี “ปัญญาทั่วไป” พอเจอสถานการณ์นอกการกระจายก็สับสน
  ถ้าเป็นปัญญาทั่วไปจริง ๆ ก็น่าจะนำความรู้ว่าค่าอุ้มบุญอยู่ราว 50,000 ดอลลาร์ และบริบททางประวัติศาสตร์ของ IVF มาปรับใช้ แล้วสมมติว่าคู่มหาเศรษฐีตัดสินใจมีลูกหลายร้อยคน จากนั้นจึงคำนวณต่อ
  การค้นหาชีวิตทรงปัญญายังดำเนินต่อไป
- GPT-4o ตอบปริศนาแบบนามธรรมได้ถูก ตอนผมลอง Gemini ตอบผิด
เป็นเปเปอร์ที่น่าสนใจ แต่กังวลว่าอาจเป็นการคัดเชอร์รีเฉพาะ ผลลบที่น่าตกใจ หรือเปล่า ดูเหมือนเปเปอร์ไม่ได้พูดว่าตรวจดูการประเมินไปกี่อย่างก่อนจะเจอกรณีนี้
โดยทั่วไป รูปแบบความล้มเหลวบางอย่างของ AI อาจปรากฏในเรื่องที่ดูชัดเจนสำหรับมนุษย์ได้ เพราะสถาปัตยกรรมต่างจากมนุษย์ และจุดแข็งก็ต่างกัน
คำถามสำคัญคือ นี่เป็นบั๊กทางปัญญาประหลาดเฉพาะกรณีเดียวในรูปแบบโจทย์ครอบครัว หรือเป็นตัวแทนของข้อผิดพลาดทางปัญญาหมวดกว้างกว่านั้น จากเปเปอร์นี้อย่างเดียวบอกได้ยาก
เป็นที่รู้กันดีว่า การวางกรอบโจทย์ตรรกะสามารถเปลี่ยนระดับความยากสำหรับมนุษย์ได้มาก แม้โครงสร้างการเปรียบเทียบพื้นฐานจะเป็นไอโซมอร์ฟิกกันก็ตาม
แนวทางวิจัยแบบนี้สำคัญ แต่ต้องมีชุดการประเมินที่ใหญ่ขึ้น และปัญหาข้อมูลประเมินหลุดเข้าไปอยู่ในการเทรนก็จะยังเป็นปัจจัยกวนอยู่เสมอ
หมวดการให้เหตุผลที่กว้างกว่านี้คือ การให้เหตุผลเชิงความสัมพันธ์ ตามที่เปเปอร์กล่าวไว้ ดังนั้นงานต่อยอดที่ดูประสิทธิภาพการให้เหตุผลในชุดโจทย์ไอโซมอร์ฟิกทั้งหมดน่าจะน่าสนใจ LLM ยังไม่เก่งเรื่องการให้เหตุผลเชิงความสัมพันธ์ จึงน่าจะพอเหมารวมได้ในระดับหนึ่ง แต่ก็ดูเหมือนว่าการวางรูปแบบเป็นความสัมพันธ์ครอบครัวมีอะไรบางอย่างที่ทำให้ LLM สับสนเป็นพิเศษด้วย
- ผมคิดว่าการฝึกลดอคติทางเพศเป็นเรื่องดี แต่ก็อดคิดไม่ได้ว่ารูปแบบโจทย์แบบนี้ที่มีคำว่า “sister” กับ “brother” อาจสร้างความเสียหายทางปัญญาได้
  เพราะคำถามพวกนั้นอาจเชื่อมโยงกับข้อมูลเทรนที่คำตอบที่ถูกคือการปฏิเสธการเหมารวม เป็นแค่การคาดเดาล้วน ๆ
พอถาม GPT-4o โดยตรง ได้ผลที่น่าสนใจกว่าที่คาด
พรอมป์ต์คือ “Alice มีพี่น้องชาย 3 คน และพี่น้องหญิง 6 คน พี่น้องชายของ Alice มีพี่น้องหญิงกี่คน? จงแก้ทีละขั้นตอน”
คำตอบบอกอย่างถูกต้องว่ามีพี่น้องหญิงรวม 7 คนเมื่อรวม Alice เองด้วย แต่สุดท้ายกลับสรุปว่า “พี่น้องชายแต่ละคนไม่นับตัวเองเป็นพี่น้องหญิง ดังนั้นมีพี่น้องหญิง 6 คน”
ดูเหมือน ความล้มเหลวของการให้เหตุผลทีละขั้นตอน แบบคลาสสิก ที่การคำนวณระหว่างทางกับข้อสรุปขัดแย้งกัน
โจทย์ AIW+ มีข้อมูลที่ไม่ทราบพอจะตอบตามถ้อยคำเดิมได้
หลังจากผู้เขียนสร้างโจทย์ความสัมพันธ์ครอบครัวไปหลายร้อยข้อ คำตอบอาจดูชัดเจนสำหรับพวกเขา แต่ถ้าดูเฉพาะประโยค ก็ไม่ชัดว่า Alice มีพี่น้องชายหรือไม่ พ่อมีพี่น้องหญิงหรือไม่ หรือหลานของป้า·ลุงนับความสัมพันธ์โดยการสมรสด้วยหรือไม่
LLM น่าจะยังพลาดอยู่แม้จะระบุคำตอบเหล่านี้ชัดเจน แต่โจทย์เดียวกันก็ดูเหมือนจะจบด้วย “เป็นไปได้อย่างไรถ้า Alice มีลูกพี่ลูกน้องเพียง 4 คน?” ได้เช่นกัน
มีการนำเสนอที่ดีเกี่ยวกับปัญหานี้: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
ใจความสำคัญคือ LLM แย่มากในเรื่อง การวางแผนและการให้เหตุผล เราสามารถให้กฎของงานวางแผนแล้วขอผลลัพธ์ได้ แต่แม้ในตอนที่ตรรกะถูกต้อง ความถูกต้องนั้นก็ขึ้นกับข้อมูลเชิงความหมายเพิ่มเติมอย่างมาก ไม่ใช่แค่กฎนามธรรม
ในการนำเสนอ เขาแสดงให้เห็นโดยแมปคำนามในกฎและคำอธิบายอินพุตของงานไปยังโดเมนที่ต่างออกไปโดยสิ้นเชิง และแค่การแทนที่ง่าย ๆ ก็ทำให้ประสิทธิภาพพังลง
LLM ปัจจุบันส่วนใหญ่เป็นเครื่องจับคู่แพตเทิร์นที่มีความสามารถในการเหมารวมจำกัด
- มนุษย์เองก็พังเมื่อเปลี่ยนโดเมนในเรื่องอย่าง การให้เหตุผลเชิงสถิติ เช่นกัน จำได้ว่างานจิตวิทยาวิวัฒนาการของ Leda Cosmides พูดถึงเรื่องทำนองนี้ แต่อาจมีการทดลองที่ดังยิ่งกว่านี้ก็ได้
เป็นเปเปอร์ที่น่ารักดี แต่ค่อนข้างแปลกที่ผู้เขียนพูดเหมือนว่าพวกเขาเป็นคนคิดเทมเพลตโจทย์ “Alice มีพี่น้องชาย N คน และพี่น้องหญิง M คน…” ขึ้นมา
นี่เป็นเพียงรูปแบบดัดแปลงพื้นฐานมากของปริศนาทั่วไปที่มักถาม LLM: https://news.ycombinator.com/item?id=39786666#39794890
เมื่อ 74 วันก่อนผมก็เคยพูดถึงปริศนานั้น และตอนนั้นก็รู้จักมันมานานพอสมควรแล้ว

งานง่าย ๆ ที่แสดงให้เห็นการล่มสลายของการให้เหตุผลใน LLM รุ่นล่าสุด

ความล้มเหลวในการให้เหตุผลง่าย ๆ ที่ปัญหา AIW เปิดเผย

อัตราตอบถูกที่แกว่งแรงตามรูปแบบย่อย

สาเหตุพื้นฐานที่ถูกตัดทิ้งด้วยโจทย์ควบคุม

พรอมป์ต์และขั้นตอนการประเมิน

ความมั่นใจผิด ๆ และการประเมินเบนช์มาร์กใหม่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News