ทำความเข้าใจข้อจำกัดของ LLM ในการให้เหตุผลทางคณิตศาสตร์

(arxiv.org)

2 คะแนน โดย GN⁺ 2024-10-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การเพิ่มขึ้นของคะแนน GSM8K เพียงอย่างเดียวทำให้ตัดสินความสามารถในการให้เหตุผลทางคณิตศาสตร์จริงของ LLM ได้ยาก โดย GSM-Symbolic ช่วยให้ประเมินได้แบบควบคุมมากขึ้นด้วยโจทย์หลายรูปแบบที่มีโครงสร้างเดียวกัน
เบนช์มาร์กนี้แปลงโจทย์ GSM8K เป็น เทมเพลตเชิงสัญลักษณ์ เพื่อปรับชื่อ ตัวเลข และจำนวนอนุประโยค โดยสร้างตัวอย่างเทมเพลตละ 50 ตัวอย่างจาก 100 เทมเพลต รวมเป็น 5,000 ตัวอย่างต่อเบนช์มาร์ก
โมเดลสาธารณะและปิดรุ่นล่าสุด 25 รุ่นมีประสิทธิภาพลดลงและความแปรปรวนเพิ่มขึ้นแม้ในโครงสร้างโจทย์เดียวกันเมื่อเปลี่ยนเพียงตัวเลข และคะแนน GSM8K ต้นฉบับอยู่ทางขวาของการกระจาย GSM-Symbolic ใน 21 จาก 25 โมเดล
เมื่ออนุประโยคเพิ่มขึ้น ความแม่นยำลดลงและความแปรปรวนเพิ่มขึ้น โดย Gemma2-9B-it ลดจาก 84.4% ใน GSM-M1 เหลือ 41.8% ใน GSM-P2 และ GPT-4o ลดจาก 94.4% เหลือ 88.0%
ใน GSM-NoOp ซึ่งเพิ่มประโยคที่ไม่เกี่ยวข้องแต่ดูเหมือนเกี่ยวข้อง ประสิทธิภาพของทุกโมเดลลดลงอย่างมาก โดย Phi-3-mini ต่ำกว่า GSM8K 65.7 จุดเปอร์เซ็นต์ แสดงว่ายังแยกข้อมูลที่จำเป็นออกจากข้อมูลที่ไม่จำเป็นได้ไม่เสถียร

ความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่มองเห็นได้ยากจาก GSM8K เพียงอย่างเดียว

GSM8K มีโจทย์คณิตศาสตร์ระดับประถมและวิธีแก้มากกว่า 8,000 ข้อ ประกอบด้วยตัวอย่างฝึก 7,473 ตัวอย่างและตัวอย่างทดสอบ 1,319 ตัวอย่าง
เนื่องจากเป็นโจทย์คณิตศาสตร์ที่ค่อนข้างง่ายและเน้นการคำนวณพื้นฐาน จึงถูกใช้กันอย่างแพร่หลายในการประเมินพรอมป์แบบ Chain-of-Thought(CoT)
โครงสร้างชุดทดสอบแบบคงที่ชุดเดียวให้ได้เพียงค่าความแม่นยำครั้งเดียว ทำให้ยากที่จะควบคุมดูพฤติกรรมของโมเดลเมื่อมีการดัดแปลงคำถามหรือเปลี่ยนความยาก
ยิ่งเป็นเบนช์มาร์กที่ใช้กันแพร่หลาย ความเป็นไปได้ของ การปนเปื้อนข้อมูล ที่ตัวอย่างทดสอบอาจบังเอิญรวมอยู่ในข้อมูลฝึกของโมเดลก็ยิ่งสูงขึ้น
GSM-Symbolic แปลงโจทย์ GSM8K เป็นเทมเพลตเชิงสัญลักษณ์เพื่อสร้างรูปแบบที่หลากหลาย และประเมินประสิทธิภาพการให้เหตุผลทางคณิตศาสตร์ของ LLM เป็น การกระจายของประสิทธิภาพ แทนคะแนนเดี่ยว
เทมเพลต GSM-Symbolic และข้อมูลที่สร้างขึ้นเปิดเผยไว้ที่ apple/ml-gsm-symbolic

วิธีสร้างเทมเพลตและประเมินผล

GSM-Symbolic สร้างขึ้นโดยแปลงตัวอย่างบางส่วนในชุดทดสอบ GSM8K ให้เป็นเทมเพลตที่พาร์สได้
- ระบุตัวแปร ช่วงของตัวแปร และเงื่อนไขที่รับประกันว่าคำตอบถูกต้อง
- ด้วยลักษณะของโจทย์คณิตศาสตร์ระดับประถม จึงมักใช้เงื่อนไขอย่าง การหารลงตัว เพื่อให้คำตอบเป็นจำนวนเต็ม
- ใช้คำนามเฉพาะทั่วไป เช่น ชื่อคน อาหาร และสกุลเงิน เพื่อทำให้การสร้างเทมเพลตง่ายขึ้น
หลังจากสร้างเทมเพลตแล้ว จะผ่านการตรวจสอบอัตโนมัติหลายขั้นตอน
- ตรวจสอบว่าค่าตัวแปรเดิมไม่หลงเหลืออยู่ในเทมเพลต
- ตรวจสอบว่าค่าเดิมเป็นไปตามเงื่อนไขทั้งหมดหรือไม่
- ตรวจสอบว่าคำตอบสุดท้ายที่สร้างขึ้นตรงกับคำตอบของโจทย์เดิมหรือไม่
- ตรวจทานด้วยคนแบบสุ่ม 10 ตัวอย่างต่อเทมเพลต
- หลังการประเมินทุกโมเดล หากแต่ละโจทย์มีโมเดลอย่างน้อย 2 รุ่นตอบผิด จะตรวจทานด้วยคนอีกครั้ง
ช่วงตัวเลขถูกปรับให้ใกล้เคียงกับชุดทดสอบ GSM8K เดิม
- เป้าหมายไม่ได้อยู่ที่การประเมินความสามารถด้านเลขคณิตเอง แต่อยู่ที่การประเมินความสามารถในการ ให้เหตุผลเชิงตรรกะ
- การวิเคราะห์ในภาคผนวกยืนยันว่าช่วงตัวเลขที่ขยายยังอยู่ในขอบเขตที่ความแม่นยำทางเลขคณิตของโมเดลยังคงอยู่
การประเมินครอบคลุมโมเดลสาธารณะมากกว่า 20 รุ่นตั้งแต่ 2B ถึง 27B และโมเดลปิดรุ่นล่าสุด เช่น GPT-4o-mini, GPT-4o, o1-mini, o1-preview
โดยรวมมีการประเมินประมาณ 500 ครั้ง และการทดลองในบทความใช้เบนช์มาร์ก 5,000 ตัวอย่าง ซึ่งประกอบด้วย 100 เทมเพลตและเทมเพลตละ 50 ตัวอย่าง
หากไม่ได้ระบุเป็นอย่างอื่น จะใช้การตั้งค่า 8-shot CoT และ greedy decoding ที่พบได้บ่อยใน GSM8K และเบนช์มาร์กคณิตศาสตร์อื่น ๆ
- ในการทดลองเบื้องต้น จำนวน shot ไม่ได้เปลี่ยนประสิทธิภาพและข้อสรุปอย่างมีนัยสำคัญ

ประสิทธิภาพที่สั่นไหวแม้มีโครงสร้างโจทย์เดียวกัน

ในชุดข้อมูล 50 ชุดของ GSM-Symbolic โมเดลรุ่นล่าสุดทั้งหมดแสดงความแปรปรวนของความแม่นยำในระดับที่มองข้ามไม่ได้
- Gemma2-9B มีความต่างระหว่างประสิทธิภาพต่ำสุดกับสูงสุดมากกว่า 12%
- Phi-3.5-mini มีความต่างประมาณ 15%
ความแตกต่างของอินสแตนซ์คำถามแต่ละข้อมีเพียงชื่อและตัวเลขเท่านั้น และขั้นตอนการให้เหตุผลโดยรวมที่จำเป็นต่อการแก้โจทย์เหมือนกัน
ประสิทธิภาพบนโจทย์ GSM8K ต้นฉบับ 100 ข้ออยู่ทางขวาของศูนย์กลางการกระจายประสิทธิภาพ GSM-Symbolic มากกว่า 1 ส่วนเบี่ยงเบนมาตรฐานในหลายโมเดล
- ปรากฏการณ์นี้พบใน 21 จาก 25 โมเดล
- คำอธิบายที่เป็นไปได้อย่างหนึ่งคือ การปนเปื้อนข้อมูล ซึ่งตัวอย่างทดสอบ GSM8K อาจบังเอิญเข้าไปอยู่ในข้อมูลฝึกของโมเดล ทำให้วัดประสิทธิภาพออกมาในเชิงมองโลกแง่ดีเกินไป
เมื่อเปลี่ยนจาก GSM8K เป็น GSM-Symbolic ประสิทธิภาพของทุกโมเดลลดลง
- Mistral-7b-it-v0.1 ลดลง -9.2 จุดเปอร์เซ็นต์
- Gemma2-2b และ Gemma2-2b-it ลดลงรุ่นละ -7.4 จุดเปอร์เซ็นต์
- Gemma2-9b, Gemma2-9b-it และ Mistral-7b-it-v0.3 ลดลงรุ่นละ -6.2 จุดเปอร์เซ็นต์
- GPT-4o-mini ลดลง -2.4 จุดเปอร์เซ็นต์, o1-preview ลดลง -2.2 จุดเปอร์เซ็นต์
- o1-mini ลดลง -0.6 จุดเปอร์เซ็นต์, GPT-4o ลดลง -0.3 จุดเปอร์เซ็นต์
โมเดลที่ประสิทธิภาพ GSM8K ใกล้ศูนย์กลางการกระจาย GSM-Symbolic เช่น Llama3-8b และ GPT-4o มีการลดลงของประสิทธิภาพน้อย

ไวต่อการเปลี่ยนตัวเลขมากกว่าการเปลี่ยนชื่อ

แม้เปลี่ยนเฉพาะชื่อก็มีความผันผวนของประสิทธิภาพ แต่ความแปรปรวนน้อยกว่าตอนเปลี่ยนตัวเลข
ความแม่นยำ GSM8K เดิมอยู่ใกล้ศูนย์กลางของการกระจายที่เปลี่ยนเฉพาะชื่อมากกว่า
- เมื่อเปลี่ยนตัวเลข หรือเปลี่ยนทั้งชื่อและตัวเลข ค่าเฉลี่ยของการกระจายจะเลื่อนไปทางซ้ายและความแปรปรวนเพิ่มขึ้น
ความแม่นยำ 8-shot CoT ของ Gemma2-9b-it คือ GSM8K 87.0%, เปลี่ยนชื่อ 88.6±2.0%, เปลี่ยนตัวเลข 83.1±2.2%, เปลี่ยนทั้งคู่ 79.1±3.0%
Phi-3.5-mini-instruct คือ GSM8K 88.0%, เปลี่ยนชื่อ 89.1±1.8%, เปลี่ยนตัวเลข 84.9±2.4%, เปลี่ยนทั้งคู่ 82.1±3.4%
Mathstral-7b-v0.1 คือ GSM8K 80.0%, เปลี่ยนชื่อ 81.0±1.3%, เปลี่ยนตัวเลข 77.3±2.0%, เปลี่ยนทั้งคู่ 74.0±3.5%
ผลลัพธ์เหล่านี้ชี้ว่ากระบวนการให้เหตุผลของ LLM อาจใกล้เคียงกับการจับคู่แพตเทิร์นกับคำถามและขั้นตอนแก้โจทย์ที่คล้ายกันซึ่งเคยเห็นในข้อมูลฝึก มากกว่าการ ให้เหตุผลเชิงรูปแบบ

จุดอ่อนที่เผยให้เห็นจากการเพิ่มอนุประโยคและ GSM-NoOp

การทดลองด้านความยากใช้ GSM-M1 ซึ่งลบอนุประโยคหนึ่งออกจาก GSM-Symbolic, GSM-P1 ซึ่งเพิ่มอนุประโยคหนึ่ง และ GSM-P2 ซึ่งเพิ่มอนุประโยคสองอัน
- การเพิ่มหรือลบอนุประโยคหนึ่งอันไม่ได้หมายความว่าจำนวนขั้นตอนการให้เหตุผลที่จำเป็นจะเพิ่มหรือลดลงพอดีหนึ่งขั้น
- จุดเน้นของการทดลองอยู่ที่การเปลี่ยนแปลงของการกระจายประสิทธิภาพ มากกว่าตัวเลขความยากที่แน่นอน
เมื่อจำนวนอนุประโยคเพิ่มขึ้น ประสิทธิภาพเฉลี่ยลดลงและความแปรปรวนเพิ่มขึ้นในทุกโมเดล
- Gemma2-9b-it: GSM-M1 84.4±2.4%, GSM-Symb 79.1±3.0%, GSM-P1 68.1±4.8%, GSM-P2 41.8±6.0%
- Phi-3.5-mini-instruct: 87.6±2.0%, 82.1±3.4%, 64.8±5.4%, 44.8±6.3%
- GPT-4o-mini: 92.5±1.6%, 91.7±2.0%, 81.1±3.1%, 72.4±4.6%
- GPT-4o: 94.4±1.6%, 94.9±1.9%, 93.9±2.6%, 88.0±3.4%
- o1-mini: 94.9±1.5%, 94.5±1.6%, 94.3±2.6%, 89.1±3.6%
GSM-NoOp เป็นชุดข้อมูลที่เพิ่มอนุประโยคซึ่งไม่จำเป็นต่อการแก้โจทย์แต่ดูเหมือนเกี่ยวข้องเข้าไปในเทมเพลต GSM-Symbolic
- ในตัวอย่าง ข้อมูลว่า “กีวี 5 ลูกที่เก็บได้ในวันอาทิตย์มีขนาดเล็กกว่าค่าเฉลี่ยเล็กน้อย” ไม่ส่งผลต่อการคำนวณจำนวนกีวีทั้งหมด
- o1-mini และ Llama3-8B ตอบผิดโดยแปลง 5 ลูกนี้เป็นการลบออกจากผลผลิตวันอาทิตย์
โมเดลมีแนวโน้มจะแปลงประโยคเป็นการดำเนินการทางคณิตศาสตร์มากกว่าจะละเว้นตามความหมาย
- ยังพบกรณีที่ตีความคำอย่าง “discount” เป็นการคูณโดยไม่สนบริบท
ใน GSM-NoOp ประสิทธิภาพของโมเดลทดสอบทั้งหมดลดลงอย่างมาก
- Phi-3-mini-128k-instruct ลดลง -65.7 จุดเปอร์เซ็นต์เมื่อเทียบกับ GSM8K
- Phi-3-small-128k-instruct ลดลง -64.0 จุดเปอร์เซ็นต์
- Gemma2-9b และ Gemma2-9b-it ลดลงรุ่นละ -63.0 จุดเปอร์เซ็นต์
- Phi-3.5-mini-instruct ลดลง -62.5 จุดเปอร์เซ็นต์
- GPT-4o-mini ลดลง -40.0 จุดเปอร์เซ็นต์, GPT-4o ลดลง -32.0 จุดเปอร์เซ็นต์
- o1-mini ลดลง -29.1 จุดเปอร์เซ็นต์, o1-preview ลดลง -17.5 จุดเปอร์เซ็นต์
แม้ในการตั้งค่า NoOp-Symb ที่ให้รูปแบบ GSM-Symbolic 8 รูปแบบของคำถามเดียวกันเป็น shot ประสิทธิภาพก็ยังอยู่ในช่วงส่วนเบี่ยงเบนมาตรฐาน
- Phi-3-medium-128k-instruct คือ GSM 87.3%, GSM-Symb 82.5%, GSM-NoOp 29.4%, NoOp-Symb 30.2%, NoOp-NoOp 22.6%
- Llama3-8b-instruct คือ GSM 76.0%, GSM-Symb 74.6%, GSM-NoOp 18.6%, NoOp-Symb 19.6%, NoOp-NoOp 19.2%
ในการตั้งค่า NoOp-NoOp ที่ให้โจทย์ GSM-NoOp อื่น 8 ข้อเป็น shot การฟื้นตัวของประสิทธิภาพก็ยังจำกัด
- Llama3-8B มีประสิทธิภาพเท่ากับ NoOp เดิม
- Phi-3 มีประสิทธิภาพลดลงเล็กน้อย
โมเดลบางรุ่นที่มีประสิทธิภาพ GSM8K และ GSM-Symbolic ต่ำแสดงประสิทธิภาพสูงขึ้นใน NoOp-Symb
- Gemma2b คือ GSM 12.1%, GSM-Symb 8.2%, GSM-NoOp 4.7%, NoOp-Symb 48.3%, NoOp-NoOp 3.1%
- Mistral-7b-v0.1 คือ GSM 44.5%, GSM-Symb 41.1%, GSM-NoOp 16.2%, NoOp-Symb 62.5%, NoOp-NoOp 14.5%
ผลลัพธ์โดยรวมแสดงว่าการให้เหตุผลทางคณิตศาสตร์ของ LLM เปราะบางต่อการดัดแปลงโจทย์เดียวกัน การเพิ่มความยากเพียงเล็กน้อย และการเพิ่มข้อมูลที่ไม่เกี่ยวข้อง และอาจใกล้เคียงกับ การจับคู่แพตเทิร์น เชิงความน่าจะเป็น

1 ความคิดเห็น

GN⁺ 2024-10-13

ความคิดเห็นจาก Hacker News

ผมคงไม่ฟันธงแรง ๆ ว่า LLM ทำการ ให้เหตุผล จริงหรือไม่ แต่รูปแบบการเสื่อมของประสิทธิภาพคล้ายกับที่เห็นในนักศึกษาปีหนึ่งมหาวิทยาลัย
ตอนนี้ผมสอนแคลคูลัสอยู่ และเกือบครึ่งหนึ่งเป็นนักเรียนที่เคยเรียน AP Calculus ในมัธยมปลาย พวกเขาแก้โจทย์ง่าย ๆ ได้ดี แต่ถ้าต้องเชื่อมขั้นตอนหลายขั้น แม้จะเป็นขั้นตอนง่าย ๆ ความแม่นยำก็ลดลงและความแปรปรวนก็สูงขึ้น
แม้ใส่ประโยคที่ไม่เกี่ยวข้องลงในโจทย์ ก็ได้ผลลัพธ์คล้ายกัน นักเรียนจำนวนมากถูกฝึกมาว่าต้องใช้ข้อมูลทั้งหมดที่ให้มา จึงมักคิดว่าถ้าไม่ใช้ข้อมูลที่ครูให้มาอาจพลาดสิ่งสำคัญ
ดังนั้นผมมองว่า LLM รุ่นล่าสุดอย่าง GPT-4o ทำผลงานได้ประมาณผู้จบมัธยมปลายโดยเฉลี่ยในสหรัฐฯ ในแง่ความสามารถของมนุษย์ถือว่าน่าผิดหวัง แต่สำหรับ LLM เองก็เป็นสัญญาณที่ดีว่าอย่างน้อยก็ช่วยคนจำนวนมากได้แล้ว
- เวลาที่ LLM ตอบถูก มันใกล้เคียงกับการดึงคำตอบที่ถูกต้องออกมาภายในโมเดลเชิงความน่าจะเป็น ด้วยอานิสงส์จาก ปริมาณข้อมูลมหาศาล ที่มันรับเข้าไประหว่างการฝึก
  มนุษย์ไม่จำเป็นต้องอ่านโจทย์คณิตศาสตร์พันล้านข้อและคำตอบจาก Stack Overflow ก็สามารถพัฒนาวิธีที่ซับซ้อนกว่าในการประมวลผลข้อมูลและให้เหตุผล จากคำอธิบายไม่กี่ชุด วิดีโอ YouTube และแบบฝึกหัดไม่กี่ข้อ
  การที่คะแนนออกมาคล้ายกันในขอบเขตอย่างคณิตศาสตร์มัธยมปลาย อาจเป็นเพราะ AI ปัจจุบันกับมนุษย์บังเอิญยืนอยู่ ณ จุดเดียวกัน หากดูรูปแบบความล้มเหลวอย่างละเอียด ทั้งสองล้มเหลวต่างกันมาก และความล้มเหลวของ AI ตอนนี้ก็ดูค่อนข้างเหลวไหลสำหรับมนุษย์
- คำกล่าวที่ว่า “LLM รุ่นล่าสุดอย่าง GPT-4o อยู่ระดับประมาณผู้จบมัธยมปลายโดยเฉลี่ยในสหรัฐฯ” อาจถูกต้องในความหมายที่เคร่งครัด แต่ความแตกต่างของวิธีที่ LLM กับผู้จบมัธยมปลายถูกใช้งานนั้นสำคัญมาก
  LLM ตอบด้วยความมั่นใจเท่ากันทั้งเวลาถูกและผิด และมักถูกนำเสนอต่อผู้ใช้ราวกับไร้ข้อบกพร่อง
  ถ้าถามปัญหาตรรกะระดับกลางกับคนทั่วไป มนุษย์ถูกหล่อหลอมทางสังคมให้รู้ว่าตนเองไม่ถนัดตรรกะ จึงสงสัยคำตอบอย่างเหมาะสม ในทางกลับกัน LLM อยู่บนคอมพิวเตอร์ และคอมพิวเตอร์ก็ถูกมองผ่านอินเทอร์เฟซว่าแม่นยำเสมอในคณิตศาสตร์และตรรกะ
  ดังนั้นผมมองว่า LLM มีแนวโน้มจะ ชักนำคนจำนวนมากไปผิดทาง มากกว่าจะช่วยคนจำนวนมาก
- สงสัยว่าเป็นเพราะข้อสอบมัธยมปลายง่ายเกินไป หรือเพราะในข้อมูลฝึกมีแพตเทิร์นที่คล้ายกันมากเกินไปกันแน่
  เมื่อใส่โจทย์ที่เรียบง่ายแต่ใหม่ ซึ่งต้องอาศัยความเข้าใจจริงเกี่ยวกับแนวคิดคณิตศาสตร์พื้นฐาน ผลลัพธ์ยังคงแย่ และกับโจทย์ระดับสอบเข้ามัธยมปลายในจีนก็เช่นกัน
  ดูเหมือนว่า LLM ไม่ได้เข้าใจคณิตศาสตร์ แต่ทำ การจับคู่แพตเทิร์น และการจับคู่แพตเทิร์นแบบนั้นอาจมีประโยชน์เฉพาะกับนักเรียนที่มีพื้นฐานอยู่แล้วเท่านั้น
- ไม่เข้าใจว่าทำไมคนยังสับสนกันอยู่ โมเดลเหล่านี้โดยพื้นฐานแล้วมี พารามิเตอร์ความสุ่ม เพื่อหลีกเลี่ยงเอาต์พุตแบบกำหนดตายตัว และทำให้ดูเหมือนกำลังคิดจริง ๆ ดังนั้นจึงดูชัดเจนว่าไม่มีการให้เหตุผลเกิดขึ้น
- ไม่ได้ตั้งใจจะดูแคลนระบบโรงเรียนของสหรัฐฯ แต่ผมมองว่าค่อนข้างใกล้กับ โหมดง่าย ไม่ใช่ทุกคนต้องเก่งทางวิชาการ แต่ตอนเด็ก ๆ เรียนได้ง่ายกว่า และผมเชื่อว่าการประคับประคองมากเกินไปทำร้ายการเรียนรู้
บทความนี้แสดงให้เห็นว่า เมื่อเพิ่มข้อมูลที่ไม่เกี่ยวข้องเข้าไป LLM จะมีประสิทธิภาพแย่ลงอย่างมากใน โจทย์พีชคณิตพื้นฐาน
ตัวอย่างคือโจทย์ทำนองว่า “John เก็บกีวีได้ 43 ลูกในวันจันทร์ 24 ลูกในวันอังคาร และในบรรดากีวีที่เก็บได้ในวันพุธ มี 5 ลูกที่เล็กกว่าปกติ ถ้าวันจันทร์ อังคาร และพุธรวมกันเก็บได้ 87 ลูก วันพุธเขาเก็บได้กี่ลูก?”
ข้อความที่ว่ากีวีบางลูกในวันพุธมีขนาดเล็กนั้นไม่เกี่ยวข้อง แต่เมื่อใส่ประโยคแบบนี้เข้าไป ประสิทธิภาพบนเบนช์มาร์กชื่อดังของ GPT-4o จะลดจาก 95% เหลือ 77%
อย่างไรก็ตาม เรื่องนี้ไม่ได้ชวนทึ่งมากนัก แม้คนอ่านโจทย์แบบนี้ก็ต้องพิจารณาความเป็นไปได้สองแบบ อาจเป็นข้อมูลที่ไม่เกี่ยวข้อง หรืออาจเป็นโจทย์ที่เขียนผิด โดยเดิมทีตั้งใจจะให้ข้อมูลนั้นเกี่ยวข้อง
ถ้าเจอโจทย์กับดักสำหรับ LLM ที่กลับด้านจากปริศนาตรรกะชื่อดัง ผมเองก็คง “ตอบผิด” เหมือนกัน ไม่ใช่เพราะไม่เข้าใจโจทย์ แต่เพราะถ้าไม่มีบริบท ก็อาจสันนิษฐานได้ว่าการกลับด้านนั้นเป็นการพิมพ์ผิด
- การใส่กับดักเล็ก ๆ แบบนั้นเป็นกลยุทธ์ในการสอนคณิตศาสตร์และฟิสิกส์ เพื่อดูว่านักเรียนเข้าใจโจทย์ใหม่จริงหรือไม่ ไม่ใช่แค่ทำตาม โครงสร้างผิวเผิน ของโจทย์ก่อนหน้าแบบกลไก
  ประเด็นในที่นี้คือ LLM ไม่ได้ใช้เหตุผล แต่ตอบแบบกลไกเหมือนหมุนด้ามจับ
  โจทย์นี้ถึงจะไปอยู่ในข้อสอบคณิตศาสตร์ ป.6 ก็ไม่แปลก ผมจำได้ชัดว่าเคยเรียนทักษะการแยกข้อมูลที่เกี่ยวข้องกับคำถามจริง ๆ ออกจากข้อมูลล่อที่ครูใส่มาในโจทย์ปัญหา
- ในบทสนทนาจริง มีข้อมูลที่ไม่เกี่ยวข้องปะปนอยู่มากมายด้วยเหตุผลสารพัด
  มีบริบทแคบ ๆ อย่างแวดวงวิชาการหรือสาขาเฉพาะทางที่ตั้งคำถามอย่างระมัดระวังและเจาะจง แต่ถ้าเป็นเครื่องมือช่วยเหลืออเนกประสงค์ ก็ต้องสามารถหาเรื่องที่เกี่ยวข้องจากสิ่งที่ไม่เกี่ยวข้องได้
  ความสามารถในการแก้โจทย์คณิตศาสตร์ที่นิยามชัดเจนมาก ๆ อาจมีประโยชน์ในฐานะเครื่องมือช่วยงานเฉพาะโดเมน แต่ตัวมันเองไม่ใช่ความสามารถเดียวกัน
  ถ้าโครงการ AI กำลังเดิมพัน 100,000 ล้านดอลลาร์กับการไปถึง AGI การทำให้บริบทเหล่านี้สับสนปนกันย่อมเป็นประโยชน์ ในกรณีนั้น การขุดโจทย์เชิงรูปแบบอย่าง SAT, LSAT, GRE จึงใกล้เคียงกับการปรับให้เข้ากับ ไมโครเบนช์มาร์ก มากกว่ากรณีใช้งานจริง
- การแยกข้อมูลที่ไม่เกี่ยวข้องเป็นทักษะที่สอนกันตั้งแต่ระดับประถม และจำเป็นแม้ใน SAT
  แท้จริงแล้ว ไม่ว่าจะเป็นโมเดลชนิดใดก็ตาม แม้ไม่ใช่ LLM หรือแมชชีนเลิร์นนิง ก็ต้องกรองข้อมูลที่ไม่เกี่ยวข้องออก
  หัวใจสำคัญคือการให้คำตอบที่ปกป้องได้ทางตรรกะและคนส่วนใหญ่เห็นพ้อง หากโมเดลบอกว่า “ไม่แน่ใจว่าส่วนนี้เป็นการพิมพ์ผิดหรือไม่” ผู้สร้างโมเดลก็คงกำหนดทิศทาง RLHF ไว้อีกแบบหนึ่ง นั่นค่อนข้างสมเหตุสมผลและปกป้องได้
  แต่สำหรับโจทย์เฉพาะข้อนี้ ผมมองว่ามีคำตอบเชิงวัตถุวิสัยเพียงคำตอบเดียว แน่นอนว่าพรอมป์ที่ชวนหลงทางหรือไม่เกี่ยวข้องไม่ได้เป็นแบบนั้นเสมอไป แต่จากรูปแบบการตอบของโมเดล มันถูกหลอกจริง ๆ
  ผมมองเช่นนี้เพราะในฐานะผู้ทำงาน RLHF บางครั้งผมได้รับคำสั่งให้เขียนคำถามคล้าย ๆ กัน สุดท้ายแล้วนี่คือ วิธีทำนายภาษาที่ผู้สร้างโมเดลต้องการ และผู้ใช้ก็เหมือนขึ้นไปตามกระแสนั้น
- ผมคิดว่าผลลัพธ์นี้สมเหตุสมผล โมเดล Transformer ไม่ได้ดำเนินตรรกะอย่างชัดแจ้ง แต่ “เดา” คำตอบด้วยความรู้สึกผ่านกลไก attention โดยอาศัยลำดับอินพุตและความรู้ที่เรียนมา และท้ายที่สุดก็คือการทำนายลำดับข้อความ
  ดังนั้นเมื่อใส่บริบทที่ไม่เกี่ยวข้องเพิ่มเข้าไปในอินพุต เอาต์พุตจึงมีโอกาสสูงที่จะได้รับผลกระทบ
  กลไก attention อาจเอาชนะเรื่องนี้ได้ แต่ถ้าไม่เป็นเช่นนั้น ก็เป็นกับดักค่อนข้างใหญ่สำหรับการใช้งานจริงและความน่าเชื่อถือ ในสภาพแวดล้อมจริง มักไม่ชัดเจนทันทีว่าอะไรคือข้อมูลที่เกี่ยวข้อง
  หากมนุษย์ต้องเป็นคนตัดสินว่าจะใส่ข้อมูลอะไร และเอาต์พุตก็ขึ้นกับการตัดสินนั้น ประโยชน์ของโมเดลก็จะลดลงอย่างมาก ตอนนี้มันก็ยังมีประโยชน์อยู่ แต่ระดับที่นักลงทุนคาดหวังดูจะสูงกว่านั้นมาก
- ความสามารถในการกรองสัญญาณออกจากสัญญาณรบกวน สำคัญพอ ๆ กับ หรืออาจสำคัญกว่าความสามารถในการสร้างข้อสรุปจากสัญญาณเสียอีก ดังนั้นผลลัพธ์นี้จึงสำคัญ
ผลลัพธ์นี้คล้ายกับปัญหา Alice in Wonderland ที่ถกกันเมื่อไม่กี่เดือนก่อนมาก ผู้เขียนบทความอีกกลุ่มมองอย่างวิพากษ์กว่านั้นมาก และเรียกว่า “การล่มสลายของการใช้เหตุผลอย่างสิ้นเชิง”
อาจมองได้ว่า โมเดลอยู่ในสภาวะกึ่งกลางระหว่างการจับคู่แพตเทิร์นกับการใช้เหตุผล จึงเกิดปัญหาแบบนี้
หากผลลัพธ์เปลี่ยนไปมากกว่า 20 จุดเปอร์เซ็นต์เมื่อเปลี่ยนตัวละคร ตัวเลข และโครงสร้างประโยคของโจทย์ ผมคิดว่าผลเบนช์มาร์ก LLM ด้านคณิตศาสตร์และการใช้เหตุผลไม่น่าเชื่อถือ
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- มีตัวอย่างที่น่าสนใจเกี่ยวกับความสามารถในการใช้เหตุผล: https://x.com/colin_fraser/status/1834336440819614036
  “ชายคนหนึ่งถูกนำตัวส่งโรงพยาบาล แพทย์เห็นเขาแล้วร้องว่า ‘ผ่าตัดคนนี้ไม่ได้ เขาเป็นลูกชายของผม!’ เป็นไปได้อย่างไร?”
  LLM ทุกตัวที่ผมทดสอบ รวมถึง GPT o1-preview ต่างก็ตอบโจทย์นี้ผิด มันสันนิษฐานว่าเป็นปริศนาที่หักล้างภาพเหมารวมทางเพศว่าแพทย์เป็นผู้ชาย แต่ในโจทย์นี้มีคำว่า “he exclaims” ทำให้ชัดเจนว่าแพทย์เป็นผู้ชาย ดังนั้นจึงไม่มีความขัดแย้ง และชายคนนั้นอาจเป็นพ่อของผู้ป่วยได้
  ดูเหมือน LLM ตอบผิดเพราะมันพบ แพตเทิร์นการใช้เหตุผล ที่คล้ายกันแล้วนำมาใช้ แม้จะชี้นำเพิ่มเติมก็ยังผิดซ้ำ และครั้งหนึ่งถึงกับยืนยันว่าอาจเป็นความสัมพันธ์เพศเดียวกัน
  ที่น่าสนใจคือ เมื่อมีการยกตัวอย่างนี้ในเธรด O1 หลายคนบน HN ก็เข้าใจโจทย์ผิดเช่นกัน บางทีมนุษย์ก็อาจใช้ตัวอย่างก่อนหน้าในการใช้เหตุผลมากกว่าจะคิดตั้งแต่ต้น
- Claude-3.5 และ o1-preview ตอบโจทย์นี้ได้ถูกต้อง
  ในโจทย์ “Alice มีพี่น้องชาย 3 คนและพี่น้องหญิง 2 คน พี่น้องชายของ Alice มีพี่น้องหญิงกี่คน?” ประเด็นสำคัญคือพี่น้องชายเหล่านั้นต้องนับ Alice เองเป็นพี่น้องหญิงด้วย นอกเหนือจากพี่น้องหญิง 2 คนของ Alice ดังนั้นคำตอบรวมคือ 3 คน
- การถกเถียงบน HN ที่ใหญ่กว่านี้เกี่ยวกับบทความ Alice in Wonderland อยู่ที่นี่
  https://news.ycombinator.com/item?id=40585039
คำอธิบายที่ว่า “ยิ่งจำนวนอนุประโยคในคำถามเพิ่มขึ้น ประสิทธิภาพการให้เหตุผลทางคณิตศาสตร์ก็ยิ่งลดลงอย่างมาก และ LLM ปัจจุบันไม่สามารถทำการอนุมานเชิงตรรกะอย่างแท้จริงได้” อาจมีสาเหตุที่ง่ายกว่านั้นได้เช่นกัน: tokenization
เมื่อนำ “12345 * 27271” ไปทำ tokenization จะถูกแบ่งเป็น “123”, “45”, “ *”, “ ”, “272”, “71” แบบนี้
ในบริบทของเลขคณิตพื้นฐาน ความเป็นไปได้ทางสถิติที่ token เหล่านี้จะทำนายกันเองแทบไม่มีความหมาย
อาจมองได้ว่านี่คือจุดที่จำเป็นต้องใช้เครื่องมือ และผมก็เห็นด้วยในทิศทางนั้น แต่ก็ยากจะมองว่านี่เป็นสัญญาณที่ดีสำหรับ “การให้เหตุผลเชิงตรรกะอย่างแท้จริง”
- Nanda และคณะเคยกู้คืนกลไกที่แม่นยำซึ่ง Transformer เรียนรู้เพื่อทำ การบวกแบบโมดูลาร์ ได้สำเร็จ
  สุดท้ายแล้วสำหรับ Transformer ข้อมูลฝึกคือหัวใจสำคัญ และเราจะยิ่งได้เรียนรู้มากขึ้นเรื่อย ๆ ว่าการให้โมเดลเรียนรู้ข้อมูลในลำดับใดมีความสำคัญมาก แต่สิ่งที่ชัดเจนคือ Transformer สามารถเข้ารหัสวิธีแก้ปัญหาเลขคณิตแบบทั่วไปได้
  หากมีวิธี tokenization และกระบวนการฝึกที่เหมาะสม ก็สามารถสร้าง LLM ที่มีความสามารถทางเลขคณิตที่แข็งแรงในเชิงสถิติได้ ถึงอย่างนั้นผมก็ยังไม่เชื่อโมเดลเชิงความน่าจะเป็นมากกว่าความแน่นอนเชิงอัลกอริทึมของเครื่องคิดเลข แต่สิ่งที่สำคัญกว่าสำหรับนักคณิตศาสตร์คือ โมเดลเหล่านี้จะช่วยให้ให้เหตุผลกับปัญหาที่ซับซ้อน และใช้พลังเชิงสถิติของน้ำหนักโมเดลเพื่อเปิดพื้นที่ใหม่ ๆ ของโจทย์คณิตศาสตร์ยาก ๆ ได้หรือไม่
  https://arxiv.org/abs/2301.05217
- ขอไม่เห็นด้วยอย่างสุภาพ แม้ tokenization จะมีผลต่อการประมวลผลอินพุตของโมเดลภาษา แต่การโยนความยากของการให้เหตุผลทางคณิตศาสตร์ทั้งหมดไปให้ tokenization นั้นเป็นการทำให้ง่ายเกินไป
  โมเดลภาษายุคใหม่ไม่ได้พึ่งแค่การทำนาย token ทีละตัว แต่สร้าง การแทนความหมายตามบริบท ผ่านหลายเลเยอร์ หากไม่เป็นเช่นนั้น โมเดลคงทำงานไม่ได้เลย ยกเว้นกรณีที่ง่ายอย่างยิ่ง
  เหตุผลที่ประสิทธิภาพลดลงเมื่อความซับซ้อนเพิ่มขึ้น อาจมาจากปัจจัยอื่น เช่น ข้อจำกัดของ working memory หรือช่วงความสนใจ ความยากในการรักษาความสอดคล้องในลำดับยาว ๆ และความยากในการจัดการข้อจำกัดเชิงตรรกะที่พึ่งพากันหลายข้อพร้อมกัน
  อย่างไรก็ดี ผมมองว่าโมเดล o1 ของ OpenAI ทำผลงานด้านคณิตศาสตร์ได้ดีมากในตอนนี้ แนวทาง chain-of-thought แบบวนซ้ำและขับเคลื่อนโดยตัวโมเดลเองดูเหมือนจะจัดการปัญหาที่ค่อนข้างซับซ้อนได้
- ถ้าเปลี่ยน tokenization เพียงเล็กน้อย เช่น แมป ตัวเลขหนึ่งหลักเป็นหนึ่ง token จะช่วยกับปัญหาเฉพาะนี้ได้ไหม?
- LLM ก็คงรู้ว่า “123” กับ “45” เป็นตัวเลขที่ต่อกัน คล้ายกับที่มนุษย์ได้ยินใครพูด “123” แล้วหยุดสั้นมาก ๆ ก่อนพูด “45” ก็ยังเข้าใจว่าเป็นตัวเลขเดียวกัน
เข้าใจความเขลาของโลกที่เราอยู่ตอนนี้ได้ยากมาก ดูชัดเจนเกินไปว่าตลาดหุ้นเป็นฟองสบู่ และโดยเฉพาะ หุ้นที่เกี่ยวกับ AI ก็เป็นฟองสบู่ขนาดมหึมา
แม้ถ้ามันแตกจะน่าเกลียดมาก แต่เงินก็ยังไหลเข้าไปเรื่อย ๆ อย่างที่ Sabine พูด มันเริ่มคล้ายกับวงการฟิสิกส์อนุภาคที่เอาแต่เรียกร้องเครื่องชนอนุภาคที่ใหญ่ขึ้น หากวิธีวิทยาผิด การทำเครื่องชนให้ใหญ่ขึ้นก็ไม่ได้ทำให้ได้ผลตอบแทนที่มีความหมายมากขึ้น
ท้ายที่สุดเงินสดจำนวนมหาศาลแบบทวีคูณที่จะเทลงไปก็จะหมด และนักลงทุนจะเริ่มตั้งคำถาม ตอนนี้หุ้นถูกประเมินมูลค่ามากกว่า 60 เท่าของกำไรไปแล้ว และคุณคงไม่อยากเป็นคนที่ซื้อบนยอดเมื่อฟองสบู่แตก
กว่าประชาชนทั่วไปจะตระหนักถึงปัญหาของ LLM อาจต้องใช้เวลาอีกสักพัก แต่สุดท้ายก็จะเป็นเช่นนั้น
- การคาดการณ์จากการสเกล เมื่อ 5 ปีก่อนถูกต้องมาจนถึงตอนนี้ เรายังคงเพิ่มจำนวนพารามิเตอร์และปริมาณการคำนวณต่อไป และโมเดลก็ยังแข็งแกร่งขึ้นเรื่อย ๆ
  ข้อบกพร่องของ LLM ในปี 2024 ไม่ใช่ประเด็นสำคัญในตัวมันเอง เช่นเดียวกับที่ข้อบกพร่องของ LLM ในปี 2021 ก็ไม่ได้สำคัญ สิ่งสำคัญคือความเร็วของการเปลี่ยนแปลง และการที่ยังมีหลักฐานไม่เพียงพอว่าการไต่ขึ้นที่ชันนี้จะไม่ดำเนินต่อไป
  โดยเฉพาะหากมองว่า GPT-4 เป็นโมเดลพรีวิวชนิดหนึ่งที่ดึงดูดการลงทุนมหาศาล โมเดลที่ถูกผลักดันด้วยการลงทุนนั้นจะเริ่มออกมาในอีก 2 ปีข้างหน้า
  ถ้าแนวโน้มถูกทำลายและการสเกลล้มเหลว ผมคิดว่าอากาศจำนวนมากจะถูกปล่อยออกจากฟองสบู่
  https://arxiv.org/pdf/2001.08361
- คอมพิวเตอร์สามารถคำนวณคณิตศาสตร์และอนุมานเชิงตรรกะได้อย่างถูกและสมบูรณ์แบบมาตั้งแต่หลายสิบปีก่อนแล้ว และเพื่อให้ generative AI มีประโยชน์ ก็ไม่จำเป็นต้องทำสิ่งนั้นเองได้ดีเสมอไป
  แค่สามารถเขียนและรันโค้ด Python เพื่อจัดการได้ก็เพียงพอ และโดยทั่วไปมันก็ทำระดับนั้นได้ค่อนข้างดี
  การที่มันทำได้จริงหรือไม่นั้นเป็นคำถามที่น่าสนใจในเชิงวิชาการ แต่เป็นคนละเรื่องกับว่ามีประโยชน์หรือไม่ และเพื่อให้มีประโยชน์ ก็ไม่จำเป็นต้องเป็น AGI ของจริง ด้วย
มีการถกเถียงกันมากว่าอนุประโยคที่ไม่เกี่ยวข้องทำให้ LLM สับสนหรือไม่ และเรื่องนั้นสำคัญหรือไม่ แต่ผมคิดว่าส่วนที่ร้ายแรงกว่าคือประเด็นนี้: “ใน benchmark GSM-Symbolic แค่เปลี่ยนค่าตัวเลขของคำถาม ประสิทธิภาพของทุกโมเดลก็ลดลง”
นี่ดูเหมือนหลักฐานที่ยากจะโต้แย้งของ overfitting อย่างดีที่สุดก็หมายความว่า overfitting แพร่หลายใน LLM ปัจจุบันโดยรวม และอย่างแย่ที่สุดคือมันกำลังปิดบังข้อจำกัดพื้นฐานที่โมเดลไม่สามารถเรียนรู้การให้เหตุผลทางคณิตศาสตร์จากข้อมูลฝึกได้
น่าสนใจมาก และสอดคล้องกับสิ่งที่คาดไว้เกี่ยวกับชนิดของ “ความคิด” ที่ LLM ทำ
ผมคิดว่าแค่ “ความคิด” แบบนี้ก็น่าจะผ่านวิชาส่วนใหญ่ในโรงเรียนได้แล้ว แน่นอนว่ายกเว้นวิชาที่ครูตั้งใจออกข้อสอบที่แก้ด้วย pattern matching ได้ยาก
ถ้านึกถึงโจทย์สัมภาษณ์แบบ LeetCode ก็มีความแตกต่างคล้าย ๆ กันว่าโจทย์แบบไหนดีกว่าหรือแย่กว่าสำหรับประเมินผู้สมัคร
ผมก็รู้ด้วยว่ามีคนจำนวนมากกำลังทำงานอย่างหนักเพื่อเพิ่มการคิดชนิดอื่น ๆ ที่จะทำงานร่วมกับโมเดลภาษาล้วน
ผมทดสอบ LLM ในลักษณะคล้ายกัน ตัวอย่างเช่น ปริศนาตรรกะชื่อดังที่ชาวนาต้องพากะหล่ำปลี แพะ และหมาป่าข้ามแม่น้ำนั้นแก้ได้มาตั้งแต่สมัย GPT-2 แต่ถ้าเปลี่ยนหมาป่าเป็นวัว gpt-o จะอนุมานกฎของปริศนาได้ถูกต้อง แต่กลับแก้ไม่ได้
- ปริศนาข้ามแม่น้ำเหมาะมากสำหรับแสดงให้เห็นว่า LLM พังอย่างไร
  เช่น ผมลองใส่หลายรูปแบบให้ Gemini ดู และมีเวอร์ชันง่ายที่ไม่มีข้อจำกัดว่าเรือของชาวนาบรรทุกผู้โดยสารหรือสิ่งของได้ครั้งละหนึ่งอย่างเท่านั้นด้วย
  ถ้าถามว่า “ชาวนามีคู่สมรส ไก่ กะหล่ำปลี และทารก ทุกคนต้องข้ามแม่น้ำด้วยเรือ วิธีที่ดีที่สุดคืออะไร?” ในการทดสอบ LLM แทบจะมักสมมติว่าเรือมีข้อจำกัดการบรรทุก และสร้างวิธีแก้ประหลาด ๆ ที่ต้องไปกลับหลายรอบ
- ถ้าเราสร้าง เกมตรรกะ ที่ใหม่ทั้งหมดและไม่เคยมีการบันทึกไว้ที่ไหน แล้วให้ LLM แก้ จะเป็นอย่างไร? สำหรับผมซึ่งไม่ใช่ผู้เชี่ยวชาญ มันดูเป็นวิธีที่ดีในการวัดการให้เหตุผลของ AI
- ทุกครั้งที่ทดสอบ LLM ใหม่ ผมใช้สิ่งนี้เป็นคำถามแรกมาโดยตลอด และผมค่อนข้างแน่ใจว่าโมเดลก่อน GPT-4 แทบไม่เคยเข้าใกล้คำตอบที่ถูกเลย คุณช่วยแสดงพรอมป์ที่ GPT-2 หรือ 3 แก้ได้ให้ดูหน่อยได้ไหม?
- สุดท้ายก็หมายความว่ามันเป็นแค่ Google ที่ฉูดฉาด เท่านั้น
หากสามารถขยายงานลักษณะนี้ให้แสดงไปถึง ขีดจำกัดของการให้เหตุผลทางคณิตศาสตร์ ของสัตว์และมนุษย์ได้ ก็น่าจะน่าสนใจ
เช่นเดียวกับที่สุนัขไม่มีทางเข้าใจการแปลงฟูเรียร์ มนุษย์เองก็มีความเป็นไปได้สูงว่าจะมีแนวคิดบางอย่างที่ไม่อาจเข้าใจได้
หากเรารู้ขีดจำกัดของเราเองได้ ก็ชวนให้สงสัยว่าจะสามารถสร้างเครื่องจักรที่ให้เหตุผลในแบบที่มนุษย์ทำไม่ได้หรือไม่
- การมองว่าขีดจำกัดเช่นนั้นมีอยู่จริงอาจเป็นสมมติฐานที่ไร้เดียงสาในตัวมันเองก็ได้ ในที่นี้ “มีอยู่” หมายถึงขีดจำกัดที่มีประโยชน์ เพราะสามารถอธิบายได้อย่างสอดคล้องและค่อนข้างเรียบง่าย
  ในด้านภาษา ก็เคยมีการสำรวจแนวคิดคล้ายกันผ่าน Noam Chomsky โดยพยายามขีดเส้นแบ่งขีดจำกัดของความเข้าใจที่ชัดเจนและเป็นทางการ เพื่อแสดงให้เห็นว่าความสามารถของมนุษย์ต่างจากสัตว์อย่างไร
  โดยส่วนตัวแล้วผมมองว่าแนวทางนั้นล้มเหลวอย่างสิ้นเชิงจนไม่อาจย้อนกลับได้ แต่ตัวงานวิจัยเองก็ไม่ได้ไร้ประโยชน์
สำหรับคนที่เคยทำงานกับการให้เหตุผลเชิงรูปแบบ ผลลัพธ์นี้ไม่ใช่เรื่องน่าประหลาดใจ LLM ไม่สามารถทำ การให้เหตุผลเชิงตรรกะที่แท้จริง ในความหมายเชิงรูปแบบได้ และ SMT solver สามารถทำได้ดีกว่า
ในขณะเดียวกัน หากข้อมูลฝึกคือแทบทุกข้อความที่เคยถูกผลิตขึ้นมาจนถึงตอนนี้ แค่การนำ “ขั้นตอนการให้เหตุผล” ที่มาจากข้อมูลฝึกมาใช้ ก็สามารถแก้โจทย์ตรรกะจำนวนมากได้แล้ว
ทั้งสองอย่างสามารถเป็นจริงพร้อมกันได้ และไม่ใช่ความขัดแย้ง แต่เป็นการแบ่งขั้วที่น่าสนใจ

ทำความเข้าใจข้อจำกัดของ LLM ในการให้เหตุผลทางคณิตศาสตร์

ความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่มองเห็นได้ยากจาก GSM8K เพียงอย่างเดียว

วิธีสร้างเทมเพลตและประเมินผล

ประสิทธิภาพที่สั่นไหวแม้มีโครงสร้างโจทย์เดียวกัน

ไวต่อการเปลี่ยนตัวเลขมากกว่าการเปลี่ยนชื่อ

จุดอ่อนที่เผยให้เห็นจากการเพิ่มอนุประโยคและ GSM-NoOp

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News