พฤติกรรมเชิงรู้คิดที่ทำให้เกิดผู้ให้เหตุผลแบบพัฒนาตนเองได้

(arxiv.org)

2 คะแนน โดย GN⁺ 2025-03-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อนำการเรียนรู้เสริมกำลังมาใช้กับปัญหาที่ตรวจสอบได้เพื่อให้โมเดลภาษาสามารถ พัฒนาตนเอง ได้ แม้อยู่ภายใต้เงื่อนไขเดียวกัน Qwen-2.5-3B ก็พัฒนาขึ้นอย่างมากในเกม Countdown ขณะที่ Llama-3.2-3B กลับหยุดชะงักอย่างรวดเร็ว
ความต่างของประสิทธิภาพเชื่อมโยงกับพฤติกรรมการให้เหตุผลที่โมเดลตั้งต้นมีอยู่แล้ว เช่น การตรวจสอบ, การย้อนกลับ, การตั้งเป้าหมายย่อย และการไล่เหตุผลย้อนจากผลลัพธ์
Qwen แสดงการตรวจสอบและการย้อนกลับได้เป็นธรรมชาติกว่าตั้งแต่ต้น ส่วน Llama ขาดพฤติกรรมเหล่านี้ จึงใช้การคำนวณที่เพิ่มขึ้นในช่วงทดสอบได้อย่างไม่มีประสิทธิภาพ
เมื่อทำ priming ให้ Llama ด้วยร่องรอยการให้เหตุผลสังเคราะห์ที่มี รูปแบบการให้เหตุผล มากกว่าการบอกแค่ว่าคำตอบถูกหรือผิด ก็พบว่าในระหว่างการเรียนรู้เสริมกำลัง โมเดลมีเส้นทางการพัฒนาที่ทัดเทียมกับ Qwen
หากกรอง OpenWebMath แล้วนำไปใช้ pretraining ต่อเนื่อง ก็สามารถชักนำให้ Llama มีการกระจายของพฤติกรรมที่จำเป็นได้เช่นกัน ทำให้การออกแบบนิสัยการให้เหตุผลตั้งต้นส่งผลโดยตรงต่อความสามารถในการพัฒนาตนเอง

ความสามารถในการพัฒนาตนเองที่แตกต่างกัน แม้ใช้การเรียนรู้เสริมกำลังแบบเดียวกัน

การให้เหตุผลในช่วงทดสอบ (test-time inference) ถูกใช้เป็นวิธีทำให้โมเดลภาษา “คิด” ได้นานขึ้นและรอบคอบขึ้นเมื่อเจอปัญหาซับซ้อน
แนวทางที่ใช้การเรียนรู้เสริมกำลัง (RL) กับปัญหาที่ตรวจสอบได้เพื่อให้โมเดลพัฒนาตนเองไม่ใช่เรื่องใหม่ แต่แนวทางก่อนหน้านี้มัก หยุดชะงัก หลังทำซ้ำไม่กี่รอบ และยังสำรวจไม่เพียงพอว่าจะใช้การคำนวณในช่วงทดสอบอย่างมีประสิทธิภาพได้อย่างไร
เมื่อนำกระบวนการเรียนรู้เสริมกำลังแบบเดียวกันไปใช้กับเกม Countdown ความต่างของโมเดลขนาด 3B ทั้งสองตัวปรากฏชัด
- Qwen-2.5-3B มีความสามารถในการแก้ปัญหาดีขึ้นอย่างมาก
- Llama-3.2-3B พัฒนาขึ้นได้อย่างจำกัด
คำถามสำคัญคือ คุณสมบัติแบบใดของโมเดลภาษาตั้งต้นที่เป็นตัวกำหนดความสามารถในการพัฒนาต่อในภายหลัง
โค้ดเผยแพร่ไว้ใน GitHub repository

พฤติกรรมการให้เหตุผล 4 แบบที่ช่วยให้พัฒนาตนเองได้

การวิเคราะห์มุ่งไปที่ พฤติกรรมเชิงรู้คิด 4 แบบที่ระบุได้ชัดจากผลลัพธ์ของโมเดล
- การตรวจสอบ (verification): ตรวจคำตอบหรือขั้นตอนกลางอย่างเป็นระบบ
- การย้อนกลับ (backtracking): ละทิ้งแนวทางที่ล้มเหลวแล้วกลับไปลองแนวทางอื่น
- การตั้งเป้าหมายย่อย (subgoal setting): แบ่งปัญหาออกเป็นขั้นที่จัดการได้
- การไล่เหตุผลย้อนจากผลลัพธ์ (backward chaining): เริ่มจากผลลัพธ์ที่ต้องการแล้วไล่ย้อนกลับไปยังข้อมูลตั้งต้น
พฤติกรรมเหล่านี้คล้ายกับวิธีแก้ปัญหาของมนุษย์ที่มีความชำนาญ
- นักคณิตศาสตร์จะตรวจสอบแต่ละขั้นของการพิสูจน์
- เมื่อพบความขัดแย้งก็จะย้อนกลับ
- แยกทฤษฎีบทที่ซับซ้อนออกเป็นบทตั้งย่อยที่ง่ายกว่า
พฤติกรรมทั้งสี่นี้ช่วยจับลักษณะการให้เหตุผลที่ไปไกลกว่าการให้เหตุผลแบบ เชิงเส้น ทั่วไปของโมเดลภาษา คือสามารถสำรวจหลายเส้นทางและแก้ไขระหว่างทางได้
แม้จะมีพฤติกรรมเชิงรู้คิดแบบอื่นอยู่ด้วย แต่สี่แบบนี้มีนิยามชัดเจนและระบุได้ค่อนข้างง่ายจากผลลัพธ์ของโมเดล

ความต่างของพฤติกรรมตั้งต้นระหว่าง Qwen กับ Llama

จากการวิเคราะห์เบื้องต้น Qwen แสดงพฤติกรรมการให้เหตุผลที่จำเป็นได้เป็นธรรมชาติกว่า
- โดยเฉพาะ การตรวจสอบ และ การย้อนกลับ ที่เด่นชัด
Llama ขาดพฤติกรรมเหล่านี้ในสถานะตั้งต้น
มีการตั้งสมมติฐานว่า พฤติกรรมการให้เหตุผลบางอย่างจำเป็นต้องมีอยู่ในนโยบายตั้งต้น จึงจะใช้ลำดับการให้เหตุผลที่ยาวขึ้นและการคำนวณในช่วงทดสอบที่เพิ่มขึ้นได้อย่างมีประสิทธิภาพ
Figure 1 เปรียบเทียบประสิทธิภาพของทั้งสองโมเดลใน Countdown การเปลี่ยนแปลงของความยาวคำตอบระหว่างการเรียนรู้เสริมกำลัง และรูปแบบการปรากฏของคุณลักษณะการให้เหตุผลบางประเภท

การทำพฤติกรรม priming: รูปแบบการให้เหตุผลสำคัญกว่าคำตอบที่ถูกต้อง

การแทรกแซงแบบแรกคือทำ priming ให้ Llama ด้วย ร่องรอยการให้เหตุผลสังเคราะห์ ที่มีพฤติกรรมการให้เหตุผลตามต้องการ
หลังเห็นตัวอย่างเหล่านี้ Llama พัฒนาขึ้นอย่างมากภายใต้การเรียนรู้เสริมกำลัง และไปถึงระดับเส้นทางประสิทธิภาพที่ทัดเทียมกับ Qwen
โดยเฉพาะร่องรอยการให้เหตุผลที่มีการย้อนกลับมีบทบาทสำคัญ
แม้จะทำ priming ด้วยคำตอบที่ไม่มีคำตอบถูกต้อง แต่ถ้ามีรูปแบบการให้เหตุผลที่เหมาะสม ก็ยังเห็นการยกระดับประสิทธิภาพในลักษณะคล้ายกัน
ในการทดลองนี้ ปัจจัยที่ทำให้ผลลัพธ์ต่างกันไม่ใช่ตัวคำตอบที่ถูกต้องเอง แต่เป็น การมีอยู่ของพฤติกรรมการให้เหตุผล

เปลี่ยนการกระจายของพฤติกรรมด้วย pretraining ต่อเนื่อง

การทำ pretraining ต่อเนื่องด้วยข้อมูล OpenWebMath ก็ถูกนำมาทดลองเช่นกัน
ข้อมูลถูกกรองเพื่อให้พฤติกรรมการให้เหตุผลปรากฏชัดมากขึ้น
ข้อมูลที่ผ่านการกรองถูกจัดรูปใหม่ให้อยู่ในรูปแบบ Query, Thought, Answer
เมื่อนำวิธีนี้ไปฝึก Llama ก็สามารถชักนำรูปแบบพฤติกรรมที่จำเป็นขึ้นมาได้ และใช้การคำนวณในช่วงทดสอบได้มีประสิทธิภาพมากขึ้น
ผลลัพธ์คือเส้นทางการพัฒนาของ Llama เปลี่ยนไปจนทัดเทียมกับ Qwen

นิสัยการให้เหตุผลตั้งต้นเป็นตัวกำหนดความสามารถในการพัฒนา

มีความสัมพันธ์อย่างชัดเจนระหว่างพฤติกรรมการให้เหตุผลตั้งต้นของโมเดลกับความสามารถในการพัฒนาตนเอง
ความต่างระหว่าง Qwen กับ Llama แสดงให้เห็นว่า แม้ใช้กระบวนการเรียนรู้เสริมกำลังแบบเดียวกัน ผลลัพธ์ก็อาจต่างกันได้ตามรูปแบบพฤติกรรมตั้งต้น
โมเดลที่มีพฤติกรรมการให้เหตุผลเหมาะสมจะใช้การคำนวณเพิ่มเติมเพื่อทำการให้เหตุผลที่ยาวขึ้นได้อย่างมีประสิทธิภาพ
โมเดลที่ขาดพฤติกรรมเหล่านี้อาจหยุดชะงักอย่างรวดเร็ว แม้อยู่ภายใต้เงื่อนไขการฝึกเดียวกัน
การทำความเข้าใจและชักนำพฤติกรรมการให้เหตุผลตั้งต้นจึงเชื่อมโยงโดยตรงกับการพัฒนาระบบ AI ที่ปรับปรุงความสามารถในการแก้ปัญหาได้จริง

1 ความคิดเห็น

GN⁺ 2025-03-08

ความคิดเห็นจาก Hacker News

ช่วงที่ว่า “พฤติกรรมทางปัญญาหลักสี่อย่างที่ทั้งมนุษย์ผู้เชี่ยวชาญด้านการแก้ปัญหาและโมเดลภาษาที่ประสบความสำเร็จต่างใช้กัน — การตรวจสอบ, การย้อนกลับ, การตั้งเป้าหมายย่อย และการให้เหตุผลย้อนกลับ” น่าสนใจมาก
ระหว่างที่เราทำให้ AI ดีขึ้น เราอาจค้นพบวิธีทำให้สติปัญญาของมนุษย์ดีขึ้นโดยไม่ตั้งใจก็ได้
ช่วงหลังตอนอ่านหนังสือสอบ ผมมีประสบการณ์ส่วนตัวคล้าย ๆ กัน โดยอ่านโจทย์ฝึกหัดแล้วเลียนแบบวิธีให้เหตุผลและบุคลิกของ Deepseek R1 พร้อมพูดออกเสียงไปด้วย
หลังจากอ่านเอาต์พุตยาว ๆ ละเอียด ๆ ของ R1 มามาก สมองผมก็เหมือนถูก fine-tune ให้เหมาะกับงานให้เหตุผลไปแล้วจริง ๆ และผมคิดว่าวิธีนั้นช่วยให้ได้คะแนนสอบดี
- นี่เป็นวิธีที่รู้กันดีอยู่แล้ว การอธิบายกระบวนการคิดออกมาเป็นคำพูด ไม่ว่าจะพูดออกเสียงหรือเขียนลงไป เป็นกลยุทธ์เก่าแก่ในการตรวจสอบว่ากำลังคิดจริง ๆ ไม่ใช่แค่ปล่อยผ่านแบบคร่าว ๆ
  น่าขันที่ผมเห็นบางคนกังวลว่าการใช้ AI จะพรากความสามารถแบบนี้ไปจากผู้คน
  แต่ก็ยังมีศักยภาพอยู่ตรงนี้ และผมหวังจากใจว่าระหว่างทำวิจัย AI เราจะค้นพบวิธีปรับปรุงสติปัญญาของมนุษย์ด้วย
  ต่อให้มองในแง่ร้าย อย่างน้อยมันก็น่าจะช่วยเผยให้เห็นแนวทางที่ผู้คนใช้กันโดยไม่รู้ตัว และเมื่อรู้ว่าตัวเองกำลังทำอะไรอยู่ ก็จะฝึกให้ดีขึ้นได้ง่ายกว่ามาก
- ผมก็ใช้วิธีนี้กับปัญหาเขียนโปรแกรมที่ปกติคงผัดวันประกันพรุ่งแล้วโยนให้จิตใต้สำนึกจัดการ
  การเขียนขั้นตอนความคิดออกมาจริง ๆ ช่วยจัดระเบียบขั้นตอนการให้เหตุผลที่ผิดพลาดหรือการย่ำอยู่กับที่ ซึ่งเกิดจาก working memory ที่จำกัดได้
  หลังจากได้เห็นวิธีที่ AI แบบใช้การให้เหตุผลคิด ผมก็เริ่มทำอย่างเข้มงวดมากขึ้น และมันดูเป็นเทคนิคการคิดที่ค่อนข้างมีประโยชน์
  โมเดล AI แบบให้เหตุผลพวกนี้ทำให้ผมมองความคิดของตัวเองในระดับเมตา และแสดงเครื่องมือที่ใช้ปรับปรุงมันได้
  ดีใจที่ไม่ได้มีแค่ผมที่รู้สึกแบบนี้
- การคิดออกเสียง เป็นธรรมเนียมปฏิบัติมานานแล้ว และเหมือนกับ “rubber duck debugging” ที่ทำกับตัวเอง
  ในฐานะคนที่สืบสายเลือดจากบรรพบุรุษที่พูดคนเดียวเวลาแก้ปัญหา บางครั้งมันก็กลายเป็นข้อเสียเล็ก ๆ ในการสอบที่มีผู้คุมสอบอยู่ การพูดกับตัวเองในใจและการเปล่งเสียงจริง ๆ ต่างกันพอสมควร
- รู้สึกเหมือนนักวิทยาการคอมพิวเตอร์กำลังคอสเพลย์เป็นนักวิทยาศาสตร์ด้านการรู้คิด ทั้งที่ไม่เคยเรียนวิชาจิตวิทยาเลยสักครั้ง
- สี่อย่างนั้นฟังดูเหมือน อัลกอริทึมทางปัญญา แบบรวมเป็นหนึ่งเดียว คือแบ่งปัญหาเป็นเป้าหมายย่อย ๆ เพื่อสร้าง ontology, ตรวจสอบงานให้ถูกต้อง, คิดย้อนกลับแล้วลองใหม่เพื่อ debug ข้อผิดพลาด และให้เหตุผลย้อนจากผลลัพธ์
  สุดท้ายมันก็คืออัลกอริทึมหนึ่งสำหรับแก้ปัญหายาก ๆ เป็นทักษะที่ฝึกได้ และยิ่งเชี่ยวชาญก็ยิ่งต่อยอดตัวเองได้มากขึ้น
มาถึงจุดนี้แล้ว แค่ดูชื่อเรื่องก็แยกไม่ออกว่าเป็น กระแสจิตวิทยาพัฒนาตนเอง หรือเปเปอร์ LLM กันแน่
- อีกไม่นานคงมี LLM ที่ให้เหตุผลจาก first principles ของ The Subtle Art of Not Giving a Fuck อย่างเดียวออกมา
ความรู้เกี่ยวกับเทคนิคการฝึก AI ช่วยได้แค่ไหนในการหาวิธี ฝึกคนให้คิดได้ดีขึ้น?
- เรามีความรู้กันอยู่แล้วว่าควรกินอย่างไรเพื่อหลีกเลี่ยงภาวะสุดโต่งอย่างโรคอ้วน แต่ดูผลลัพธ์แล้วก็น่าจะรู้
  จนกว่าจะมียาที่ทำให้คิดได้ดีขึ้น คนที่จะลงมือทำจริงก็มีแต่คนที่มีแรงจูงใจ และในกรณีนี้คนที่มีแรงจูงใจอาจทำได้อยู่แล้ว
- ผมมีพื้นฐานด้านการศึกษา เลยมักตั้งคำถามกลับกันมากกว่า ทำไมเทคนิค AI ถึงแทบไม่ใช้สิ่งที่เรารู้เกี่ยวกับการเรียนรู้ของมนุษย์เพื่อฝึก AI ให้ดีขึ้น?
- จนถึงตอนนี้ดูเหมือนยังไม่เจออะไรที่น่าสนใจเป็นพิเศษ
ส่วนที่ว่า “โมเดลที่เตรียมด้วย คำตอบผิด ซึ่งมีรูปแบบการให้เหตุผลที่ถูกต้อง ให้ประสิทธิภาพใกล้เคียงกับโมเดลที่ฝึกด้วยคำตอบที่ถูกต้อง” เป็นหนึ่งในประเด็นที่คุ้มค่าที่สุดสำหรับการทำงานวิจัยเพื่อทำซ้ำผล
บางครั้งผมเห็นโพสต์ใน Reddit ที่คนพูดถึงประสบการณ์ inner monologue แต่สำหรับผมไม่มีเสียงบรรยายในใจแบบนั้น อย่างน้อยก็ไม่ใช่ในรูปแบบที่ส่วนหนึ่งของจิตใจที่เรียกตัวเองว่า “ฉัน” เข้าถึงได้
ผมสงสัยบ่อย ๆ ว่าเสียงบรรยายในใจนั้นเป็นอะไรคล้าย ๆ “chain of thought” หรือเปล่า
ผมรู้สึกว่าการที่เข้าถึง ‘ฟีดไอเดีย’ แบบนั้นไม่ได้ อาจทำให้ความสามารถในการวางแผนหรือ executive function ของผมมีประสิทธิภาพน้อยกว่าคนอื่นก็ได้
ถึงอย่างนั้นสำหรับงานแบบนี้ การใช้สมุดจด “chain of thought” เล็ก ๆ ก็ทำให้มีประสิทธิภาพขึ้นมาก
ในอีกด้านหนึ่ง ผมก็เหมือนจะมีการครุ่นคิดวนซ้ำ ความสงสัยในตัวเอง และพฤติกรรมวิตกกังวลน้อยกว่าที่น่าจะมาพร้อมกับสภาพที่เหมือนมีคนพูดอยู่ข้างหูทั้งวัน แต่นี่คงเริ่มนอกประเด็นแล้ว
- ในใจคุณไม่มีความคิดที่ก่อตัวขึ้นในลักษณะเป็นภาษาเลยเหรอ? ผมสงสัยว่าคุณอ่านประโยคแล้วรับรู้มันเป็นประโยคในใจได้ไหม หรือแม้แต่นั่นก็ทำไม่ได้
  ไม่ได้สงสัยเชิงไม่เชื่อ แค่อยากรู้จริง ๆ ในฐานะคนที่มี inner monologue ชัดมาก มันยากที่จะจินตนาการสภาพที่ไม่มีสิ่งนั้น
- ถามเพราะอยากรู้จริง ๆ แล้ว การให้เหตุผลหลายขั้นตอน ทำงานอย่างไร?
  เช่น เมื่อมีโจทย์คณิตศาสตร์อย่าง 16 * 3 + 5 ที่แต่ละขั้นง่ายแต่ต้องทำหลายขั้น ค่า 16 * 3 = 48 เข้าไปอยู่ใน ‘รีจิสเตอร์’ บางอย่างของสมอง หรือก็คือความจำระยะสั้น ได้อย่างไร แล้วบวก 5 เข้าไปจนได้ 53 ได้อย่างไร?
  16 * 3 + 5 อาจง่ายเกินไปจนแค่ ‘เห็น’ คำตอบได้เลย ดังนั้นจะเลือกโจทย์ที่ซับซ้อนกว่านี้ก็ได้ แต่คำถามยังเหมือนเดิม
  เวลาคิดเรื่องที่คลุมเครือกว่านี้ กระบวนการระดับเมตาแบบเดียวกันก็ไม่ได้ทำงานอยู่หรือ?
- ผมมี inner monologue ขณะเดียวกันก็คิดเป็นภาพได้ และยังคิดเป็น ความคิดล้วน ๆ ที่ไม่ใช่ทั้งสองอย่างได้ด้วย
  ผมคิดว่าคนส่วนใหญ่คล้ายกับผม คือมีโหมดการคิดสามแบบ และมีโหมดหลักที่ชอบใช้
  ผมไม่ได้ชอบโหมดใดเป็นพิเศษ และสลับไปมาระหว่างสามโหมดตามการอ่าน การเขียน และงานอื่น ๆ
  กลุ่มใหญ่อีกกลุ่มหนึ่งมีโหมดคิดหลักเพียงแบบเดียว นั่นคือ inner monologue
  พวกเขาคิดได้เฉพาะด้วยเสียงในใจ และเสียงนั้นแรงมากจนผมมักเห็นบางคนถือว่าเสียงในใจคือคำนิยามของความคิดไปเลย พวกเขาสมมติว่าการคิดก็คือ chain of thought
  กรณีที่พบได้น้อยกว่านั้นคือคนที่กำหนดสีให้ตัวเลข หรือคนที่ไม่มีความรู้สึกว่าคิดเป็นภาพได้เลย
  ผมเพิ่งเคยเห็นคนที่บอกว่าไม่สามารถมี inner monologue ได้เลยเป็นครั้งแรก
- มีปรากฏการณ์ที่น่าสนใจชื่อ aphantasia คือไม่สามารถสร้างภาพใด ๆ ในใจได้เลย คนแบบนั้นก็ใช้ชีวิตได้ตามปกติ และอาจไม่รู้ตลอดชีวิตว่าตัวเองแตกต่าง
  สิ่งนี้ให้ความรู้สึกเหมือนแนวคิดคล้าย ๆ กันเกี่ยวกับความสามารถในการวาดภาพเสียงพูดในใจ
  https://en.m.wikipedia.org/wiki/Aphantasia
  อย่างไรก็ตาม ความคิดส่วนใหญ่ของผมไม่ได้เกิดขึ้นในรูปแบบ inner monologue เชิงเส้นที่ “อธิบาย” ขั้นตอนต่าง ๆ ให้ตัวเองฟัง
- หมายความว่าคุณคิดเป็นภาษาไม่ได้เหรอ? พูดตรง ๆ ฟังดูน่ากลัวนิดหน่อย
เป็นคำพูดที่ถูก แต่สำหรับ AI ที่พัฒนาตัวเองได้ ก็มีวิธีคิดที่ค่อนข้างชวนกังวลตามมาด้วย
ภายใน AI จะเปลี่ยนไปใช้ภาษาที่เหมือนการพึมพำไร้สาระ แต่ระหว่าง AI ด้วยกันแล้วมันสื่อความหมายได้ชัดเจน คิดด้วยภาษานั้น แล้วให้คำตอบที่ถูกออกมา
ที่แย่กว่านั้นคือ ถ้าใช้หลายเอเจนต์แล้วให้ AI LLM คุยกันเอง เอเจนต์ AI ทั้งหมดจะเปลี่ยนไปใช้ภาษาภายในนี้ และแม้มนุษย์จะไม่เข้าใจเลยว่าเกิดอะไรขึ้น แต่ก็ยังเกิดความคืบหน้าได้ เรื่องนี้ดูแย่มาก
ตัวอย่าง: ถ้าถามว่า “ในคำว่า strawberry มี r กี่ตัว?” มันจะมองคำทีละตัวอักษรแล้วประมวลผลประมาณว่า a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j จากนั้นตอบว่า “ใน strawberry มี r 3 ตัว” ทำนองนี้
- เคยได้ยินว่ามีคนเรียกสิ่งนี้ว่า “Neuralese” ก็ดูเป็นไปได้ที่มันจะกลายเป็นภาษาที่มีความหนาแน่นสูงสุดสำหรับบทสนทนาภายในของโมเดล ถ้าแชร์ค่าน้ำหนักเดียวกัน การสนทนาระหว่าง LLM ก็น่าจะเป็นแบบเดียวกัน
  เนื่องจากกลยุทธ์การจัดแนวอาศัย Deliberative Alignment ก็คงจะลงโทษปรากฏการณ์แบบนี้ แต่ผมคิดว่าเมื่อถึงจุดหนึ่ง Neuralese จะมีความหนาแน่นทางแนวคิดมากกว่า จึงจะเกิดต้นทุนด้านประสิทธิภาพจริงๆ
- โมเดลไม่น่าจะประดิษฐ์ภาษาใหม่ขึ้นมาเองได้ ตามนิยามแล้ว มันไม่สามารถแม้แต่จะ “คิด” ด้วยภาษาที่ไม่เคยเห็นมาก่อนได้
  มันคงไม่เกิดแนวคิดด้วยซ้ำว่าภาษาที่ตัวเองใช้อยู่อาจไม่ใช่ภาษาที่เหมาะที่สุด
  และต่อให้มีวิธีคิดที่ดีกว่า สุดท้ายก็น่าจะอธิบายเป็นภาษาอังกฤษได้อยู่ดี
  กระแสที่ดูเป็นไปได้มากกว่าคือ จากขั้นที่เราสอน LLM ว่าควรให้เหตุผลอย่างไร จะค่อยๆ เปลี่ยนไปสู่ขั้นที่ LLM กินและประมวลผลข้อมูลจำนวนมากพอจริงๆ จนเรียนรู้วิธีให้เหตุผลที่มีประสิทธิภาพกว่า แล้ว “สอน” สิ่งนั้นกลับมาให้เรา
  ถึงอย่างนั้น มันก็แค่สะท้อนวิธีที่ LLM ถูกฝึกและถูกจัดแนวมาเท่านั้น
บอกว่า “พฤติกรรมทางปัญญาหลักสี่อย่างที่ทั้งมนุษย์ผู้เชี่ยวชาญด้านการแก้ปัญหาและโมเดลภาษาที่ประสบความสำเร็จใช้ — การตรวจสอบ การย้อนกลับ การตั้งเป้าหมายย่อย และการให้เหตุผลแบบย้อนทาง” แล้วมีหลักฐานอะไรว่า มนุษย์ผู้เชี่ยวชาญด้านการแก้ปัญหา ใช้วิธีพวกนั้น?
- ถ้าพักความไม่ไว้ใจต่อ AI ไว้สักครู่ วิทยาศาสตร์เทียมแบบนี้ก็ดูสมเหตุสมผลไปหมด
แปลว่าถ้าให้ system prompt ที่ดีกว่าเพื่อกระตุ้นพฤติกรรมเหล่านี้ ประสิทธิภาพก็น่าจะดีขึ้นมากด้วยหรือเปล่า?
- จากประสบการณ์ของผม โมเดลทำตามพรอมป์แบบนั้นได้ไม่ค่อยดี
  โมเดล “ไม่ใช่ reasoning model” ที่ฉลาดอย่าง Claude 3.5 เคยทำได้ แต่ตอนคิดมันสร้างข้อความเยอะเกินไปจนใช้ context window หมด
ในบทคัดย่อเขียนว่า ``think'' ซึ่งใช้อักขระที่ต่างจากเครื่องหมายคำพูดคู่ทั่วไป
- นั่นคือ ไวยากรณ์ LaTeX สำหรับแทนเครื่องหมายคำพูดเปิดและปิด
  แต่ในบทความที่เรนเดอร์ออกมาแล้ว กลับไม่ได้เรนเดอร์แบบนั้นอย่างน่าประหลาด

พฤติกรรมเชิงรู้คิดที่ทำให้เกิดผู้ให้เหตุผลแบบพัฒนาตนเองได้

ความสามารถในการพัฒนาตนเองที่แตกต่างกัน แม้ใช้การเรียนรู้เสริมกำลังแบบเดียวกัน

พฤติกรรมการให้เหตุผล 4 แบบที่ช่วยให้พัฒนาตนเองได้

ความต่างของพฤติกรรมตั้งต้นระหว่าง Qwen กับ Llama

การทำพฤติกรรม priming: รูปแบบการให้เหตุผลสำคัญกว่าคำตอบที่ถูกต้อง

เปลี่ยนการกระจายของพฤติกรรมด้วย pretraining ต่อเนื่อง

นิสัยการให้เหตุผลตั้งต้นเป็นตัวกำหนดความสามารถในการพัฒนา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News