โมเดลภาษาขนาดใหญ่แบบปรับตัวเองได้ (Self-Adapting)

(arxiv.org)

3 คะแนน โดย GN⁺ 2025-06-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LLM แบบเดิมมักคงค่าน้ำหนักไว้เหมือนเดิมแม้ได้รับความรู้หรืองานใหม่ และ SEAL เสนอ เฟรมเวิร์กการปรับตัวเอง ที่ให้โมเดลสร้างและอัปเดตข้อมูลการเรียนรู้กับขั้นตอนการเรียนรู้ได้ด้วยตัวเอง
หน่วยหลักอย่าง self-edit สามารถจัดโครงสร้างข้อมูลใหม่ กำหนดไฮเปอร์พารามิเตอร์การปรับให้เหมาะสม รวมถึงเรียกใช้เครื่องมือสำหรับการเพิ่มข้อมูลและ การอัปเดตแบบอิงกราเดียนต์
SEAL เรียนรู้นโยบายการสร้าง self-edit ที่มีประสิทธิภาพมากขึ้นผ่าน ลูปการเรียนรู้แบบเสริมกำลัง ที่ใช้ประสิทธิภาพปลายน้ำของโมเดลที่อัปเดตแล้วเป็นรางวัล
ในการทดลองผสานความรู้ หลังปรับจูนละเอียดด้วยข้อมูลสังเคราะห์ที่โมเดลสร้างเอง ประสิทธิภาพ SQuAD แบบ no-passage-in-context เพิ่มจาก 33.5% เป็น 47.0% และสูงกว่าข้อมูลสังเคราะห์ที่สร้างโดย GPT-4.1
ใน few-shot learning บนชุดย่อย ARC-AGI ที่ทำให้ง่ายลง ระบบยังเลือกการเพิ่มข้อมูล อัตราการเรียนรู้ epoch และการคำนวณ loss แยกตาม token type ได้อัตโนมัติ ให้ผลลัพธ์ดีกว่า ICL มาตรฐานและ self-editing ที่ไม่มี RL

วิธีอัปเดต LLM แบบคงที่ให้ปรับตัวได้ด้วยตัวเอง

LLM แบบเดิมมีความสามารถสูงแต่เป็น แบบคงที่ (static) และไม่มีกลไกให้ปรับค่าน้ำหนักตามงานใหม่ ความรู้ใหม่ หรือชุดตัวอย่างใหม่
SEAL (Self-Adapting LLMs) ถูกออกแบบมาให้เมื่อได้รับอินพุตใหม่ โมเดลจะปรับเปลี่ยนข้อมูลการเรียนรู้และขั้นตอนการเรียนรู้ด้วยตัวเองเพื่อ ปรับตัวเอง
ผลลัพธ์หลักคือ self-edit
- สามารถจัดโครงสร้างข้อมูลใหม่ให้อยู่ในรูปแบบอื่นได้
- สามารถกำหนดไฮเปอร์พารามิเตอร์การปรับให้เหมาะสมได้
- สามารถเรียกใช้เครื่องมือสำหรับการเพิ่มข้อมูลและการอัปเดตแบบอิงกราเดียนต์ได้
self-edit นำไปสู่ การอัปเดตอย่างต่อเนื่อง ของค่าน้ำหนักโมเดลผ่าน supervised fine-tuning (SFT)
เว็บไซต์และโค้ดอยู่ที่ https://jyopari.github.io/posts/seal

ความต่างจากแนวทางการปรับตัวแบบเดิม

ปัจจุบันเมื่อ LLM ได้รับงานใหม่ โดยทั่วไปจะใช้ fine-tuning หรือ in-context learning เพื่อใช้ข้อมูลงาน ตามสภาพเดิม (as-is)
ข้อมูลอินพุตอาจไม่ได้อยู่ในรูปแบบหรือปริมาณที่เหมาะที่สุดต่อการเรียนรู้ แต่แนวทางเดิมไม่ได้ทำให้โมเดลพัฒนากลยุทธ์เองว่าจะเปลี่ยนรูปข้อมูลและเรียนรู้อย่างไร
SEAL ไม่พึ่งโมดูลปรับตัวแยกต่างหากหรือเครือข่ายเสริม แต่ใช้ผลลัพธ์ที่โมเดลสร้างขึ้นเองเพื่อ กำหนดพารามิเตอร์และควบคุม กระบวนการปรับตัว
คล้ายกับนักเรียนที่ไม่ได้ท่องจำข้อมูลต้นฉบับตรง ๆ แต่ตีความและจัดโครงสร้างใหม่เป็นโน้ตเพื่อใช้เรียน
- แต่ละคนซึมซับข้อมูลด้วยวิธีต่างกัน เช่น แผนภาพเชิงภาพ ข้อความ หรือคำอธิบายเชิงคณิตศาสตร์
- SEAL เป็นความพยายามนำกระบวนการจัดโครงสร้างใหม่และเขียนใหม่เช่นนี้เข้าสู่ขั้นตอนการเรียนรู้ของ LLM

เรียนนโยบาย self-edit ด้วยการเรียนรู้แบบเสริมกำลัง

SEAL ฝึก LLM ด้วยอัลกอริทึมการเรียนรู้แบบเสริมกำลังเพื่อให้สร้าง self-edit ที่มีประสิทธิภาพ
แต่ละ outer loop iteration ของการเรียนรู้แบบเสริมกำลังดำเนินไปตามลำดับดังนี้
- โมเดลสร้าง candidate self-edit
- นำ self-edit ไปใช้เพื่ออัปเดตค่าน้ำหนัก
- ประเมินโมเดลที่อัปเดตแล้วบนงานปลายน้ำ
- ใช้รางวัลจากผลการประเมินเพื่อปรับปรุงนโยบายการสร้าง self-edit
สัญญาณรางวัลคือ ประสิทธิภาพปลายน้ำ ของโมเดลที่อัปเดตแล้ว

ผลการทดลอง: การผสานความรู้

การทดลองผสานความรู้เป็นงานที่ใส่ความรู้ข้อเท็จจริงใหม่เข้าไปใน LLM
ไม่ได้ fine-tune จาก passage text โดยตรง แต่ fine-tune ด้วย ข้อมูลสังเคราะห์ ที่โมเดล SEAL สร้างขึ้น
หลังการฝึกด้วยการเรียนรู้แบบเสริมกำลัง ข้อมูลสังเคราะห์ที่ SEAL สร้างเองช่วยเพิ่มประสิทธิภาพการตอบคำถาม SQuAD แบบ no-passage-in-context จาก 33.5% เป็น 47.0%
ข้อมูลที่ SEAL สร้างเองทำผลงานได้ดีกว่าข้อมูลสังเคราะห์ที่ GPT-4.1 สร้างขึ้น

ผลการทดลอง: การทำให้ทั่วไปแบบ few-shot บน ARC-AGI

การประเมินครั้งที่สองทำ few-shot learning บนชุดย่อยของเบนช์มาร์ก ARC-AGI ที่ทำให้ง่ายลง
โมเดลใช้ชุดเครื่องมือเพื่อเลือกการเพิ่มข้อมูลสังเคราะห์และไฮเปอร์พารามิเตอร์การปรับให้เหมาะสมได้ด้วยตัวเอง
สิ่งที่เลือกอัตโนมัติได้มีดังนี้
- อัตราการเรียนรู้
- training epochs
- การคำนวณ loss แบบเลือกเฉพาะตาม token type
การเลือกและจัดองค์ประกอบเครื่องมือแบบอัตโนมัติผ่าน SEAL ให้ประสิทธิภาพสูงกว่า in-context learning (ICL) มาตรฐาน และ self-editing ที่ไม่มี RL ซึ่งไม่ได้เรียนรู้การใช้เครื่องมืออย่างมีประสิทธิภาพ
ทั้งสองการทดลองแสดงให้เห็นว่า SEAL อาจเป็นเฟรมเวิร์กที่ทำให้โมเดลภาษาปรับตัวกับข้อมูลใหม่ได้ อย่างขับเคลื่อนด้วยตนเอง

1 ความคิดเห็น

GN⁺ 2025-06-15

ความคิดเห็นจาก Hacker News

แนวทาง self-edit นั้นชาญฉลาดตรงที่ใช้การเรียนรู้แบบเสริมกำลังเพื่อปรับให้เหมาะที่สุด ว่าโมเดลควรจัดโครงสร้างข้อมูลใหม่ให้เข้ากับการเรียนรู้ของตัวเองอย่างไร
แก่นสำคัญคือความรู้แต่ละประเภทเหมาะกับรูปแบบการนำเสนอที่ต่างกัน คล้ายกับที่มนุษย์จดโน้ตต่างกันเวลาศึกษาคณิตศาสตร์กับประวัติศาสตร์
จากข้อมูล GPT-4.1 ผลลัพธ์การผสานความรู้อยู่ที่ 47% เทียบกับ 46.3% ซึ่งสูงกว่า baseline ของโมเดลขนาดเล็กมาก จึงดูเหมือนไม่ใช่แค่มีข้อมูลมากขึ้น แต่เป็นการหารูปแบบการเรียนรู้ที่ดีกว่าเจอ
อย่างไรก็ตาม catastrophic forgetting ยังไม่ได้รับการแก้ไข และก็ยังไม่ชัดเจนทั้งหมดว่าความหลากหลายของข้อมูลดีขึ้นจริงหรือไม่
ต้นทุนการคำนวณที่การประเมินรางวัลแต่ละครั้งใช้เวลา 30–45 วินาทีนั้นหนักเกินไปสำหรับการใช้งานส่วนใหญ่ แต่ถ้าเป็นการประมวลผลเอกสารมูลค่าสูงที่การรักษาข้อมูลอย่างเหมาะสมสำคัญจริง ๆ ก็อาจคุ้มค่า
ข้อจำกัดใหญ่ที่สุดคือถูกจำกัดไว้กับงานที่มีตัวชี้วัดการประเมินชัดเจน และการคำนวณรางวัลจำเป็นต้องมีคู่คำถาม-คำตอบที่ถูกต้องหรือ test cases
ถึงอย่างนั้น ในโดเมนที่สร้างการประเมินได้ เช่น เอกสารทางเทคนิคหรือคอนเทนต์การศึกษา ก็อาจปรับปรุงวิธีที่โมเดลจัดการข้อมูลใหม่ได้อย่างมาก และแม้จะยังไม่ถึงขั้น “เอเจนต์ที่พัฒนาตัวเองอย่างต่อเนื่อง” แต่ก็รู้สึกเหมือนเป็นก้าวสำคัญไปสู่ทิศทางที่โมเดลปรับกลยุทธ์การเรียนรู้ของตัวเองได้
ตั้งแต่ช่วงกลางทศวรรษ 2010 เพื่อนอัจฉริยะทางคณิตศาสตร์สองคนที่เริ่มทำ machine learning ตั้งแต่ยุคแรก ๆ มักพูดถึงอัลกอริทึม NEAT/HyperNEAT ซึ่งฟังดูคล้ายกับเรื่องนี้
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
ผมไม่ใช่ผู้เชี่ยวชาญด้าน machine learning แต่เท่าที่เข้าใจ NEAT วิวัฒน์โครงสร้าง topology ของเครือข่าย ส่วนบทความนี้ดูเหมือนจะวิวัฒน์ weights
สุดท้ายมันดูเหมือนเป็นสองแนวทางที่พยายามแก้ปัญหาเดียวกัน โดยแนวหนึ่งวิวัฒน์โครงสร้างเครือข่าย อีกแนวหนึ่งวิวัฒน์ weights
เพื่อนสองคนนั้นจัดอยู่ในกลุ่มคนที่ฉลาดที่สุดเท่าที่ผมเคยพบ และค่อนข้างมั่นใจว่า reinforcement learning กับ evolutionary algorithms คือทางข้างหน้าของ machine learning
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- มนุษย์นี่น่าทึ่ง เราสร้างระบบคำนวณในจินตนาการขึ้นมาเพื่อพยายามทำความเข้าใจนิวรอน แล้วก็พบว่านิวรอนจริงไม่ได้ทำงานแบบนั้น แต่สุดท้ายก็ยังสร้าง เทคโนโลยีที่เปลี่ยนพาราไดม์ ขึ้นมาบนสิ่งนั้นได้
  และเรายังคงเสริมความสามารถของเทคโนโลยีด้วยไอเดียที่ออกมาจากระบบในจินตนาการนั้นอยู่
- แหล่งเรียนรู้ NEAT สำหรับผู้เริ่มต้น ที่ผมชอบที่สุดคือ MarI/O - Machine Learning for Video Games ของ SethBling
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- ช่วงหลังผมอินกับไอเดียนี้มาก หลังจากทำ voice cloning สำหรับ Kokoro ด้วย genetic algorithm ได้สำเร็จในระดับหนึ่ง ก็เริ่มสงสัยว่าจะสามารถ วิวัฒน์สถาปัตยกรรมเอง ได้หรือไม่
  แนวคิดเรื่องปัญญาที่ประกอบตัวเองได้นั้นน่าสนใจมาก แต่ก็ยังสงสัยว่าจะทำให้เป็นจริงได้อย่างไร
  เมื่อดูพัฒนาการของ LLM ในตอนนี้ แนวทางแบบไฮบริดเช่นนี้อาจเป็นคำตอบที่ดีที่สุดก็ได้
Anthropic ก็เพิ่งออกเปเปอร์เกี่ยวกับ self finetuning เมื่อไม่กี่วันก่อน
https://arxiv.org/html/2506.10139v1
- อันนี้สุดยอดมาก
  “เมื่อประเมินด้วยโมเดลรางวัลระดับ production ของ Claude 3.5 Sonnet นโยบายช่วยแบบไม่มีผู้สอนเอาชนะนโยบายที่ฝึกด้วยโมเดลรางวัลจากการกำกับของมนุษย์ในการเทียบกันโดยตรงได้ 60%”
  เท่ากับว่าตอนนี้โมเดลสามารถทำ post-training ให้โมเดลใหม่ได้ดีกว่ามนุษย์แล้ว
- มีเธรดที่เกี่ยวข้องกำลังพูดคุยกันอยู่
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
อยากให้คนที่รู้ดีช่วยสรุปหน่อยว่างานวิจัยที่ทำให้ LLM เรียนรู้ “ระหว่างทำงาน” ไปถึงไหนแล้ว และอะไรคือจุดติดขัดที่ทำให้ยังไม่กลายเป็นของที่ deploy ใช้งานจริงได้
เช่น ถ้าจะสร้างโมเดล+coding agent ที่เรียนรู้ codebase จริง ๆ เมื่อเวลาผ่านไปด้วยวิธีอย่าง continual fine-tuning ผมสงสัยว่าปัญหาอยู่ที่ต้นทุน, model collapse หรือปัจจัยอื่น ๆ กันแน่
แล็บใหญ่ ๆ คงกำลังลองทำอยู่แน่นอน แต่จากมุมผู้ใช้ LLM เรื่องนี้ไม่ค่อยถูกพูดถึงมากนัก และตอนนี้รู้สึกว่าโฟกัสอยู่ที่การฝึกที่ดีขึ้น เช่น reinforcement learning มากกว่า
ดูเหมือนยังมีสมมติฐานแฝงอยู่ว่า สิ่งที่ไม่ได้เรียนรู้ระหว่างการฝึก ก็แค่ใส่เข้าไปใน context เมื่อจำเป็นก็พอ
จากมุมมองแบบซื่อ ๆ การที่หลังการฝึกแล้ว ไม่สามารถเรียนรู้จากประสบการณ์ได้ ดูเหมือนเป็นอุปสรรคใหญ่ที่สุดบนเส้นทางสู่ AGI
- เรายังไม่รู้เลยว่าควรทำ continual learning อย่างไร
  เรื่องต้นทุนการคำนวณ, collapse, forgetting อะไรพวกนี้ก็ถูกต้อง แต่หนทางเดียวที่ “เป็นจริง” ได้ในตอนนี้คือฝึกโมเดล รับข้อมูลใหม่ แล้วฝึกโมเดลใหม่ทั้งหมดอีกครั้งด้วยข้อมูลเดิมทั้งหมดรวมกับข้อมูลใหม่ จากนั้นก็ทำซ้ำ
  ถึงอย่างนั้นก็ไม่มีหลักประกันในแง่ “เวลา” อยู่ดี
  สาขา continual learning แทบไม่มีคำตอบที่แก้ปัญหานี้ได้ในความหมายที่แท้จริง และวิธีแก้ต่าง ๆ ก็ขัดแย้งในตัวเองหลายด้านจนยากชวนบ้า
  ต้องขยายพื้นที่การแทนค่าของโมเดล โดยที่พื้นที่การแทนค่าเดิมแทบต้องคงไว้เหมือนเดิม ซึ่งสุดท้ายก็หมายถึงต้องเปลี่ยนโดยไม่เปลี่ยน
  สิ่งที่น่าหงุดหงิดที่สุดคือแม้แต่สมองธรรมชาติขนาดเล็กมาก ๆ ก็ทำสิ่งนี้ได้อย่างง่ายดาย
  มีทฤษฎีที่อธิบายได้ยาว ๆ แต่สรุปคือ AI เองก็อาจต้องมี กระบวนการนอนหรือพัก ในรูปแบบใดรูปแบบหนึ่ง
- ผมไม่ใช่ผู้เชี่ยวชาญ แต่คิดว่า ความเป็นส่วนตัว มีบทบาทใหญ่ หรือควรจะมีบทบาทใหญ่
  ด้วยต้นทุนการคำนวณ การเรียนรู้ใด ๆ ก็ตามน่าจะต้องทำแบบรวม aggregated แทนที่จะทำแยกต่อผู้ใช้ ซึ่งจะเพิ่มความเสี่ยงอย่างมากต่อการรั่วไหลของข้อมูลระหว่างเซสชัน
  เห็นด้วยเต็มที่ว่าการหาวิธี continual learning ที่ปลอดภัยน่าจะเป็นอุปสรรคใหญ่ที่สุดของ AGI
- คำตอบจริง ๆ คือเรายังไม่เชื่อถือการประเมินอัตโนมัติได้มากพอ
  ต่อให้คะแนนการประเมินสูงขึ้น ก็ยังยากที่จะมั่นใจว่า release บางตัวที่ฝึกแบบอัตโนมัติแล้วช่วยปรับปรุงประสิทธิภาพจริง ดังนั้นตอนนี้ทุกคนจึงรวมอัปเดตเป็นชุด ๆ แล้วทำ sanity check ก่อน deploy
- ปัญหาที่ชัดเจนที่สุดคือ alignment
  เป็นที่รู้กันอยู่แล้วว่าแค่ fine-tuning LLM ก็อาจทำให้ alignment หายไปได้ ดังนั้น continual fine-tuning ในรูปแบบใดก็ตามตามทฤษฎีก็สามารถทำให้ alignment หายไปได้เช่นกัน
- อุปสรรคที่เด่นชัดที่สุดคือ catastrophic forgetting
ดูเผิน ๆ เหมือนเป็นแค่เฟรมเวิร์กที่ปรับจูนแบบละเอียดให้กับ LoRA adapter แล้วรวมกลับเข้าไปในโมเดลเดิม
ใช้ PeftModel ของไลบรารี HuggingFace กับ merge_and_unload เพื่อรวม adapter เข้ากับโมเดลพื้นฐาน แต่ไม่แน่ใจว่ามีอะไรใหม่กันแน่
- ส่วนที่ดูใหม่อาจอยู่ที่ ความเสถียร ของแนวทาง การหลีกเลี่ยงต้นทุนการจัดแนวและการล่มสลายของโมเดล
  อยากเห็น วงจรเต็มรูปแบบของ hypernetwork ที่อัปเดตโมเดลทั้งสองต่อเนื่องด้วย LoRA ที่สร้างขึ้น และอัปเดต hypernetwork ให้เข้ากับสถานะใหม่ของโมเดลด้วย
  ถ้าจะใช้ LoRA กับ hypernetwork ก็ต้องมี meta-hypernetwork และนั่นอาจทำให้เกิดการเรียนรู้อย่างต่อเนื่องได้จริง
ประเด็นสำคัญคือข้อความที่ว่า “โมเดลภาษาขนาดใหญ่นั้นทรงพลังแต่เป็นแบบคงที่ และไม่มีกลไกในการปรับน้ำหนักเพื่อตอบสนองต่องานใหม่”
กระบวนการเรียนรู้กับการอนุมานถูกแยกออกจากกันโดยสิ้นเชิง จึงทำให้คนที่คุ้นเคยกับแนวคิดดั้งเดิมเกี่ยวกับสติปัญญามนุษย์สับสนมาก
สำหรับมนุษย์ การเรียนรู้บางอย่างและนำความรู้นั้นไปใช้กับความจริงเป็นกระบวนการ feedback แบบบูรณาการเดียวกัน แต่ LLM ไม่เป็นเช่นนั้น
เราฝึกมัน นำไปใช้งาน แล้วเปลี่ยนไปใช้โมเดลใหม่ที่ “เรียนรู้” มากขึ้นเล็กน้อย
สำหรับ LLM การอนุมานคือจุดสิ้นสุดของการเรียนรู้
ความเข้าใจผิดที่ใหญ่ที่สุดเกี่ยวกับ AI อาจอยู่ตรงนี้
ถ้าคิดว่า LLM กำลังเรียนรู้อยู่ ก็จะจินตนาการได้ง่ายว่า AGI อยู่แค่เอื้อม
- อย่างที่ DeepSeek แสดงให้เห็น สามารถปรับแต่ง LLM ได้ด้วย reinforcement learning
- ถ้าดูว่าผู้ใช้ตอบสนองต่อผลลัพธ์ในทางบวกหรือทางลบ แล้วนำอินพุตที่โมเดลได้รับกับเอาต์พุตที่สร้างขึ้นไปฝึก LLM ต่อ จะเป็นอย่างไร?
เว็บไซต์ที่มีโค้ดและตัวอย่าง: https://jyopari.github.io/posts/seal
ในสาขานี้ ดูเหมือนว่า การลืมให้ถูกต้อง กำลังกลายเป็นปัญหาที่สำคัญกว่า “การเรียนรู้ให้ถูกต้อง” อย่างรวดเร็ว
มีความก้าวหน้าอย่างมากในการให้โมเดลสอนข้อเท็จจริงใหม่ ๆ ให้ตัวเอง แต่เทคโนโลยีระดับแนวหน้าในการทิ้งข้อมูลที่เกี่ยวข้องน้อยที่สุด เมื่อมีความรู้ใหม่และความจุที่จำกัด ยังตามหลังอยู่มาก
สมองมนุษย์ส่วนใหญ่ทำ “การลืมให้ถูกต้อง” ได้ดีมาก จึงสงสัยว่ามันทำงานอย่างไร
- ไม่คิดว่ามนุษย์เก่งเรื่องการลืมให้ถูกต้องจริง ๆ
  พูดตรง ๆ ก็ไม่แน่ใจด้วยว่าสมองมนุษย์ “ยอดเยี่ยมเป็นพิเศษ” ในหลายสิ่งที่เราทำ
  ความจุหน่วยความจำของสมองมนุษย์มีมากมหาศาล ผมจึงมองว่าการลืมส่วนใหญ่ไม่ใช่การเคลียร์พื้นที่สำหรับข้อมูลใหม่ แต่ใกล้เคียงกับการที่สมองรู้ได้อย่างถูกต้องว่าข้อมูลแย่ ๆ ในอดีตกำลังขัดขวางการเรียนรู้ใหม่มากกว่า
- เท่าที่ทราบ แทบไม่มีความก้าวหน้าในการระบุว่าในโครงข่ายประสาทเทียม น้ำหนักตัวไหนรับผิดชอบต่อเอาต์พุตใดในระดับใด
  ดังนั้นจึงไม่สามารถทิ้งข้อมูลที่ผู้ใช้ระบุว่าผิด ไม่แม่นยำ หรือไม่พึงประสงค์ได้
  ในทางกลับกัน จิตใจมนุษย์ทำสิ่งนี้ได้ง่าย
  มันจำได้ว่าสิ่งหนึ่งถูกจัดว่าเป็นสิ่งที่ผิด ไร้ประโยชน์ หรือไม่เกี่ยวข้อง แล้วไม่ทำอีก และเมื่อเวลาผ่านไปก็อาจลืมเส้นทางที่ถูกใช้น้อยนั้นไปเอง
  อย่างน้อยในโครงข่ายประสาทเทียมก็ไม่มีกลไกที่ชัดเจนแบบนั้น
- การเรียนรู้เกี่ยวข้องอย่างมากกับ spaced repetition
  โดยปกติมักเชื่อมโยงกับเครื่องมือเรียนรู้อย่าง Anki แต่โลกจริงเต็มไปด้วยการพบเจอสิ่งต่าง ๆ ด้วยความถี่เฉพาะ
  วัฏจักรกลางวันกลางคืน ฤดูกาล สถานที่ที่ไปเยือน ผู้คนที่พบเจอ และแทบทุกอย่างก็เป็นเช่นนั้น
  เลยสงสัยว่าอาจมีอะไรบางอย่างที่เหมือนการทำ spaced repetition แบบย้อนกลับหรือไม่
- เห็นงานวิจัยที่น่าสนใจว่า LLM ก็ “ซ่อน” ข้อมูลภายในด้วย
  ไม่ใช่แค่ลืมไปเฉย ๆ แต่ถ้าฝึกต่อไป ข้อมูลนั้นอาจปรากฏขึ้นมาอีกในภายหลัง
  ดังนั้นเวลาฝึกโมเดลจึงไม่ควรดูแค่ส่วนเล็ก ๆ แต่ต้องตรวจสอบ ความทรงจำทั้งหมด
- คล้ายกับแนวทาง least recently used หรือเปล่า?
  ตอนนี้กำลังทดสอบในหัวตัวเองเพื่อหาคำตอบอยู่ :D
  เรื่องแบบนี้แหละที่ทำให้ชอบสาขาวิทยาการคอมพิวเตอร์นี้
ข้อความที่ว่า “Villalobos et al. [75] คาดการณ์ว่า LLM ระดับแนวหน้าจะถูกฝึกด้วยข้อความที่มนุษย์สร้างขึ้นทั้งหมดที่เปิดให้ใช้สาธารณะภายในปี 2028” น่าประทับใจ
งานวิจัยมองว่าเนื่องจาก กำแพงข้อมูล ที่กำลังมาถึง จึงต้องนำการเพิ่มข้อมูลด้วยข้อมูลสังเคราะห์มาใช้ และเมื่อคลังข้อความระดับเว็บหมดลง ความก้าวหน้าจะขึ้นอยู่กับความสามารถของโมเดลในการสร้างสัญญาณการเรียนรู้ที่เป็นประโยชน์ด้วยตัวเอง
ขั้นตอนถัดไปที่เป็นธรรมชาติคือการทำ meta-learning ให้โมเดลสร้างข้อมูลสังเคราะห์ SEAL โดยเฉพาะ เพื่อสร้างคลังข้อมูล pretraining ใหม่ และทำให้โมเดลในอนาคตขยายสเกลและใช้ข้อมูลได้มีประสิทธิภาพมากขึ้นโดยไม่ต้องพึ่งข้อความจากมนุษย์เพิ่มเติม
ปี 2028 แทบไม่ต่างจากวันพรุ่งนี้ และเป็น insight ที่น่าสนใจ
- นั่นเป็นแค่ทฤษฎีเท่านั้น
  สมองมนุษย์หนึ่งก้อนซับซ้อนกว่าเว็บทั้งเว็บมากในแง่จำนวน node และการเชื่อมต่อ
  เรายังไม่เข้าใจสมองมากพอที่จะอธิบายได้ว่าความคิดเกิดขึ้นอย่างไร
  กระบวนการก่อนที่สมองจะสร้างเอาต์พุตแล้วส่งขึ้นเว็บ เราก็ยังไม่เข้าใจอย่างสมบูรณ์
  การคาดการณ์ว่าเมื่อขนาดเว็บมาถึงจุดสิ้นสุดแล้วโมเดลจะสร้างข้อมูลฝึกที่เป็นประโยชน์ได้เอง ก็เป็นเพียงการคาดเดา
  ข้อมูลฝึกแบบนั้นอาจไปไม่ถึงคุณภาพเดียวกับความคิดของมนุษย์ และอาจเป็นแค่การเคี้ยวเอื้องซ้ำ ๆ โดยไม่ทำให้การเรียนรู้หรือคุณภาพโมเดลก้าวหน้าเลยก็ได้
  การเรียกสิ่งนั้นว่า “insight” ออกจะมองโลกในแง่ดีไปหน่อย
- นั่นแทบจะเป็นสภาพปัจจุบันอยู่แล้ว
  LLM ระดับแนวหน้าถูกฝึกด้วย ข้อความที่มนุษย์สร้างขึ้น ทั้งหมดที่เปิดให้ใช้สาธารณะไปแล้ว และก็ฝึกด้วย ข้อมูลสังเคราะห์ ไปมากแล้วเช่นกัน เพื่อปรับปรุงงานที่ตรวจสอบความถูกต้องได้อย่างการเขียนโค้ด

โมเดลภาษาขนาดใหญ่แบบปรับตัวเองได้ (Self-Adapting)

วิธีอัปเดต LLM แบบคงที่ให้ปรับตัวได้ด้วยตัวเอง

ความต่างจากแนวทางการปรับตัวแบบเดิม

เรียนนโยบาย self-edit ด้วยการเรียนรู้แบบเสริมกำลัง

ผลการทดลอง: การผสานความรู้

ผลการทดลอง: การทำให้ทั่วไปแบบ few-shot บน ARC-AGI

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News