gpt 3 : การทำนายคำถัดไป -> ถูกต้อง
gpt 3 เป็นต้นมา โมเดลที่อิง Transformer : การทำนายคำถัดไป -> ถูกต้อง
AlphaGo, AlphaZero, MuZero, ... : การทำนายตาถัดไป -> ถูกต้อง
โมเดลที่ทำให้บรรลุเป้าหมาย(เฉพาะ) -> ถูกต้อง

ไม่มีคำพูดไหนที่ผิดในสิ่งที่พูดมา

 

ความเชี่ยวชาญทั้งหมดคงไม่ได้ถูกแทนที่ได้ทั้งหมดไม่ใช่หรือครับ? ตั้งแต่กระบวนการสร้างคำขึ้นมาเองก็ดูแปลกแล้ว

 

สับสนจังครับ นี่คุณกำลังล้อเล่นอยู่หรือเปล่า หรือว่ามีเทคนิคหรือเทคโนโลยีใหม่อะไรบางอย่างที่ผมไม่รู้ออกมาแล้ว??

 

AlphaGo ก็เป็นการทำนายตาถัดไปที่คำนวณแล้วว่ามีโอกาสชนะสูงที่สุดไม่ใช่เหรอ?????

 

สรุปได้ไหมว่า “การคาดการณ์โทเค็นถัดไป” แม้จะถูกต้องในฐานะคำอธิบายระดับการนำไปใช้จริง แต่ก็ยังไม่สมบูรณ์ในฐานะวิธีอธิบายความสามารถหรือเป้าหมายของโมเดล?

 

งั้นน่าจะไปเจอกันตรงกลางที่เป็นโมเดลซึ่งคาดเดาได้ดีกว่านี้นะ 😄

 

อืม.. ผมเริ่มคิดว่าอาจเป็นไปได้ว่าข้อความถูกสื่อสารออกไปต่างจากเจตนาของผมครับ หากคุณรู้สึกว่าบทความนี้เหมือนเป็นการลดทอนคุณค่าทางเทคนิคของ LLM ผมขออภัยด้วย

อย่างไรก็ตาม เจตนาของบทความนี้คืออยากให้มองอย่างเยือกเย็น โดยตัดการโหมเกินจริงและการทำให้ดูลึกลับออกไป ดังนั้นในมุมมองส่วนตัว หากใช้คำว่า 'โมเดลที่บรรลุเป้าหมาย' ก็จะรู้สึกว่าเป็นการทำให้ดูลึกลับไปแล้ว เพราะท้ายที่สุดแล้ว ไม่ว่าจะเป็นซอฟต์แวร์ทั่วไปหรือโมเดล ก็ต่างมีไว้เพื่อบรรลุ 'เป้าหมาย' บางอย่างอยู่ดี

ดังนั้นผมจึงอยากถามอีกครั้ง โดยเพิ่มเติมจากความสงสัยส่วนตัว ว่าสำนวนที่คุณกล่าวมานั้นมีความถูกต้องทางเทคนิคมากกว่าจริงหรือไม่ครับ

 

มันดูเหมือนโฆษณา Analytics ตั้งแต่ต้นจนจบ ฟังดูน่าเชื่ออยู่หรอก แต่สุดท้ายก็เป็นโฆษณาอยู่ดี รู้สึกด้วยว่าเจ้าของ hada.io เหมือนจะปล่อยปละละเลยเกินไปหน่อย

 

สุดท้ายมันก็เป็นการแลกกับคุณภาพอยู่ดี ก็เลยอดกังวลไม่ได้ว่าโครงสร้างมันจะกลายเป็นต้องใช้โทเค็นเพิ่มขึ้นเพื่อกู้คืนคุณภาพที่หายไปหรือเปล่า

 

เนื่องจาก bm25 ค่อนข้างอ่อนในการค้นหาภาษาเกาหลี ผมจึงได้ใส่การ์ดเรลแยกต่างหากที่สามารถค้นหาภาษาเกาหลีได้ดีไว้ด้วย

 

ในภาพรวมใหญ่ มันคือการค้นหาบทสนทนาในอดีต ดังนั้นถ้าจัดระเบียบประเด็นเรื่องการสรุปให้ดี ก็ดูเป็นไอเดียที่ดีครับ ในทางปฏิบัติ ผมเองก็มองว่ามันช่วยได้มากในการจัดระเบียบโปรเจกต์ด้วย

 

ผมก็ลองทำดูแล้วเหมือนกัน ตอนที่ใช้อุปกรณ์หลายเครื่องอยู่ ผมเพิ่มส่วนเล็กน้อยเพื่อให้เชื่อม Obsidian vault กับการสำรองข้อมูลบน GitHub ได้ และยังทำ parser สำหรับ Codex กับ Gemini ใส่ไว้ด้วยครับ https://github.com/hang-in/seCall

 

ถ้าจะลดทอนความหมายของ LLM ยุคปัจจุบันว่าเป็นแค่ "การทำนายคำถัดไป" AlphaGo เองก็เป็นได้แค่ "การทำนายตาถัดไป" เหมือนกัน

ตั้งแต่ ChatGPT เป็นต้นมา การทำนายคำถัดไปก็เป็นเพียงแค่การ pre-trained อย่างง่ายเท่านั้น

มันเป็นโมเดลที่บรรลุเป้าหมายครับ

 

เคยได้ยินมาว่าเหล่านักพัฒนาเคอร์เนลพูดกับนักพัฒนา PostgreSQL มาตลอดเกือบ 10-20 ปีว่า "ไม่แนะนำให้ใช้ spinlock ใน userland จึงอยากให้ช่วยทบทวนใหม่" ครับ..

https://x.com/kosaki55tea/status/2040458791536497035

 

ถ้าคุณใช้งาน Claude Code agent team อยู่แล้ว ก็ไม่ได้มีอะไรพิเศษนัก
แต่การวางโครงสร้างพื้นฐานโดยใช้ agents หรือ skills เพื่อให้ข้อมูลอย่างโครงสร้างทีมสามารถสานต่อไปยังเซสชันใหม่ได้ด้วยนั้นสะดวกมาก
ถ้าจัดทีมด้วยตนเอง สิ่งที่คล้ายกับ boilerplate สำหรับทีมจะต้องทำซ้ำอยู่เรื่อย ๆ

มีปัญหาอยู่อย่างหนึ่งคือ เนื่องจากเป็นสภาพแวดล้อมที่พิจารณาทั้ง subagent และ agent team ทำให้ใน Supervisor pattern มักเกิดสถานการณ์ประหลาดที่ผู้ควบคุมไปมอบหมายงานให้ subagent ทั้งที่มีการสร้างทีมไว้แล้วอยู่บ่อยครั้ง

 

https://github.com/google-ai-edge/gallery/issues/437

ดูเหมือนว่าความเข้ากันได้กับ Exynos จะไม่ค่อยดีนัก บน Galaxy Quantum 5 (A55) มีปัญหาที่ตอบซ้ำอักษรจีนไม่รู้จบอยู่ครับ

 

ผมเข้าใจว่าโมเดลภาษาขนาดใหญ่ที่ออกสู่ตลาดหลัง GPT แทบทั้งหมด ยกเว้นบางตัวที่ใช้ diffusion model ทำงานในรูปแบบการทำนายโทเคนถัดไป หากมีโมเดลที่ทำงานด้วยวิธีอื่น รบกวนช่วยบอกให้ทราบด้วย จะขอบคุณมากครับ

 

ไม่เคยรู้มาก่อนเลยว่ามีอินเทอร์เน็ต 25Gbps แบบสมมาตรอยู่ด้วย ผมคิดว่าแม้แต่ระดับ 10Gbps ก็เหลือเฟือเกินพอสำหรับใช้งานในบ้านแล้ว...

 

เคยลองใช้มาก่อน แต่สุดท้ายก็เอาออก เพราะ Claude มักจะใช้โทเคนมากขึ้นไปอีกเพื่อแก้ปัญหาที่เกิดจาก rtk
(ตัวอย่างเช่น เวลาเรียกขอ JSON ด้วย curl มันกลับสร้าง JSON ที่ไม่ถูกต้อง ทำให้ jq โยน error แล้ว Claude ก็ไปดีบักสิ่งนี้จนเผาโทเคนไปเรื่อย ๆ สุดท้ายก็กลับมารับคำขอ curl แบบ raw ใหม่แล้วค่อยพาร์สด้วย jq)
ถึงอย่างนั้นก็ยังคิดว่าแนวคิดตั้งต้นเป็นความพยายามที่ดี ถ้าทำให้เสถียรได้ก็น่าจะเป็นอะไรที่น่าลองใช้อยู่ครับ

 

ผมก็รู้สึกเสียดายในส่วนนั้นเหมือนกันครับ!

ช่วงนี้มีอัปเดตล่าสุดที่บันทึก full output แยกไว้เป็นไฟล์ต่างหาก ทำให้ LLM สามารถอ่านได้เมื่อจำเป็น~