Tokenmaxxing ตายแล้ว, Tokenmaxxing จงเจริญ
(12gramsofcarbon.com)- ในช่วงแรกที่องค์กรเริ่มนำ AI มาใช้ ปริมาณการใช้โทเคน ถูกนำไปผูกกับการประเมินผลงานภายใต้แนวคิด tokenmaxxing ซึ่งสร้างต้นทุนที่ไร้ความหมาย แต่ก็มีบทบาทในการบังคับให้การใช้เครื่องมือ AI แพร่กระจายไปทั่วองค์กร
- ที่ Meta เมื่อปริมาณการใช้โทเคนรายบุคคลถูกผูกกับการประเมินผลงาน ก็ถึงขั้นเกิด การใช้งานเชิงพิธีกรรม เช่น ปล่อยให้เอเจนต์สองตัวคุยกันทั้งวันเพื่อดันตัวเลขโทเคนให้สูงขึ้น
- ในอดีต การรันเอเจนต์เป็นเวลานานมีความเสี่ยงเพราะ ข้อผิดพลาดสะสม (compounding error) ที่ความผิดพลาดเล็ก ๆ ค่อย ๆ ทับถมกัน แต่ระยะหลังเริ่มเกิดแนวโน้ม ความถูกต้องสะสม (compounding correctness) ที่โทเคนมากขึ้นนำไปสู่ผลลัพธ์ที่ดีขึ้น
- ในด้านความปลอดภัย เริ่มมีวิธีทุ่มงบโทเคนจำนวนมากให้โมเดลอย่าง Mythos เพื่อค้นหาช่องโหว่ และกำลังเกิดโครงสร้างที่ฝ่ายป้องกันต้องใช้การคำนวณมากกว่าฝ่ายโจมตี
- ต่อไป แทนที่จะจ่ายไม่จำกัดให้โมเดลระดับสูงราคาแพง ศูนย์กลางเชิงปฏิบัติของ tokenmaxxing อาจกลายเป็นการนำ โมเดลเปิด ราคาถูกมารันวนลูปให้มากขึ้น
tokenmaxxing ที่เริ่มจากการเผาโทเคนอย่างไร้ความหมาย
- tokenmaxxing หมายถึงปรากฏการณ์ที่ผู้บริหารกระตุ้นให้พนักงานใช้โทเคนจำนวนมาก จนโทเคนถูกใช้ไปกับงานที่มีคุณค่าจริงต่ำ
- ตัวอย่างเด่นคือ Meta ที่ถูกวิจารณ์ว่าเชื่อมโยงการประเมินผลงานกับปริมาณการใช้โทเคนรายบุคคล
- พนักงาน Meta คนหนึ่งเล่าว่า เพื่อเพิ่มตัวเลขโทเคน เขาปล่อยให้เอเจนต์สองตัวคุยกันเองทั้งวัน
- มองจากภายนอกดูเหมือนผู้บริหารกำลังเผาต้นทุนโดยไม่มีรายได้ แต่ก็อาจมองได้ว่าเป็นนโยบายเพื่อบังคับให้การใช้เครื่องมือ AI แพร่หลาย
- เพียงไม่กี่เดือนก่อน ภายในองค์กรยังมีบุคลากรอาวุโสจำนวนมากที่ต่อต้านการใช้เครื่องมือ AI อย่างหนัก และแม้จะโน้มน้าวสำเร็จ ก็ยังมีกรณีที่นำเครื่องมือไปใช้ในวิธีที่แปลกหรือมีแนวโน้มให้ผลลัพธ์แย่
- ในสถานการณ์แบบนี้ แรงกดดันจากเบื้องบนให้ใช้โทเคนจึงทำหน้าที่เป็น เครื่องมือบังคับแบบทื่อ ๆ เพื่อทะลวงกำแพง
นโยบายใช้งานไม่จำกัดระยะแรกที่จบลงด้วยแรงกดดันด้านต้นทุน
- นโยบาย tokenmaxxing ได้ผลในระดับหนึ่ง และตอนนี้แทบทุกทีมก็เขียนโค้ดด้วย AI อย่างน้อยบ้างแล้ว
- หลายทีมยังไม่ได้สร้างระบบภายในของตนเองอย่าง Ramp Inspect หรือ Stripe Minions แต่ก็ไปถึงระดับที่ใช้ Cursor ในแถบด้านข้างเป็นพื้นฐานแล้ว
- ขณะที่ปริมาณการใช้โทเคนเพิ่มขึ้นอย่างมาก OpenAI และ Anthropic ซึ่งอยู่ในสถานการณ์ผลักดันการเข้าตลาดหุ้น ก็จำกัดปริมาณที่ให้ในแพ็กเกจสมัครสมาชิกและปรับขึ้นราคา API
- เงินอุดหนุนโทเคนก็ลดลง ทำให้บางทีมเริ่มย้อนกลับนโยบายใช้โทเคนไม่จำกัด
- tokenmaxxing แบบไม่จำกัด ในความหมายเดิมเข้าใกล้จุดที่ยากจะผ่านการตรวจสอบต้นทุนแล้ว
จากข้อผิดพลาดสะสมสู่ความถูกต้องสะสม
- ความคาดหวังต่อเครื่องมือ AI คือให้จัดการงานยากและน่าเบื่อได้โดยไม่ต้องมีมนุษย์คอยกำกับตลอดเวลา
- การย้ายโค้ดครั้งใหญ่
- การสำรวจคู่แข่งทุกเช้า
- การจัดการโฟลว์ขาเข้าและขาออก
- ในอดีต ยิ่งรัน AI นานเท่าไร ความผิดพลาดเล็ก ๆ และ hallucination ของโมเดลก็ยิ่งสะสมในโปรเจกต์จนยากจะแก้กลับ
- ปรากฏการณ์นี้ถูกเรียกว่า ข้อผิดพลาดสะสม (compounding error) และเพราะต้องใช้การกำกับของมนุษย์มาก จึงมีเหตุผลน้อยที่จะรันเอเจนต์ตลอด 24 ชั่วโมง
- ตอนนี้สภาพแวดล้อมกำลังเปลี่ยนไปสู่ ความถูกต้องสะสม (compounding correctness) ซึ่งการใช้โทเคนมากขึ้นทำให้โอกาสได้คำตอบถูกสูงขึ้น
- หากค่าใช้จ่ายโทเคนเชื่อมโยงกับคุณภาพผลลัพธ์ ก็จะเกิดแรงจูงใจให้ใช้โทเคนจำนวนมากอีกครั้ง
การแข่งขันด้านงบโทเคนที่เห็นก่อนในวงการความปลอดภัย
- ในไซเบอร์ซีเคียวริตี้ เริ่มมีกรณีที่ค่าใช้จ่ายโทเคนเชื่อมโยงกับผลงานโดยตรงแล้ว
- Cybersecurity is Proof of Work Now ยกตัวอย่าง Mythos ของ Anthropic และมองว่า หากต้องการทำให้ระบบแข็งแกร่งขึ้น ต้องใช้โทเคนในการค้นหาช่องโหว่มากกว่าที่ผู้โจมตีใช้เพื่อโจมตี
- AISI ตั้งงบไว้ 100M โทเคนต่อการลอง Mythos หนึ่งครั้ง ซึ่งเท่ากับ $12,500 ต่อครั้ง และ $125,000 สำหรับการรัน 10 ครั้ง
- โมเดลที่ได้รับงบ 100M โทเคนไม่แสดงสัญญาณผลตอบแทนลดลง และ AISI ระบุว่า ภายในช่วงงบโทเคนที่ทดสอบ โมเดลยังคงก้าวหน้าต่อไปเมื่อมีงบเพิ่มขึ้น
- ในโครงสร้างนี้ ปริมาณงานคำนวณ และงบโทเคนที่จ่ายได้สำคัญกว่าความฉลาด
ลูปและการรันเอเจนต์ระยะยาว
- ความสนใจต่อ loops ที่ Boris Cherny พูดบนเวที Claude Code ก็เชื่อมโยงกับกระแสเดียวกัน
- โครงสร้างพื้นฐานของ loops คือให้เอเจนต์รันจนจบเทิร์นของตนเอง แล้วเมื่อจบก็เริ่มพรอมป์เดิมอีกครั้ง
- สามารถแบ่งสเปกหนัก ๆ โดยอัตโนมัติ และทำให้เอเจนต์ค่อย ๆ แก้ทีละส่วนเมื่อเวลาผ่านไป
- แนวคิดนี้ไม่ใช่ของใหม่ มีมาตั้งแต่เดือนกรกฎาคมปีที่แล้ว และครั้งหนึ่งถูกเรียกว่า “Ralph Wiggum loop”
- เมื่อก่อนต้องเข้าใจการออกแบบพรอมป์และพฤติกรรมเอเจนต์อย่างลึกซึ้ง แต่ด้วยความถูกต้องสะสม จึงคาดหวังผลลัพธ์โดยประมาณที่ดีขึ้นเมื่อทำซ้ำได้ง่ายขึ้น
โมเดลเปิดที่ทำให้การรันซ้ำคุ้มค่าต้นทุน
- ในระยะยาว ผู้ชนะของ tokenmaxxing อาจเป็น แพลตฟอร์มโมเดลเปิด
- วิธีใช้โทเคนจำนวนมากกับโมเดลจากแล็บวิจัยระดับสูงสุดยากจะผ่านการตรวจสอบของ CFO
- ยิ่งโมเดลเปิดดีขึ้น การรันโมเดลราคาถูกในลูปให้มากขึ้นก็ยิ่งน่าสนใจ
- ตัวอย่างเช่น หาก Claude ให้การปรับปรุง 1.1 เท่าต่อรอบ ส่วน GLM 5.2 ให้การปรับปรุง 1.05 เท่าแต่มีต้นทุนราวหนึ่งในห้า การรันลูป GLM 5.2 มากขึ้น 5 เท่าอาจดีกว่า
- ในส่วน “Other things” ก็ประเมินว่า GLM 5.2 ยังไม่ใช่ระดับล้ำหน้าสุด แต่ราคาถูกกว่าโมเดล frontier มาก
- GLM 5.2: ประมาณ $1.4 ต่ออินพุต 1 ล้านโทเคน, ประมาณ $4 ต่อเอาต์พุต 1 ล้านโทเคน
- ซีรีส์ Opus 4.X: $5 ต่ออินพุต 1 ล้านโทเคน, $25 ต่อเอาต์พุต 1 ล้านโทเคน
- Haiku 4.5: $1 ต่ออินพุต 1 ล้านโทเคน, $5 ต่อเอาต์พุต 1 ล้านโทเคน
- กล่าวกันว่า GLM 5.2 แข็งแกร่งกว่า Haiku และในบาง benchmark ก็อาจแข็งแกร่งกว่า GPT 5.5
ความแตกต่างระหว่างค่าใช้จ่ายสำหรับนักพัฒนาและค่าใช้จ่ายสำหรับไปป์ไลน์
- tokenmaxxing มีสองรูปแบบที่ต่างกัน
- รูปแบบแรกคือ ค่าใช้จ่ายโทเคนสำหรับนักพัฒนา
- นักพัฒนาใช้เครื่องมืออย่าง Claude Code และรัน loops ทำให้ใช้โทเคนจำนวนมาก
- หากช่วยเพิ่มผลิตภาพของวิศวกร ก็อาจเป็นค่าใช้จ่ายที่ดี
- รูปแบบที่สองคือ ค่าใช้จ่ายโทเคนสำหรับไปป์ไลน์
- นักพัฒนายังคงเขียนโค้ดด้วยมือ และใช้โค้ดนั้นสร้างเอเจนต์เฉพาะกิจแบบใช้ครั้งเดียวสำหรับงานบางอย่าง
- เอเจนต์เหล่านี้ทำงานแบบไม่กำหนดตายตัวและเปราะบาง พร้อมกับใช้โทเคนจำนวนมาก
- เป็นค่าใช้จ่ายที่ดีก็ต่อเมื่อไปป์ไลน์ทำงานได้จริง แต่เอเจนต์ลักษณะนั้นไม่เคยแม่นยำเท่าไปป์ไลน์แบบ deterministic
- หากเพิ่มเอเจนต์ตรวจสอบคุณภาพเพื่อลดต้นทุนจาก hallucination แล้วเพิ่มเอเจนต์อีกตัวเพื่อจับข้อผิดพลาดของเอเจนต์ตรวจสอบ ต้นทุนโทเคนจะเพิ่มเป็น 3 เท่า
- เครื่องมือแบบไปป์ไลน์ใช้ครั้งเดียวกำลังถูกจัดการผ่านแพลตฟอร์มทั่วไปที่หุ้มเปลือกให้เหมาะกับงานเฉพาะ มากกว่าจะเป็นเอเจนต์เฉพาะงาน
โรงงานซอฟต์แวร์และค่าใช้จ่ายโทเคนแบบสุดขั้ว
- จุดจบที่เป็นธรรมชาติคือ โรงงานซอฟต์แวร์ และยิ่งไปกว่านั้นคือ โรงงานมืด
- ในโครงสร้างนี้ codebase สร้างโค้ด รีวิว แก้บั๊ก และเขียนเทสต์โดยไม่มีมนุษย์กำกับ
- มนุษย์มีหน้าที่เพียงใส่สเปกและรับแอปพลิเคชัน
- โรงงานซอฟต์แวร์ของ StrongDM ถูกกล่าวถึงว่าเป็นกรณีที่ผลักแนวทางนี้ไปจนสุดทาง
- ฝั่ง StrongDM โต้แย้งว่าวิศวกรควรตั้งเป้าใช้ โทเคนวันละ $1000 แต่ถูกประเมินว่ามีลักษณะเกินจริงและเน้นประชาสัมพันธ์อย่างมาก
- โรงงานซอฟต์แวร์ของตนเองมีค่าใช้จ่ายราว $600 ต่อเดือน และมองว่าการใช้เงินกับโทเคนต่อวิศวกรหนึ่งคนในระดับต้นทุนของวิศวกรอาวุโส Google ตอนนี้ถือว่าเกินไป
- อย่างไรก็ตาม แรงจูงใจที่จะใช้เงินจำนวนมากกับโทเคนยังมีอยู่ในเชิงศักยภาพ และยังอยู่ในสภาพรอการแพร่กระจาย
ยังไม่มีความคิดเห็น