• ในช่วงแรกที่องค์กรเริ่มนำ AI มาใช้ ปริมาณการใช้โทเคน ถูกนำไปผูกกับการประเมินผลงานภายใต้แนวคิด tokenmaxxing ซึ่งสร้างต้นทุนที่ไร้ความหมาย แต่ก็มีบทบาทในการบังคับให้การใช้เครื่องมือ AI แพร่กระจายไปทั่วองค์กร
  • ที่ Meta เมื่อปริมาณการใช้โทเคนรายบุคคลถูกผูกกับการประเมินผลงาน ก็ถึงขั้นเกิด การใช้งานเชิงพิธีกรรม เช่น ปล่อยให้เอเจนต์สองตัวคุยกันทั้งวันเพื่อดันตัวเลขโทเคนให้สูงขึ้น
  • ในอดีต การรันเอเจนต์เป็นเวลานานมีความเสี่ยงเพราะ ข้อผิดพลาดสะสม (compounding error) ที่ความผิดพลาดเล็ก ๆ ค่อย ๆ ทับถมกัน แต่ระยะหลังเริ่มเกิดแนวโน้ม ความถูกต้องสะสม (compounding correctness) ที่โทเคนมากขึ้นนำไปสู่ผลลัพธ์ที่ดีขึ้น
  • ในด้านความปลอดภัย เริ่มมีวิธีทุ่มงบโทเคนจำนวนมากให้โมเดลอย่าง Mythos เพื่อค้นหาช่องโหว่ และกำลังเกิดโครงสร้างที่ฝ่ายป้องกันต้องใช้การคำนวณมากกว่าฝ่ายโจมตี
  • ต่อไป แทนที่จะจ่ายไม่จำกัดให้โมเดลระดับสูงราคาแพง ศูนย์กลางเชิงปฏิบัติของ tokenmaxxing อาจกลายเป็นการนำ โมเดลเปิด ราคาถูกมารันวนลูปให้มากขึ้น

tokenmaxxing ที่เริ่มจากการเผาโทเคนอย่างไร้ความหมาย

  • tokenmaxxing หมายถึงปรากฏการณ์ที่ผู้บริหารกระตุ้นให้พนักงานใช้โทเคนจำนวนมาก จนโทเคนถูกใช้ไปกับงานที่มีคุณค่าจริงต่ำ
  • ตัวอย่างเด่นคือ Meta ที่ถูกวิจารณ์ว่าเชื่อมโยงการประเมินผลงานกับปริมาณการใช้โทเคนรายบุคคล
    • พนักงาน Meta คนหนึ่งเล่าว่า เพื่อเพิ่มตัวเลขโทเคน เขาปล่อยให้เอเจนต์สองตัวคุยกันเองทั้งวัน
  • มองจากภายนอกดูเหมือนผู้บริหารกำลังเผาต้นทุนโดยไม่มีรายได้ แต่ก็อาจมองได้ว่าเป็นนโยบายเพื่อบังคับให้การใช้เครื่องมือ AI แพร่หลาย
  • เพียงไม่กี่เดือนก่อน ภายในองค์กรยังมีบุคลากรอาวุโสจำนวนมากที่ต่อต้านการใช้เครื่องมือ AI อย่างหนัก และแม้จะโน้มน้าวสำเร็จ ก็ยังมีกรณีที่นำเครื่องมือไปใช้ในวิธีที่แปลกหรือมีแนวโน้มให้ผลลัพธ์แย่
  • ในสถานการณ์แบบนี้ แรงกดดันจากเบื้องบนให้ใช้โทเคนจึงทำหน้าที่เป็น เครื่องมือบังคับแบบทื่อ ๆ เพื่อทะลวงกำแพง

นโยบายใช้งานไม่จำกัดระยะแรกที่จบลงด้วยแรงกดดันด้านต้นทุน

  • นโยบาย tokenmaxxing ได้ผลในระดับหนึ่ง และตอนนี้แทบทุกทีมก็เขียนโค้ดด้วย AI อย่างน้อยบ้างแล้ว
  • หลายทีมยังไม่ได้สร้างระบบภายในของตนเองอย่าง Ramp Inspect หรือ Stripe Minions แต่ก็ไปถึงระดับที่ใช้ Cursor ในแถบด้านข้างเป็นพื้นฐานแล้ว
  • ขณะที่ปริมาณการใช้โทเคนเพิ่มขึ้นอย่างมาก OpenAI และ Anthropic ซึ่งอยู่ในสถานการณ์ผลักดันการเข้าตลาดหุ้น ก็จำกัดปริมาณที่ให้ในแพ็กเกจสมัครสมาชิกและปรับขึ้นราคา API
  • เงินอุดหนุนโทเคนก็ลดลง ทำให้บางทีมเริ่มย้อนกลับนโยบายใช้โทเคนไม่จำกัด
  • tokenmaxxing แบบไม่จำกัด ในความหมายเดิมเข้าใกล้จุดที่ยากจะผ่านการตรวจสอบต้นทุนแล้ว

จากข้อผิดพลาดสะสมสู่ความถูกต้องสะสม

  • ความคาดหวังต่อเครื่องมือ AI คือให้จัดการงานยากและน่าเบื่อได้โดยไม่ต้องมีมนุษย์คอยกำกับตลอดเวลา
    • การย้ายโค้ดครั้งใหญ่
    • การสำรวจคู่แข่งทุกเช้า
    • การจัดการโฟลว์ขาเข้าและขาออก
  • ในอดีต ยิ่งรัน AI นานเท่าไร ความผิดพลาดเล็ก ๆ และ hallucination ของโมเดลก็ยิ่งสะสมในโปรเจกต์จนยากจะแก้กลับ
  • ปรากฏการณ์นี้ถูกเรียกว่า ข้อผิดพลาดสะสม (compounding error) และเพราะต้องใช้การกำกับของมนุษย์มาก จึงมีเหตุผลน้อยที่จะรันเอเจนต์ตลอด 24 ชั่วโมง
  • ตอนนี้สภาพแวดล้อมกำลังเปลี่ยนไปสู่ ความถูกต้องสะสม (compounding correctness) ซึ่งการใช้โทเคนมากขึ้นทำให้โอกาสได้คำตอบถูกสูงขึ้น
  • หากค่าใช้จ่ายโทเคนเชื่อมโยงกับคุณภาพผลลัพธ์ ก็จะเกิดแรงจูงใจให้ใช้โทเคนจำนวนมากอีกครั้ง

การแข่งขันด้านงบโทเคนที่เห็นก่อนในวงการความปลอดภัย

  • ในไซเบอร์ซีเคียวริตี้ เริ่มมีกรณีที่ค่าใช้จ่ายโทเคนเชื่อมโยงกับผลงานโดยตรงแล้ว
  • Cybersecurity is Proof of Work Now ยกตัวอย่าง Mythos ของ Anthropic และมองว่า หากต้องการทำให้ระบบแข็งแกร่งขึ้น ต้องใช้โทเคนในการค้นหาช่องโหว่มากกว่าที่ผู้โจมตีใช้เพื่อโจมตี
  • AISI ตั้งงบไว้ 100M โทเคนต่อการลอง Mythos หนึ่งครั้ง ซึ่งเท่ากับ $12,500 ต่อครั้ง และ $125,000 สำหรับการรัน 10 ครั้ง
  • โมเดลที่ได้รับงบ 100M โทเคนไม่แสดงสัญญาณผลตอบแทนลดลง และ AISI ระบุว่า ภายในช่วงงบโทเคนที่ทดสอบ โมเดลยังคงก้าวหน้าต่อไปเมื่อมีงบเพิ่มขึ้น
  • ในโครงสร้างนี้ ปริมาณงานคำนวณ และงบโทเคนที่จ่ายได้สำคัญกว่าความฉลาด

ลูปและการรันเอเจนต์ระยะยาว

  • ความสนใจต่อ loops ที่ Boris Cherny พูดบนเวที Claude Code ก็เชื่อมโยงกับกระแสเดียวกัน
  • โครงสร้างพื้นฐานของ loops คือให้เอเจนต์รันจนจบเทิร์นของตนเอง แล้วเมื่อจบก็เริ่มพรอมป์เดิมอีกครั้ง
  • สามารถแบ่งสเปกหนัก ๆ โดยอัตโนมัติ และทำให้เอเจนต์ค่อย ๆ แก้ทีละส่วนเมื่อเวลาผ่านไป
  • แนวคิดนี้ไม่ใช่ของใหม่ มีมาตั้งแต่เดือนกรกฎาคมปีที่แล้ว และครั้งหนึ่งถูกเรียกว่า “Ralph Wiggum loop”
  • เมื่อก่อนต้องเข้าใจการออกแบบพรอมป์และพฤติกรรมเอเจนต์อย่างลึกซึ้ง แต่ด้วยความถูกต้องสะสม จึงคาดหวังผลลัพธ์โดยประมาณที่ดีขึ้นเมื่อทำซ้ำได้ง่ายขึ้น

โมเดลเปิดที่ทำให้การรันซ้ำคุ้มค่าต้นทุน

  • ในระยะยาว ผู้ชนะของ tokenmaxxing อาจเป็น แพลตฟอร์มโมเดลเปิด
  • วิธีใช้โทเคนจำนวนมากกับโมเดลจากแล็บวิจัยระดับสูงสุดยากจะผ่านการตรวจสอบของ CFO
  • ยิ่งโมเดลเปิดดีขึ้น การรันโมเดลราคาถูกในลูปให้มากขึ้นก็ยิ่งน่าสนใจ
  • ตัวอย่างเช่น หาก Claude ให้การปรับปรุง 1.1 เท่าต่อรอบ ส่วน GLM 5.2 ให้การปรับปรุง 1.05 เท่าแต่มีต้นทุนราวหนึ่งในห้า การรันลูป GLM 5.2 มากขึ้น 5 เท่าอาจดีกว่า
  • ในส่วน “Other things” ก็ประเมินว่า GLM 5.2 ยังไม่ใช่ระดับล้ำหน้าสุด แต่ราคาถูกกว่าโมเดล frontier มาก
    • GLM 5.2: ประมาณ $1.4 ต่ออินพุต 1 ล้านโทเคน, ประมาณ $4 ต่อเอาต์พุต 1 ล้านโทเคน
    • ซีรีส์ Opus 4.X: $5 ต่ออินพุต 1 ล้านโทเคน, $25 ต่อเอาต์พุต 1 ล้านโทเคน
    • Haiku 4.5: $1 ต่ออินพุต 1 ล้านโทเคน, $5 ต่อเอาต์พุต 1 ล้านโทเคน
    • กล่าวกันว่า GLM 5.2 แข็งแกร่งกว่า Haiku และในบาง benchmark ก็อาจแข็งแกร่งกว่า GPT 5.5

ความแตกต่างระหว่างค่าใช้จ่ายสำหรับนักพัฒนาและค่าใช้จ่ายสำหรับไปป์ไลน์

  • tokenmaxxing มีสองรูปแบบที่ต่างกัน
  • รูปแบบแรกคือ ค่าใช้จ่ายโทเคนสำหรับนักพัฒนา
    • นักพัฒนาใช้เครื่องมืออย่าง Claude Code และรัน loops ทำให้ใช้โทเคนจำนวนมาก
    • หากช่วยเพิ่มผลิตภาพของวิศวกร ก็อาจเป็นค่าใช้จ่ายที่ดี
  • รูปแบบที่สองคือ ค่าใช้จ่ายโทเคนสำหรับไปป์ไลน์
    • นักพัฒนายังคงเขียนโค้ดด้วยมือ และใช้โค้ดนั้นสร้างเอเจนต์เฉพาะกิจแบบใช้ครั้งเดียวสำหรับงานบางอย่าง
    • เอเจนต์เหล่านี้ทำงานแบบไม่กำหนดตายตัวและเปราะบาง พร้อมกับใช้โทเคนจำนวนมาก
    • เป็นค่าใช้จ่ายที่ดีก็ต่อเมื่อไปป์ไลน์ทำงานได้จริง แต่เอเจนต์ลักษณะนั้นไม่เคยแม่นยำเท่าไปป์ไลน์แบบ deterministic
  • หากเพิ่มเอเจนต์ตรวจสอบคุณภาพเพื่อลดต้นทุนจาก hallucination แล้วเพิ่มเอเจนต์อีกตัวเพื่อจับข้อผิดพลาดของเอเจนต์ตรวจสอบ ต้นทุนโทเคนจะเพิ่มเป็น 3 เท่า
  • เครื่องมือแบบไปป์ไลน์ใช้ครั้งเดียวกำลังถูกจัดการผ่านแพลตฟอร์มทั่วไปที่หุ้มเปลือกให้เหมาะกับงานเฉพาะ มากกว่าจะเป็นเอเจนต์เฉพาะงาน

โรงงานซอฟต์แวร์และค่าใช้จ่ายโทเคนแบบสุดขั้ว

  • จุดจบที่เป็นธรรมชาติคือ โรงงานซอฟต์แวร์ และยิ่งไปกว่านั้นคือ โรงงานมืด
  • ในโครงสร้างนี้ codebase สร้างโค้ด รีวิว แก้บั๊ก และเขียนเทสต์โดยไม่มีมนุษย์กำกับ
  • มนุษย์มีหน้าที่เพียงใส่สเปกและรับแอปพลิเคชัน
  • โรงงานซอฟต์แวร์ของ StrongDM ถูกกล่าวถึงว่าเป็นกรณีที่ผลักแนวทางนี้ไปจนสุดทาง
  • ฝั่ง StrongDM โต้แย้งว่าวิศวกรควรตั้งเป้าใช้ โทเคนวันละ $1000 แต่ถูกประเมินว่ามีลักษณะเกินจริงและเน้นประชาสัมพันธ์อย่างมาก
  • โรงงานซอฟต์แวร์ของตนเองมีค่าใช้จ่ายราว $600 ต่อเดือน และมองว่าการใช้เงินกับโทเคนต่อวิศวกรหนึ่งคนในระดับต้นทุนของวิศวกรอาวุโส Google ตอนนี้ถือว่าเกินไป
  • อย่างไรก็ตาม แรงจูงใจที่จะใช้เงินจำนวนมากกับโทเคนยังมีอยู่ในเชิงศักยภาพ และยังอยู่ในสภาพรอการแพร่กระจาย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น