สิ่งที่ฝึกสอนไม่ได้

(saranormous.substack.com)

5 คะแนน โดย GN⁺ 4 시간 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ช่วงกลางปี 2026 ในหมู่นักลงทุนกำลังเกิดกระแสสิ้นหวังแบบ “AI psychosis” โดยมีตรรกะแกนกลางว่า หากโมเดลทำได้ดีกว่าทุกอย่าง บริษัททั้งหมดที่สร้างอยู่บนมันก็เป็นเพียง thin wrapper ที่รอถูกดูดกลืน
Devin ซึ่งเป็น AI SWE ตัวแรก แก้โจทย์ benchmark มาตรฐานได้เพียง 13% ในปี 2024 แต่เพียง 1 ปีครึ่งต่อมา เอเจนต์ที่เก่งที่สุดก็ขึ้นไปถึงช่วงปลาย 80% แล้ว ทำให้โมเดลกำลังรุกกินจาก พื้นที่ที่วัดผลได้ อย่างรวดเร็ว
สิ่งที่วัดผลได้จะกลายเป็นเป้าหมายของการฝึก และตกเป็น commodity แต่ คำตอบที่เป็นข้อมูลเฉพาะภายในและมีต้นทุนการตรวจสอบสูง ไม่อาจอ่านออกมาจาก leaderboard ได้
มูลค่าที่แท้จริงอยู่ในพื้นที่ที่โมเดลเอื้อมไม่ถึง เช่น license, liability และความรับผิดชอบว่าใครต้องรับผล ซึ่งคอขวดไม่ใช่ความฉลาด แต่คือ permission และ accountability
ยิ่งความฉลาดมีต้นทุนถูกลง มูลค่าก็ยิ่งย้ายไปอยู่ในไม่กี่จุดที่โมเดลไปไม่ถึง และ “พื้นที่ที่ฝึกสอนไม่ได้ (untrainable)” คือ moat สุดท้าย

กระแสสิ้นหวังของนักลงทุนและตรรกะของมัน

ช่วงกลางปี 2026 กระแสสิ้นหวังในหมู่นักลงทุนคือการมองว่าไม่มีอะไรให้น่าลงทุนแล้ว มีแค่อารมณ์แบบควรเอาเงินไปลงกับ Anthropic และ Nvidia เท่านั้นแล้วหยุด
หากโมเดลทำทุกอย่างได้ดีกว่า บริษัททั้งหมดที่สร้างอยู่บนมันก็เป็น thin wrapper ที่รอการถูกดูดกลืน และมูลค่าที่อยู่รอดจะเหลือเพียง compute กับ frontier weights เท่านั้น
- กรณีที่ตรรกะนี้พึ่งพามากที่สุดคือวงการซอฟต์แวร์

บทเรียนจริงที่ซอฟต์แวร์กำลังบอกเรา

ตอนเปิดตัวในปี 2024 Devin แก้ได้เพียง 13% ของโจทย์ benchmark ด้านซอฟต์แวร์มาตรฐาน จึงแทบถูกมองข้าม แต่ 1 ปีครึ่งต่อมา เอเจนต์ที่เก่งที่สุดไปถึงช่วงปลาย 80% และทำงานจริงภายใน Goldman Sachs และกองทัพสหรัฐฯ
เกือบทุกคนจึงสรุปบทเรียนผิดว่า “โมเดลได้กลืนกินวิศวกรรมซอฟต์แวร์ไปแล้ว” แต่จริง ๆ แล้วงานวิศวกรรมต่อต้านการวัดผลมาโดยตลอด และ ส่วนที่วัดผลได้มากที่สุด ก็ไม่ใช่ส่วนเดียวที่สำคัญ
Mert Demirer แห่ง MIT และผู้เขียนร่วมได้ทำการวัดเชิงปริมาณกับนักพัฒนากว่า 100,000 คน พบว่า coding agent รุ่นใหม่เพิ่มปริมาณโค้ดที่เขียนขึ้นราว 180% และเพิ่มปริมาณที่ถูก deploy จริงราว 30%
- การเขียนโค้ดถูกลงก็จริง แต่ส่วนที่เหลือยังต้องผ่านคน และส่วนนั้นสำคัญ

สิ่งที่วัดได้ย่อมกลายเป็นเป้าฝึก

Benchmark คือสิ่งที่วัดผลได้ และสิ่งที่วัดผลได้ย่อมถูกโจมตีด้วยการฝึกได้ นั่นจึงเป็นเหตุผลที่ coding agent เติบโตเต็มที่ก่อนอย่างอื่น
- compiler และ test suite ทำหน้าที่เป็น free verifier คำตอบสามารถตรวจตัวเองได้ จึงโยนทรัพยากรใส่เข้าไปจนกว่าจะผ่านได้
แต่การผ่านเทสต์ไม่ได้บอกว่าการเปลี่ยนแปลงนั้นเป็นทางเลือกที่ ถูกต้องสำหรับ codebase อายุ 10 ปี หรือไม่
- เหตุผลที่ไม่มีเอกสารรองรับอยู่สามข้อว่าทำไมโมดูลนี้ถึงมีอยู่ หรือ pipeline deploy ที่รักษาไว้ด้วย cron job ที่ไม่มีใครยอมรับว่าเป็นคนเขียน สิ่งเหล่านี้อ่านไม่ออกจาก leaderboard
ความถูกต้องของระบบที่ซับซ้อนจะรู้ได้ก็ต่อเมื่อปล่อยให้มันรันอยู่ในโลกจริงนานพอ และ ต่อให้โมเดลฉลาดขึ้น ก็ไม่ได้ทำให้โลกหมุนเร็วขึ้น
- Noam Brown ผู้บุกเบิกโมเดล reasoning ของ OpenAI กล่าวไว้ว่า วิธีเดียวที่แน่นอนในการประเมินเอเจนต์ในระดับหนึ่งปี อาจคือปล่อยให้มันทำงานอยู่หนึ่งปีจริง ๆ

สิ่งที่ขยับได้แค่ด้วยความเร็วขององค์กร

ตาม Gabe Pereyra การทำ automation ที่แท้จริงไม่ใช่แค่การทำให้โมเดลดีขึ้น แต่ต้องให้ product, model, workflow และ firm ขยับไปพร้อมกัน ซึ่งในสี่อย่างนี้มีถึงสามอย่างที่ขยับได้ด้วยความเร็วขององค์กร
ส่วนที่ benchmark ไปไม่ถึงคือการขยับคน เช่น การเปลี่ยนวิธีทำงานของพาร์ตเนอร์ที่ตั้งข้อสงสัย หรือการรักษาทีมไว้ระหว่างการสร้างใหม่
- ตอนจ้าง CEO องค์กรให้ความสำคัญกับ ความสามารถในการจัดการคน พอ ๆ กับความสามารถด้านการวิเคราะห์ และโมเดลที่ฉลาดขึ้นก็ไม่เปลี่ยนน้ำหนักตรงนี้
ทุกบริษัทได้ส่งมอบ frontier coding model ให้กับวิศวกรทุกคนแล้ว แต่ไม่มีที่ไหนเลยที่เปลี่ยน องค์กรวิศวกรรม (eng org) ได้เร็วเท่ากับสิ่งนั้น
- การนำไปใช้เกิดขึ้นในไตรมาสเดียว แต่การรื้อสร้างใหม่ยังใช้เวลาหลายปี

งานที่อ่านได้กำลังจากไป

สิ่งที่เอาขึ้น leaderboard ได้ย่อมเป็นสิ่งที่โจมตีได้ด้วยการฝึก ดังนั้น งานทุกอย่างที่วัดผลได้ กำลังมุ่งสู่ความเป็น commodity และทิศทางนี้จะไม่ย้อนกลับ
ตามอุปมาของ Matt MacInnis แห่ง Rippling token ที่ตอบคำถามทั่วไปเป็นสิ่งที่โมเดลของใครก็ตอบได้ จึงแทบไร้มูลค่า แต่ token ที่ใช้อนุมานจากข้อมูลบริษัท มีค่ามากกว่ามาก
งานที่อ่านได้กำลังถูกกินทั้งจากล่างขึ้นบนและบนลงล่าง
- จากด้านล่าง โจทย์เริ่มอิ่มตัวจนผู้ซื้อเลิกถามว่า “เป็นโมเดลไหน” แล้วหันไปถามว่า “ราคาเท่าไร” ก่อนตกลงไปสู่ open/distilled model ที่ถูกที่สุดของสัปดาห์นั้น
- จากด้านบน lab ต่าง ๆ กำลังผลัก absorption frontier โดยดึง scaffolding ที่เคยห่อหุ้มโมเดล เช่น retrieval, routing, tool use และ reasoning policy เข้าไปไว้ใน weights เอง
แรงกดดันต่อ margin ก็ทำงานย้อนกลับเช่นกัน เอเจนต์แบบใช้งานทั่วไปต้องเตรียมพร้อมสำหรับทุกอย่างจึงมีราคาแพง แต่ แอปพลิเคชันแบบโฟกัสเฉพาะ สามารถจูนให้ทำ workflow เดียวด้วยต้นทุน token เพียงบางส่วน แล้วเก็บส่วนต่างนั้นเองโดยตรง

2x2 และ ‘พื้นที่ที่ฝึกสอนไม่ได้’

เราถามได้สองอย่างกับงานทุกชิ้น: ความถูกต้องของมันเป็นข้อมูลเฉพาะภายในและมีต้นทุนสูงในการยืนยันหรือไม่ และมันถูกขังอยู่ในระบบที่เข้าไปไม่ได้หรือไม่
เมื่อตัดกับระดับความอิ่มตัวของโจทย์ จะได้เป็น โครงแบบ 2x2
- อิ่มตัว + คำตอบเปิดเผยสาธารณะ = commodity token ซึ่ง open model จะเข้าครอง
- frontier + คำตอบเปิดเผยสาธารณะ (จุดที่ coding benchmark อยู่) = lab ชนะ เพราะถ้าการประเมินฟรี การเป็นเจ้าของก็ไม่มีความหมาย
- มุมสุดท้าย = งาน frontier ที่ความถูกต้องมีอยู่ได้แค่ในทางส่วนตัวเท่านั้น และนั่นคือ untrainable
เราเห็นสิ่งนี้ได้จากบน inference cloud ที่บริษัทผู้นำแบบ AI-native สร้าง token จำนวนมากท่วมท้นด้วย custom model ไม่ใช่ open model ทั่วไป
ความสูงของกำแพงก่อนจะเข้าสู่มุมสุดท้ายนี้มีหลายระดับ
- toy codebase ของนักพัฒนาเดี่ยวสามารถย้ายได้และเป็นมาตรฐาน จึงเข้าถึงได้ง่าย
- แต่ระบบ production ของธนาคารไม่ใช่ทั้งสองอย่าง และการฉลาดขึ้นอีก 2% บน SWE-Bench Verified ก็ไม่ได้ทำให้คุณได้สิทธิ์ root

คอขวดไม่ใช่ความฉลาด แต่คือสิทธิ์และความรับผิดชอบ

ต่อให้โมเดลดีกว่าเดิม ก็ไม่สามารถเปลี่ยน private ground truth ให้เป็นของสาธารณะได้ ไม่สามารถถือ license ลงนามรับ liability เป็นเจ้าของไฟล์บริษัท หรือกลายเป็นฝ่ายที่ถูกฟ้องเมื่อคำตอบผิดได้
- คอขวดจึงไม่ใช่ความฉลาด แต่คือ permission และ accountability
ประตูนั่นมีทั้ง lock และ deadbolt
- lock คือสภาพแวดล้อม ต้องสร้างความเชื่อใจผ่านการตรวจสอบความปลอดภัย การเชื่อมต่อระบบ และสัญญาที่มีคนเอาชื่อมารับรองผลลัพธ์ จึงจะตรวจสอบประโยชน์ของ AI ได้จากภายในระบบ
- deadbolt คือผู้ใช้ นิสัยที่แพทย์อเมริกันจำนวนมากเปิด OpenEvidence ทุกวันนั้น ซื้อด้วย compute ไม่ได้
ต่อให้ฝึกโมเดลการแพทย์ที่สมบูรณ์แบบได้ในวันพรุ่งนี้ ก็ยังไม่มีทางเข้าไปสู่นิสัยของแพทย์หรือกระบวนการตัดสินใจของ UCSF ได้ ความเชื่อใจสะสมอย่างช้า ๆ บนความสัมพันธ์และความยินยอมของผู้ใช้

ธรรมชาติของงานนั้นเอง

เส้นทางที่แอปพลิเคชันจะเข้าไปยืนอยู่ในมุม untrainable ได้ ไม่ใช่งานหวือหวา แต่คือการ จัดเรียง (arrange) ความจริงเฉพาะภายในของบริษัทให้โมเดลรับมือได้ มอบเครื่องมือให้มันลงมือทำ และร่วมกับลูกค้าเปลี่ยนความเป็นจริงด้านกำลังคน
- บริษัทที่ทำ translation นี้ได้จะลอกเลียนยาก และ translation นั้นไม่มีวันจบ
- การเชื่อมต่อระบบและการบำรุงรักษาจะดำเนินต่อไปตราบเท่าที่ความสัมพันธ์ยังอยู่ และทีมที่วาง วิศวกรเฉพาะทางกับเครื่องมือเฉพาะโดเมน ไว้ข้างลูกค้าจะเป็นฝ่ายชนะ
กรณีศึกษา: M&A ของสำนักงานกฎหมายขนาดใหญ่
- ในสำนักงานกฎหมาย white-shoe ชั้นนำ แค่แผนก M&A แผนกเดียวก็จัดการดีลราว 1,000 รายการต่อปี คุณไม่สามารถให้แอสโซซิเอตหลายร้อยคนดาวน์โหลด client file ลงเดสก์ท็อปของตนแล้วให้เอเจนต์ทั่วไปไล่อ่านได้
  - มีหลายเหตุผลรวมถึงเรื่องความลับ และต่อให้ทำได้ สิ่งที่ได้ก็มีแค่เศษเสี้ยวของการแก้ไขทีละคนครั้งละหนึ่งรอบ โดยไม่เห็นภาพรวมของดีลทั้งหมด
- สัญญาณที่มีความหมายอยู่ใน ระดับของดีล (level of the deal) และดีลมีรูปร่างของมัน
  - M&A มี NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
  - IP litigation มี motion, discovery, prior art, motion เพิ่มเติม
  - แต่ละ practice area มีลักษณะเฉพาะของตัวเอง และทั้งทนายกับเครื่องมือก็ใช้แทนกันไม่ได้
- ปัญหาที่สำนักงานกฎหมายแก้จริง ๆ อยู่ในชั้นที่สูงกว่านั้น คือการเดินทุก practice area แบบขนานกัน วิธีที่ top partner ขับเคลื่อนหลายร้อยคดีพร้อมกัน รับงานใหม่เข้ามา และฝึกแอสโซซิเอต
  - การแปลงสภาพสำนักงานกฎหมายแบบนี้ไม่ใช่โจทย์เดี่ยวที่เอามาทำ eval ได้ แต่ต้องอาศัย operator ที่ทำงานอย่างละเอียดประณีตท่ามกลางเป้าหมายระหว่างทางที่คลุมเครือมาก feedback ที่ไม่สมบูรณ์ ช่วงเวลาที่ยาวนานมาก และสภาพแวดล้อมที่ไม่เคยหยุดนิ่ง

มูลค่าที่อ่านยากก็ขายยากเช่นกัน

จากภายนอก แม้แต่บริษัทเองก็ไม่แน่ใจว่า AI จะเปลี่ยนการดำเนินงานอย่างไร ดังนั้นธุรกิจที่แข็งแรงที่สุดจึงหยุดพยายามพิสูจน์ต่อคนนอก แล้วหันเข้าไปข้างในเพื่อ ตั้งราคาตามผลลัพธ์ (outcome)
Sierra คิดเงินเมื่อเอเจนต์สามารถ resolve ปัญหาลูกค้าได้ และไม่คิดเงินเมื่อส่งต่อให้คน ราคาเองกลายเป็นการประเมินผล และสิ่งนี้ใช้ได้เพราะ Sierra เป็นเจ้าของคำนิยามของ resolved
Devin ของ Cognition ก็เสนอแนวทางเดียวกันในงานซอฟต์แวร์ผ่าน performance guarantee ซึ่งเป็นวิธีที่ทำได้เฉพาะกับผลลัพธ์ภายในระบบที่ได้รับความไว้วางใจแล้วเท่านั้น

แม้แต่ token serving ก็ไม่ได้เป็น commodity ล้วน ๆ

แม้แต่ token serving ที่ถูกเรียกว่า commodity ล้วนก็ไม่ได้ทำตัวแบบนั้น บริษัท AI-native ชั้นนำเลือกกระจุกการเสิร์ฟไว้ที่ หนึ่งหรือสองเจ้า (Baseten หรือ Fireworks)
- ต้นทุนต่อ token กลายเป็น commodity ตามคาดก็จริง แต่ความน่าเชื่อถือภายใต้ทราฟฟิกจริงและการเข้าถึง compute ที่หายากแบบรับประกันนั้นไม่ใช่
- จะเสิร์ฟที่ไหนเป็นการตัดสินใจคนละอย่างกับจะใช้โมเดลไหน และส่วนที่ประพฤติตัวเหมือน commodity ใน inference จริง ๆ มีเพียง ราคา (price) เท่านั้น

ข้อโต้แย้งว่าพวก lab คือซัพพลายเออร์

ข้อโต้แย้งที่พบบ่อยคือ lab เป็นซัพพลายเออร์ จึงสามารถรันผลิตภัณฑ์ของตนต่ำกว่าทุนเพื่อบี้คู่แข่ง หรือยกเลิกสิทธิ์เข้าถึง API แล้วเอาตลาดมาเองได้ นี่คือเวอร์ชันแท้จริงของกระแสสิ้นหวังนั้น
ตรรกะนี้จะใช้ได้ก็ต่อเมื่อชั้นโมเดลเป็น เกมของผู้เล่นคนเดียว เท่านั้น แต่เห็นได้ชัดว่าไม่ใช่
- มันใกล้เคียง “deathmatch ของผู้เล่นสามจุดห้าเจ้า” ที่มีผู้เล่นต่างประเทศซึ่งตามหลังอยู่ 6 เดือนเข้ามาร่วมด้วย และลีกนักพัฒนาก็ใหญ่กว่าปีที่แล้วถึง 5 เท่า
- ลูกค้าต้องการการแข่งขันระหว่างซัพพลายเออร์ และ lab เองก็ต้องการ market share มากกว่าการฆ่าแอปพลิเคชันเฉพาะรายหนึ่ง
เราเห็นสิ่งนี้ได้ในตลาดที่ lab แข่งกันตรง ๆ เพราะใน consumer chat โมเดลที่ดีที่สุดไม่เคยชนะเพียงเพราะมันดีที่สุด
- ChatGPT รักษาความเป็นผู้นำไว้ได้หลายปีท่ามกลางการแข่งขันจริง และส่วนแบ่งที่กำลังเสียไปตอนนี้ไม่ได้ย้ายเพราะมีโมเดลที่ดีกว่า แต่ย้ายไปหา Gemini ที่ได้แรงจาก Android และ Search
- Anthropic ซึ่งใน prediction market และบรรยากาศบนอินเทอร์เน็ตถูกมองว่าเป็นโมเดลที่ดีที่สุด กลับแทบไม่มีบทบาทใน consumer chat และไปสร้างธุรกิจใน enterprise และ coding แทน
- หากแม้แต่ในแอปพลิเคชันที่สำคัญที่สุด โมเดลที่ดีกว่ายังดึงผู้ใช้จากคู่แข่งไม่ได้ มันก็ยิ่งไม่สามารถเจาะบันทึกโรงพยาบาลหรือความรับผิดของธนาคารได้ด้วยการเชื่อมต่อระบบเพียงอย่างเดียว

สิทธิ์ในการนิยามว่าคำตอบที่ดีคืออะไร

หากคนภายนอกให้คะแนนไม่ได้ ก็ต้องมีใครบางคนภายในเป็นผู้ตัดสินว่าคำตอบที่ดีคืออะไร และการตัดสินนั้นคือทั้งเกม
- เมื่อการตัดสินแบบนั้นสะสมมากพอและถูกบันทึกไว้ มันก็กลายเป็น benchmark และ Harvey ก็ได้ออกของสำหรับงานกฎหมาย ขณะที่ Sierra ออกของสำหรับ voice agent
- สิทธิ์ในการนิยามว่าอะไรคือ good ในสาขาหนึ่ง ๆ ได้มาจากการ เป็นผู้ที่สาขานั้นใช้งานอยู่แล้ว และพวกเขาได้สิทธิ์นั้นมาผ่านการต่อสู้อย่างหนักของการนำไปใช้จริง
การประเมินที่ตัดสินเงินจริงเป็นเรื่องเฉพาะภายในและเฉพาะแต่ละ firm ว่าบริษัทนี้ถือว่างานแบบนี้คือ good หรือไม่ และเพราะความลึกของกฎหมายเหนือกว่าทุกการทดสอบสาธารณะ มันจึงไม่มีวันเสร็จสมบูรณ์
นี่ไม่ใช่เรื่องของการวัด แต่คือ judgment ว่าอะไรจริงและอะไรดี ซึ่งถูกบันทึกไว้และกลายเป็นมาตรฐาน และ foundation lab ไม่ว่าฉลาดแค่ไหนก็เขียนมันขึ้นมาเองไม่ได้
- สถานะนี้มีอยู่ได้เฉพาะภายในสาขา และอำนาจก็กลับไปลงหลักในที่ที่มันเคยอยู่แต่เดิม
- benchmark ด้านกฎหมายถูกกำหนดโดยทนายอาวุโส นิยามของคำตอบทางคลินิกที่ปลอดภัยถูกกำหนดโดยแพทย์ และความหมายของ resolved ถูกกำหนดโดยบริษัทที่ครองลูกค้าอยู่แล้ว

แนวรับที่ต้องประเมินใหม่ไม่รู้จบ

เมื่อเราวัดสิ่งต่าง ๆ ได้มากขึ้น absorption frontier ก็จะสูงขึ้นเรื่อย ๆ และสิ่งใดที่วัดได้แล้วจะถูกกลืนกิน
พื้นที่ untrainable จะหดลงใต้เท้าของผู้ที่ยืนอยู่บนนั้น จึงไม่มีใครนั่งนิ่งอยู่ในจุดปลอดภัยได้ ต้องขยับเท้าไปยังที่ที่ยังไม่มีการให้คะแนน และ re-underwrite ใหม่อย่างต่อเนื่อง
หากฝึกไปจนถึง frontier ด้วยข้อมูลเฉพาะภายในและ eval ของตัวเอง ในโจทย์ที่แคบ จุดนั้นคุณจะชนะโมเดลทั่วไป และโมเดลเฉพาะทางนั้นจะกลายเป็นส่วนหนึ่งของ moat
ในทางกลับกัน การไปแข่งขันกับโมเดลทั่วไปคือสงครามทุนที่คุณแพ้ให้กับฝ่ายที่มี compute มากที่สุด เป็นกับดักของบริษัทที่การเข้าถึงตื้นและโจทย์อ่านง่าย
- วันที่คุณตัดสินใจว่าจะอยู่รอดด้วยการฝึกให้เหนือ frontier ในพื้นที่ทั่วไป ผู้ชนะก็จะถูกตัดสินด้วยขนาดของดาต้าเซ็นเตอร์ และบทสรุปจะไม่ใช่แชมป์อิสระ แต่คือ การขายให้ฝ่ายที่มี compute ล้นมือกว่า

เกมรุกที่ยากกว่า: จะสร้างอะไร

ทั้งหมดข้างต้นเป็นเรื่องของเกมรับ ส่วนเกมรุกที่ยากกว่าคือการเลือกตั้งแต่แรกว่าจะสร้างอะไร และพบมันได้ปีละราวสามครั้ง
โมเดลช่วยอะไรตรงนี้ไม่ได้ เพราะมันทำอะไรก็ได้ที่คุณชี้ แต่ไม่บอกว่า อะไรที่คุ้มค่าจะชี้ไปหา และเพราะ benchmark ไม่ได้ จึงฝึกก็ไม่ได้
- นี่คือเหตุผลที่ผู้ชนะรายเดิมไม่สามารถกินทุกอย่างได้ สิ่งถัดไปจะมาจากใครบางคนที่มองเห็น use case ก่อนคนอื่น
- บางที intent อาจเป็น input ที่หายากกว่า compute เสียอีก

บทสรุป: มูลค่าที่มีประวัติศาสตร์

กระแสสิ้นหวังนั้นถูกอยู่ครึ่งหนึ่ง เพราะ ชั้นของ thin wrapper กำลังถูกดูดกลืนจริง และหลายสิ่งที่วันนี้ดูเหมือนบริษัทก็แท้จริงเป็น thin wrapper
- แต่สิ่งที่มัน เหลือทิ้งไว้ กลับเป็นสิ่งที่พวกเขามองผิด กลไกของการดูดกลืนชัดเจนก็จริง แต่ ปลายทางสุดท้ายยังไม่ชัด
ความฉลาดจะถูกลงเรื่อย ๆ และมูลค่าจะไหลไปอยู่ในไม่กี่จุดที่โมเดลเอื้อมไม่ถึง จุดนั้นคือ untrainable — ความสัมพันธ์ ความไว้วางใจ และ judgment ที่สะสมมา ซึ่งเป็น “มูลค่าที่มีประวัติศาสตร์ (value with history)” และไม่อาจลอกด้วยการฝึก
ดังนั้นอย่าพยายามเป็นเจ้าของตัวความฉลาดเอง แต่ต้องเข้าไปอยู่ในพื้นที่ที่คำตอบมีอยู่ได้เฉพาะภายในสาขานั้น (“get inside one”)
- ลงมือทำงาน translation ที่ไม่หวือหวาเอง เพื่อจัดเรียงความจริงเฉพาะภายในของบริษัทให้โมเดลรับมือได้
- แกนสำคัญคือการกลายเป็นผู้ที่ บันทึกว่าอะไรคือ good (คำตอบที่ดี) ในสาขานั้นและนิยามมาตรฐานขึ้นมา เพราะที่นั่งนี้ไม่ได้ว่าง หากเราไม่ทำ ก็จะมีคนอื่นยึดไปแน่นอน
คะแนน benchmark ที่ถูกอ้างถึงมากที่สุดในปีนี้ไม่ใช่เรื่องน่าภูมิใจ แต่เป็นคำเตือน มันคือ แผนที่ของดินแดนที่กำลังจะไร้มูลค่า และเป็นประกาศถึงผู้ที่กำลังจะสูญเสียสิทธิ์ในการพูดว่าอะไรคือ good
- ทันทีที่บางสิ่งถูกวัดแบบสาธารณะได้ มันก็กำลังกลายเป็น commodity และเมื่อการให้คะแนนเป็นสาธารณะ ใคร ๆ ก็ไล่ตามทันได้ ดังนั้นแม้แต่ผู้ที่ได้ที่หนึ่งด้วยคะแนนนั้น ก็ยังสูญเสียสิทธิ์ในการนิยามมาตรฐานของ good อยู่ดี

สิ่งที่ฝึกสอนไม่ได้

กระแสสิ้นหวังของนักลงทุนและตรรกะของมัน

บทเรียนจริงที่ซอฟต์แวร์กำลังบอกเรา

สิ่งที่วัดได้ย่อมกลายเป็นเป้าฝึก

สิ่งที่ขยับได้แค่ด้วยความเร็วขององค์กร

งานที่อ่านได้กำลังจากไป

2x2 และ ‘พื้นที่ที่ฝึกสอนไม่ได้’

คอขวดไม่ใช่ความฉลาด แต่คือสิทธิ์และความรับผิดชอบ

ธรรมชาติของงานนั้นเอง

กรณีศึกษา: M&A ของสำนักงานกฎหมายขนาดใหญ่

มูลค่าที่อ่านยากก็ขายยากเช่นกัน

แม้แต่ token serving ก็ไม่ได้เป็น commodity ล้วน ๆ

ข้อโต้แย้งว่าพวก lab คือซัพพลายเออร์

สิทธิ์ในการนิยามว่าคำตอบที่ดีคืออะไร

แนวรับที่ต้องประเมินใหม่ไม่รู้จบ

เกมรุกที่ยากกว่า: จะสร้างอะไร

บทสรุป: มูลค่าที่มีประวัติศาสตร์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น