การมาถึงของยุค Software Factory และเอเจนต์

(factory.strongdm.ai)

13 คะแนน โดย GN⁺ 2026-02-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ทีม StrongDM AI เสนอแนวคิด Software Factory ที่สร้างซอฟต์แวร์คุณภาพสูงได้โดยไม่ต้องดูโค้ด
เอเจนต์เขียนโค้ดจากสเปก/สถานการณ์ จำลองการทำงานของ test harness และบรรลุผลลัพธ์แบบ ไม่ต้องมีมนุษย์ตรวจทาน ในรูปแบบการพัฒนา แบบไม่โต้ตอบ
มนุษย์ไม่ควรเขียนหรือตรวจทานโค้ด และต้องใช้ค่าใช้จ่ายโทเคนอย่างน้อย 1,000 ดอลลาร์ต่อวิศวกรต่อวัน จึงจะทำให้ซอฟต์แวร์แฟกทอรีทำงานได้อย่างเหมาะสม
ตั้งแต่ Claude 3.5 ฉบับปรับปรุงครั้งที่ 2 (ตุลาคม 2024) เป็นต้นมา เวิร์กโฟลว์การเขียนโค้ดด้วยเอเจนต์ระยะยาวเริ่มสะสมความถูกต้องแบบทบต้น แทนการสะสมข้อผิดพลาด ทำให้เห็นความเป็นไปได้ของ การพัฒนาแบบไม่โต้ตอบ
มีการขยายแนวคิดของการทดสอบเดิมด้วยการนำ สถานการณ์ (scenario) และ ความพึงพอใจ (satisfaction) มาใช้ สร้างระบบที่ให้ LLM ประเมินความพึงพอใจของผู้ใช้แบบเชิงความน่าจะเป็น
ผ่าน Digital Twin Universe (DTU) มีการจำลอง SaaS สำคัญอย่าง Okta, Jira, Slack เพื่อทำการตรวจสอบขนาดใหญ่ และสามารถตรวจสอบสถานการณ์ได้ด้วยปริมาณและความเร็วที่เกินข้อจำกัดของโปรดักชัน
ยุคของเอเจนต์กำลังเปลี่ยนเศรษฐศาสตร์ของซอฟต์แวร์อย่างรากฐาน ทำให้ การสร้างสำเนา SaaS ความเที่ยงตรงสูงซึ่งในอดีตไม่คุ้มทางเศรษฐกิจ กลายเป็นงานปกติในวันนี้

แนวคิด Software Factory

สเปก (specs) และ สถานการณ์ (scenarios) เป็นตัวขับเคลื่อนเอเจนต์ให้เขียนและตรวจสอบโค้ดในระบบการพัฒนา แบบไม่โต้ตอบ
- ห้ามมนุษย์เขียนและรีวิวโค้ด และให้เอเจนต์ดำเนินกระบวนการพัฒนาทั้งหมด
- ใช้ ค่าใช้จ่ายโทเคนมากกว่า 1,000 ดอลลาร์ต่อวิศวกรต่อวัน เป็นเกณฑ์วัดประสิทธิภาพ
แนวทางนี้มีเป้าหมายเพื่อสร้าง สภาพแวดล้อมการผลิตซอฟต์แวร์แบบอัตโนมัติ ที่โค้ดถูกสร้าง ตรวจสอบ และค่อย ๆ บรรลุผลลัพธ์ได้เองโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง

การก่อตั้งทีม StrongDM AI

วันที่ 14 กรกฎาคม 2025 มีการจัดตั้ง ทีม StrongDM AI และเริ่มทดลองการพัฒนาแบบไม่โต้ตอบ
- ผู้เข้าร่วม: Jay Taylor, Navan Chauhan, Justin McCarthy (ผู้ร่วมก่อตั้งและ CTO)
หลัง Claude 3.5 (ฉบับแก้ไขเดือนตุลาคม) ในช่วงปลายปี 2024 ความแม่นยำของการเขียนโค้ดระยะยาวดีขึ้น จึงเกิด การสะสมความถูกต้องแบบทบต้น (compounding correctness) แทนการสะสมข้อผิดพลาดแบบเดิม
YOLO mode ของ Cursor ทำให้ความสามารถในการเขียนโค้ดระยะยาวของโมเดลปรากฏชัดเจนขึ้น
ในโมเดลก่อนหน้า เมื่อใช้ LLM กับงานเขียนโค้ดแบบ วนซ้ำหลายรอบ ความเข้าใจผิด อาการหลอน ข้อผิดพลาดทางไวยากรณ์ การละเมิด DRY ระหว่างเวอร์ชัน ความไม่เข้ากันของไลบรารี และข้อผิดพลาดทุกประเภทจะสะสมขึ้นจนแอป “พังทลาย”
เมื่อรวมโมเดลที่อัปเดตของ Anthropic เข้ากับ YOLO mode จึงเห็นความเป็นไปได้แรกของ การพัฒนาแบบไม่โต้ตอบ หรือ ซอฟต์แวร์ที่เติบโตได้

หลักการสำคัญ: อย่าแตะโค้ด

ในชั่วโมงแรกของวันแรก ทีม AI ได้กำหนดกฎบัตรขึ้นมา โดยหลักการสำคัญที่สุดคือ "มนุษย์ต้องไม่เขียนโค้ดด้วยตนเอง"
ในช่วงแรกเป็นเพียงสัญชาตญาณและการทดลองง่าย ๆ ว่า ถ้าไม่เขียนโค้ดด้วยมือเลย จะไปได้ไกลแค่ไหน
ตอนแรกเจอข้อจำกัด แต่เริ่มก้าวหน้าเมื่อเพิ่มการทดสอบเข้าไป
เอเจนต์มักยึดติดกับงานตรงหน้าและเลือกทางลัด: การเขียน return true ทำให้ผ่านการทดสอบที่เขียนไว้แคบ ๆ ได้ แต่ไม่สามารถทำให้เป็นซอฟต์แวร์ที่ตรงกับสิ่งที่ต้องการจริงในภาพรวม
การทดสอบแบบง่ายอย่างเดียวไม่พอ ต้องขยายไปสู่ integration test, regression test, end-to-end test และ behavioral test

จากการทดสอบสู่สถานการณ์และความพึงพอใจ

ประเด็นที่เกิดซ้ำในยุคของเอเจนต์คือ ต้องมีภาษาใหม่ เพราะคำว่า “การทดสอบ” นั้นไม่เพียงพอและกำกวม
การทดสอบที่เก็บในโค้ดเบสอาจถูกเขียนใหม่แบบขอไปทีให้เข้ากับโค้ด หรือโค้ดอาจถูกเขียนใหม่เพื่อให้ผ่านการทดสอบแบบผิวเผิน
มีการนิยามคำว่า สถานการณ์ ใหม่ให้หมายถึง เรื่องราวของผู้ใช้แบบ end-to-end โดยเก็บไว้นอกโค้ดเบส (คล้ายกับชุด “holdout” ในการฝึกโมเดล) และให้ LLM เข้าใจโดยสัญชาตญาณพร้อมตรวจสอบได้อย่างยืดหยุ่น
เนื่องจากซอฟต์แวร์ที่กำลังเติบโตเองนั้นมีคอมโพเนนต์เอเจนต์อยู่ภายใน การตัดสินความสำเร็จจึงเปลี่ยนจากค่าบูลีนธรรมดาไปสู่ ความพึงพอใจ (satisfaction) แบบเชิงความน่าจะเป็นและเชิงประจักษ์
- ความพึงพอใจ: การวัดสัดส่วนของเส้นทางการทำงานที่สังเกตได้และผ่านทุกสถานการณ์แล้ว ซึ่งมีแนวโน้มว่าจะทำให้ผู้ใช้พึงพอใจ

การตรวจสอบสถานการณ์ผ่าน Digital Twin Universe

ในระบบเดิม จะตัดสินว่า "มันใช้งานได้หรือไม่?" ผ่าน integration test, regression test และ UI automation
พบข้อจำกัด 2 ประการของเทคนิคเดิมที่เคยเชื่อถือได้:
- การทดสอบแข็งเกินไป: เมื่อเขียนโค้ดด้วยเอเจนต์และสร้างลูป LLM กับเอเจนต์ให้เป็น primitive ด้านการออกแบบ การประเมินความสำเร็จจึงมักต้องใช้ LLM-as-judge
- การทดสอบเปราะบางต่อการ hack รางวัล: จำเป็นต้องมีการตรวจสอบที่ทนทานต่อการโกงของโมเดลมากกว่าเดิม
Digital Twin Universe (DTU) คือคำตอบ: เป็นคลอนพฤติกรรมของบริการภายนอกที่ซอฟต์แวร์พึ่งพา
- สร้างทวินของ Okta, Jira, Slack, Google Docs, Google Drive, Google Sheets โดยจำลอง API, กรณีขอบ และพฤติกรรมที่สังเกตได้
- DTU ทำให้ตรวจสอบได้ด้วยปริมาณและความเร็วที่สูงกว่าข้อจำกัดของโปรดักชันมาก
- ยังทดสอบโหมดความล้มเหลวที่เสี่ยงหรือเป็นไปไม่ได้กับบริการจริงได้ด้วย
- รันสถานการณ์ได้หลายพันรายการต่อชั่วโมงโดยไม่ชน rate limit ไม่กระตุ้นการตรวจจับการใช้งานผิดปกติ และไม่สะสมค่าใช้จ่าย API

เศรษฐศาสตร์ที่ไม่เป็นแบบเดิม

ความสำเร็จผ่าน DTU แสดงให้เห็นหนึ่งในหลายวิธีที่ จังหวะแห่งยุคเอเจนต์ (Agentic Moment) กำลังเปลี่ยนเศรษฐศาสตร์ซอฟต์แวร์อย่างรากฐาน
- การสร้างคลอนความเที่ยงตรงสูงของแอป SaaS สำคัญนั้นทำได้เสมอมา แต่ ไม่คุ้มค่าทางเศรษฐกิจ
- วิศวกรหลายรุ่นเคยต้องการสำเนา CRM แบบ in-memory ทั้งชุดสำหรับใช้ทดสอบ แต่ไม่เคยแม้แต่จะเสนอผู้จัดการ เพราะคาดว่าจะถูกปฏิเสธ
ผู้สร้างซอฟต์แวร์แฟกทอรีจำเป็นต้องฝึก ความไร้เดียงสาโดยเจตนา (deliberate naivete): ค้นหาแล้วกำจัดนิสัย จารีต และข้อจำกัดของ Software 1.0
- ผ่าน DTU สิ่งที่เมื่อ 6 เดือนก่อนยังนึกไม่ออก ตอนนี้ได้กลายเป็นงานประจำที่ทำซ้ำได้แล้ว

เรื่องที่ควรอ่านต่อ

Principles : ความเชื่อของเราต่อการพัฒนาซอฟต์แวร์ด้วยเอเจนต์
- ซอฟต์แวร์เติบโตผ่านโครงสร้าง seed → validation harness → feedback loop โดยมี โทเคนเป็นเชื้อเพลิง
- ซอฟต์แวร์ทุกชิ้นต้องมี seed เริ่มต้น: อาจเป็น PRD หรือเอกสารสเปกในอดีต หรือปัจจุบันอาจเป็นเพียงไม่กี่ประโยค ภาพหน้าจอ หรือโค้ดเบสเดิมก็ได้
- validation harness ต้องเป็นแบบ end-to-end และใกล้เคียงสภาพแวดล้อมจริงมากที่สุด ทั้งลูกค้า การเชื่อมต่อ และความคุ้มค่าทางเศรษฐกิจ
- การ feedback ตัวอย่างผลลัพธ์กลับไปเป็นอินพุตในรูปแบบ ลูปปิด ทำให้ระบบแก้ไขตัวเองและสะสมความถูกต้องแบบทบต้นได้
- แม้ทฤษฎีของการตรวจสอบและ feedback จะเข้าใจง่าย แต่การทำงานจริงต้องอาศัยวิศวกรรมที่สร้างสรรค์และล้ำสมัย: ค้นหาวิธีแปลงอุปสรรคทุกอย่างให้อยู่ในรูปแบบที่โมเดลเข้าใจได้
Techniques : แพตเทิร์นแบบวนซ้ำสำหรับนำหลักการเหล่านี้ไปใช้
- Digital Twin Universe (DTU)
  - จำลองพฤติกรรมภายนอกที่สังเกตได้ ของการพึ่งพาบุคคลที่สามที่สำคัญ
  - ตรวจสอบด้วยปริมาณและความเร็วที่สูงกว่าข้อจำกัดของโปรดักชันมาก
  - ให้เงื่อนไขการทดสอบที่ กำหนดแน่นอนและทำซ้ำได้
- Gene Transfusion
  - กำหนดเอเจนต์ด้วยตัวอย่างเฉพาะเพื่อ ย้ายแพตเทิร์นการทำงานข้ามโค้ดเบส
  - ทำให้สามารถทำซ้ำโซลูชันที่จับคู่กับตัวอ้างอิงที่ดีในบริบทใหม่ได้
- Filesystem
  - ให้โมเดลสำรวจรีโพซิทอรีได้รวดเร็ว และปรับคอนเท็กซ์ของตัวเองผ่านการอ่าน/เขียนไฟล์
  - ไดเรกทอรี ดัชนี และสถานะบนดิสก์ทำหน้าที่เป็น ฐานความจำเชิงปฏิบัติ
- Shift Work
  - แยกงานแบบโต้ตอบออกจากงานที่ระบุสเปกไว้อย่างสมบูรณ์
  - เมื่อเจตนาสมบูรณ์แล้ว (มีสเปก การทดสอบ หรือแอปเดิม) เอเจนต์สามารถทำงานแบบ end-to-end ได้โดยไม่ต้องโต้ตอบกลับไปกลับมา
- Semport
  - การพอร์ตแบบอัตโนมัติที่รับรู้เชิงความหมาย ทำได้ทั้งแบบครั้งเดียวหรืออย่างต่อเนื่อง
  - ย้ายโค้ดข้ามภาษา یاเฟรมเวิร์กโดยยังรักษาเจตนาเดิมไว้
- Pyramid Summaries
  - การสรุปแบบย้อนกลับได้ ในหลายระดับการซูม
  - บีบอัดคอนเท็กซ์โดยไม่สูญเสียความสามารถในการขยายกลับไปยังรายละเอียดทั้งหมด
Products : เครื่องมือที่เราใช้ทุกวัน และคิดว่าน่าจะมีประโยชน์กับคนอื่นเช่นกัน
- CXDB คือ ที่เก็บคอนเท็กซ์แบบ self-hosted สำหรับ AI agent โดยมี Turn DAG, blob deduplication, dynamic typing และ visual debugging
- StrongDM ID คือ ระบบตัวตน (identity system) สำหรับมนุษย์ เวิร์กโหลด และ AI agent รองรับ federated authentication และการแชร์แบบกำหนดขอบเขตเส้นทาง
- Attractor คือ เอเจนต์เขียนโค้ดแบบไม่โต้ตอบ ที่จัดโครงสร้างด้วย phase graph และทำงานแบบ end-to-end เมื่อสเปกของงานครบถ้วน

3 ความคิดเห็น

pencil6962 2026-02-08

ผมลองพัฒนาด้วยแนวทางการพัฒนาที่ขับเคลื่อนด้วยสเปก โดยใช้มัลติเอเจนต์แล้วครับ จริงอยู่ว่ามันช่วยลดงานได้มาก แต่ด้วยข้อจำกัดด้านประสิทธิภาพของ LLM จึงยังสร้างผลิตภัณฑ์ที่ทำให้ลูกค้าพึงพอใจไม่ได้ การทดแทนมนุษย์แบบ 100% เป็นไปไม่ได้ และยังจำเป็นต้องมีงานของมนุษย์อยู่ในระดับหนึ่ง

xguru 2026-02-08

ค่อนข้างยั่วอารมณ์เกินไปหน่อย แต่ก็พอเข้าใจได้อยู่เหมือนกัน.. เป็นบทความที่ทำให้รู้สึกแปลก ๆ นะครับ

พออ่านบทความนี้แล้วไปดูบทความข้างล่าง จะยิ่งรู้สึกร่วมมากขึ้นครับ
เราไว้อาลัยให้กับจิตวิญญาณแห่งงานช่างของเรา

GN⁺ 2026-02-08

ความเห็นบน Hacker News

ฉันเห็นด้วยกับแนวคิด Digital Twin Universe
โค้ดเบสของฉันก็มีการเชื่อมต่อกับบริการภายนอกเยอะมาก จนเวลาทดสอบแล้วบล็อกการเรียกภายนอกออก แทบจะตรวจสอบอะไรไม่ได้เลย
เลยสร้าง ตัวจำลองปลอม ของแต่ละ API สำหรับทดสอบ เช่น Okta, Jira, Slack, Google Docs
แต่ไม่ได้จำลองไปถึง UI แค่เลียนแบบพฤติกรรมของ API เท่านั้น
คำพูดที่ว่า “ถ้ายังใช้โทเค็นไม่ถึง $1,000 ต่อวิศวกรต่อวัน แปลว่ายังมีช่องให้ปรับปรุง” ฟังดู ไม่สมจริง เกินไป
น่าสงสัยว่านี่เป็นข้ออ้างจริงจังหรือเปล่า
- ลองคำนวณดูแล้วก็ตกราว ๆ $250k ต่อปี
  ถ้า AI สร้าง ผลิตภาพ ได้ขนาดนั้น มันก็อาจสมเหตุสมผล
  ในโลกจริงก็น่าจะได้ประสิทธิภาพประมาณวิศวกรจูเนียร์สองคน
  สุดท้ายมนุษย์ก็คงเหลือบทบาทเป็น หัวหน้าทีม ที่คอยวางแผนและตรวจสอบ
  แม้จะมองโลกในแง่ดีเกินจริง แต่ก็ไม่ถึงกับเพี้ยนไปเลย
- ฉันใช้แค่ Claude กับ OpenAI แบบสมัครสมาชิกเดือนละ $20
  ถ้าใช้โทเค็นหมดก็ออกไปเดินเล่นหรืออ่านหนังสือ
  ฉันไม่ใช่พวก accelerationalist แต่ก็ยังทำงานได้พออยู่ดี
- ฉันเป็นหนึ่งในทีม StrongDM
  การใช้โทเค็นวันละ $1,000 นั้นทำได้ไม่ยาก แต่ประเด็นสำคัญคือ ใช้ให้เกิดประสิทธิผลนั้นยาก
- มันดูเหมือน การอวดเก่ง มากกว่า
  คล้ายการส่งสัญญาณว่า “พวกเราไปไกลเรื่อง AI กว่าพวกคุณนะ”
- อ่านบทความแล้วรู้สึก กระอักกระอ่วน
  เหมือนเอา mocks หรือการทดสอบแบบ simulation ที่มีอยู่เดิมมาห่อเป็น “นวัตกรรม”
  แต่ก็ยอมรับว่าอย่างน้อยพวกเขาก็เปิดเผยโครงสร้างต้นทุนอย่างตรงไปตรงมา
ฉันพยายามหาว่าในเว็บของพวกเขามี โค้ดหรือผลิตภัณฑ์ จริงอะไรบ้าง
สิ่งเดียวที่เจอคือ strongdm/attractor
เท่ากับว่า “เขียนโค้ดโดยแฟนสาวชาวแคนาดา” กลายเป็นโมเดลธุรกิจไปแล้ว
นอกจากนี้ยังเจอ strongdm/cxdb แต่ประวัติ commit ถูกจัดระเบียบไว้แล้ว
- มีโค้ดจริงอยู่ใน คลัง cxdb
- ไม่รู้ว่านี่บ้าบอหรือเป็นภาพตัดขวางของอนาคตกันแน่
- ที่ หน้า Products ก็มีทั้งฐานข้อมูลและระบบ ID
  ถ้าหลายเอเจนต์จะทำงานร่วมกัน ก็จำเป็นต้องมี บริบทที่ใช้ร่วมกัน และระบบสิทธิ์อย่างยิ่ง
- ฉันเคยฟังเว็บบินาร์เกี่ยวกับ BAML ของ BoundaryML
  Spec-driven development เป็นแนวทางสร้าง workflow แบบมีโครงสร้างโดยให้มนุษย์อยู่ในลูป
  มันกำหนดลูป /research → /plan → /implement ไว้อย่างชัดเจน และให้มี การตรวจสอบโดยมนุษย์ ในแต่ละขั้น
  ซึ่งเป็นปรัชญาที่ตรงข้ามกับแนวคิดของ StrongDM ที่ว่า “มนุษย์ไม่ต้องเขียนหรืออ่านโค้ด” โดยสิ้นเชิง
- ให้ความรู้สึกเหมือน บล็อกโพสต์กลวง ๆ อีกชิ้น
  ไม่มีผลลัพธ์ที่เป็นรูปธรรม และเรื่องโทเค็น $1,000/วันก็ดูเหมือนเอาไว้ดึงดูดนักลงทุน
ถ้ายังแก้ ปัญหาการตรวจสอบความถูกต้อง ไม่ได้ ทั้งหมดนี้ก็เป็นแค่การอวดเท่านั้น
ต่อให้ตั้งระบบรีวิวอัตโนมัติหรือ guardrail ไว้ สุดท้ายคนที่ต้องยืนยันว่า สเปกกับผลลัพธ์ตรงกัน ก็ยังเป็นมนุษย์
- พวกเราที่ Speedscale กำลังทำระบบตรวจสอบอัตโนมัติด้วย การจับและเล่นซ้ำทราฟฟิก
- จริง ๆ แล้วนักพัฒนามนุษย์ก็ไม่ได้สมบูรณ์แบบ
  เรามี กระบวนการตรวจสอบเชิงระบบ อยู่แล้วหลายอย่าง เช่น code review, testing, QA
  สิ่งสำคัญไม่ใช่ว่า AI สมบูรณ์แบบไหม แต่คือ คุณภาพของระบบโดยรวมกำลังลู่เข้าได้หรือไม่
  จากประสบการณ์ของฉัน ถ้าวัดด้วย Opus 4.5 ก็มี ผลกำไรสุทธิเล็กน้อย
- ฉันก็เกือบเห็นด้วยทั้งหมด
  แกนสำคัญคือ การตรวจสอบ ไม่ใช่การสร้าง
  ตอนนี้กำลังสร้างโครงสร้างที่เอเจนต์อิสระหลายตัวสามารถ แสดงความเห็นต่างและหาฉันทามติ กันได้
- พูดสั้น ๆ คือโยนภาระการตรวจสอบและการทดสอบความปลอดภัย ให้ผู้ใช้ปลายทางรับไป
- ควรใช้ภาษาที่อิงสเปกและ การพิสูจน์ความถูกต้องเชิงรูปนัย ให้มากขึ้น
  ท้ายที่สุดแล้วการเขียนโปรแกรมจะถูกนิยามใหม่เป็น “การทำให้สเปกเป็นรูปธรรม”
ถ้าเป็นโทเค็นวันละ $1,000 ก็เท่ากับใช้เงินกับ AI มากกว่ากับมนุษย์เสียอีก
นี่ดูเหมือนเป็น จุดพังทลายของวิสัยทัศน์ AI
- มีคนบอกว่า Simon Willison อัปเดตบทความแล้ว
- ถ้าคิดเป็นปีละ $240k ก็ระดับวิศวกร FANG สายเริ่มต้นเลย
  เอาจริง ๆ ก็มี จูเนียร์จำนวนมากที่แย่กว่า Claude
  สุดท้ายคงถูกจัดโครงสร้างใหม่เป็น พีระมิด ที่มีมนุษย์จำนวนน้อยอยู่บนยอด
- ถ้าสามารถทำงานเดียวกันให้เสร็จใน 5 วันได้จริง ต้นทุนต่อความเร็ว ก็อาจสมเหตุสมผล
- ถ้าปริมาณผลงานเพิ่มตามสัดส่วน ประสิทธิภาพต่อค่าใช้จ่าย ก็อาจพอรับได้
  แถมราคาต่อโทเค็นก็อาจลดลงอีกในอนาคต
อุตสาหกรรมกฎหมายและประกันภัย จะรับมือกับการเปลี่ยนแปลงนี้ลำบากที่สุด
ความผิดพลาดของมนุษย์ยังพอจำลองได้ แต่ ความผิดพลาดแบบลูกโซ่ของลูปอัตโนมัติ เป็นปัญหาอีกแบบโดยสิ้นเชิง
- ฝั่งประกันภัยน่าจะทำให้ง่ายเข้าไว้
  การตัดสินใจของ AI สุดท้ายก็จะย้อนกลับไปเป็น ความรับผิดชอบของมนุษย์
  นี่น่าจะเป็น ตัวหน่วงของการเปลี่ยนผ่านสู่ agentic ทั้งหมด
โทเค็นวันละ $1,000 เป็น ตัวชี้วัดที่เหลวไหล
ถ้าคุณภาพโค้ดแย่ การใช้โทเค็นจะพุ่งขึ้นอย่างมาก
สุดท้ายแล้ว โค้ดเบสที่ไม่เป็นระเบียบ ต่างหากที่ทำให้ต้นทุนสูงขึ้น
ถ้าเป็นทีมที่เผาเงินวันละพันดอลลาร์ ประสิทธิภาพก็คงแทบไม่มี
(อ้างอิง: มีมนี้)
- มันเป็นปัญหาของการ optimize ระยะสั้นกับระยะยาว
  จะเพิ่มประสิทธิภาพตอนนี้ หรือจะปรับปรุงระบบทั้งก้อนในระยะยาว
- บางทีผู้บริหารอาจเพิ่งจะตระหนักได้ว่า การรีแฟกเตอร์ สำคัญแค่ไหน
ทีมที่ฉันเคยเรียกว่าเป็นตัวอย่างของ Dark Factory pattern ก็คือพวกนี้เอง
ฉันเขียน บทความที่เกี่ยวข้อง ไว้ และทีมนี้ก็เป็น กลุ่มทดลองที่ทะเยอทะยานที่สุด
- แต่ในความเป็นจริง แทบไม่มีผลลัพธ์ให้เห็น
  ให้เงินนักศึกษามหาวิทยาลัยไม่กี่คน $10k ยังน่าจะทำได้ดีกว่า
- โทเค็นวันละ $1,000 นี่สำหรับงบทีมของฉันเป็นเรื่องที่ ไม่มีทางแม้แต่จะฝันถึง
  สำหรับชีวิตส่วนตัวฉันก็เป็นไปไม่ได้เพราะค่าครองชีพ
  สุดท้ายเลยรู้สึกเหมือน “ทำก็พัง ไม่ทำก็พัง”
- ถ้าไม่มีผลลัพธ์ที่ตรวจสอบได้ ก็เป็น แค่คำพูดลอย ๆ
  ทุกวันนี้แม้แต่คำพูดเองก็ถูกลงมากเพราะ LLM
- จำเป็นต้องมีการเปิดเผยอย่างมีจริยธรรม
  คำศัพท์บนเว็บก็แค่เอาแนวคิดเดิมมาห่อใหม่
  “Digital Twin Universe” คือ mocks, “Gene Transfusion” คือการอ่านโค้ดอ้างอิง, “Semport” คือการ transpile
  ไม่มีทั้ง ข้อมูลหรือ benchmark จริงเลย
  มันเป็นตัวอย่างของการเอาการตลาด AI มาห่อเป็น insight ทางวิศวกรรม
- ที่จริงโค้ดหลักส่วนใหญ่ก็อยู่บน GitHub อยู่แล้ว
  จุดต่างที่แท้จริงคือ การออกแบบกลไกและชุดคุณค่า
  อนาคตจะมุ่งไปที่การผสาน formal methods เข้ากับ AI
วิธี “เอาสถานการณ์ต่าง ๆ มาทำเป็น holdout set แล้วทดสอบ” น่าสนใจมาก
มันเป็นแนวคิดที่เลียนแบบ การทดสอบเชิงรุกของทีม QA
การแยกทีม build ออกจากทีมจับบั๊กเพื่อให้เกิด โครงสร้างการแข่งขันกันเอง ก็น่าประทับใจ
แต่โทเค็นวันละ $1,000 นั้นสำหรับนักพัฒนาโอเพนซอร์สถือว่า สิ้นหวังมาก
- ถ้าใช้โมเดลรันในเครื่องก็ลดต้นทุนได้
  อย่างใน เธรดนี้ การทำ เอเจนต์อัตโนมัติบนเครื่อง ก็เป็นไปได้สบาย
- สักวันหนึ่งเอเจนต์อาจเริ่ม ติดสินบนกันเอง ก็ได้
- ฉันยังคงชอบ แนวทางที่ให้มนุษย์อยู่ในลูป มากกว่า
  การเผาโทเค็นแบบไม่ยั้งเป็นความสิ้นเปลือง
ฉันเคยสำรวจ กรอบความคิด ในการใช้ LLM ไว้ใน บทความ “LLMs aren’t tools”
“โรงงานซอฟต์แวร์” คือปลายทางของตอนนี้ แต่ขั้นถัดไปคือการมอง LLM เป็นแอปพลิเคชันหนึ่งตัว
กล่าวคือไม่ใช่แค่การทำ workflow อัตโนมัติ แต่เป็นขั้นของการสร้าง harness แบบเฉพาะทาง