Harness Engineering: ใช้งาน Codex ในโลกที่ให้เอเจนต์มาก่อน

(openai.com)

89 คะแนน โดย GN⁺ 2026-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

กรณีทดลองที่ทีมภายในของ OpenAI สร้างและเปิดตัว internal beta ของผลิตภัณฑ์ซอฟต์แวร์โดย ไม่เขียนโค้ดด้วยมือเป็นเวลา 5 เดือน โดยโค้ดทั้งหมดถูกสร้างโดยเอเจนต์ Codex
เริ่มต้นด้วยวิศวกร 3 คน และจัดการโค้ดประมาณ 1 ล้านบรรทัด กับ pull request 1,500 รายการ โดยเฉลี่ยวิศวกร 1 คน merge PR ได้ 3.5 รายการต่อวัน
บทบาทของวิศวกรเปลี่ยนจากการเขียนโค้ดโดยตรงไปเป็น การออกแบบสภาพแวดล้อม การระบุเจตนา และการสร้าง feedback loop โดยหัวใจสำคัญคือการสร้าง scaffolding ที่ทำให้เอเจนต์ทำงานได้อย่างเสถียร
ใช้ AGENTS.md เป็น สารบัญ ไม่ใช่สารานุกรม และบังคับใช้ความสอดคล้องของสถาปัตยกรรมแบบเชิงกลผ่านเอกสารที่มีโครงสร้าง, linter และ structural tests
ยิ่งเอเจนต์มีความเป็นอิสระสูงขึ้น ก็ยิ่งต้องมี การจัดการ entropy และการเก็บกวาดอย่างต่อเนื่องแบบ garbage collection โดยระเบียบวินัยของการสร้างซอฟต์แวร์กำลังย้ายจากตัวโค้ดไปอยู่ที่ scaffolding

การทดลองที่เริ่มจาก git repository ว่างเปล่า

ปลายเดือนสิงหาคม 2025 มีการทำคอมมิตแรกใน repository ที่ว่างเปล่า โดย scaffolding เริ่มต้น (โครงสร้าง repository, การตั้งค่า CI, กฎการจัดรูปแบบ, การตั้งค่า package manager, application framework) ถูกสร้างใน Codex CLI โดยใช้ GPT-5 บนพื้นฐานของเทมเพลตที่มีอยู่เดิม
ไฟล์ AGENTS.md เริ่มต้นที่ใช้บอกเอเจนต์ว่าจะทำงานกับ repository อย่างไรก็ถูก Codex เขียนขึ้นเองโดยตรง
ตั้งแต่ต้น repository นี้ถูกก่อร่างโดยเอเจนต์ โดยไม่มีโค้ดเดิมที่มนุษย์เขียนไว้ก่อน
หลังผ่านไป 5 เดือน มีโค้ดประมาณ 1 ล้านบรรทัด ครอบคลุม application logic, infrastructure, tooling, documentation และ internal developer utility
ทีมขนาดเล็ก 3 คนเปิดและ merge pull request ราว 1,500 รายการ คิดเป็นอัตราเฉลี่ย 3.5 PR ต่อวันต่อวิศวกร 1 คน
เมื่อทีมขยายเป็น 7 คน throughput กลับยิ่งเพิ่มขึ้น
มีผู้ใช้หลายร้อยคนใช้งานภายในทุกวัน รวมถึงผู้ใช้ระดับ power user ภายในองค์กร
ตลอดกระบวนการพัฒนา มนุษย์ไม่เคยมีส่วนร่วมกับโค้ดโดยตรง
"ไม่มีโค้ดที่เขียนด้วยมือ" กลายเป็นปรัชญาหลักของทีม

นิยามบทบาทของวิศวกรใหม่

เมื่อมนุษย์ไม่ได้เขียนโค้ดเองโดยตรง จึงต้องมีงานวิศวกรรมคนละแบบที่เน้น ระบบ, scaffolding และ leverage
เหตุผลที่ช่วงแรกดำเนินไปช้ากว่าที่คาด ไม่ใช่เพราะ Codex ขาดความสามารถ แต่เพราะ สภาพแวดล้อมยังไม่พร้อม
- เอเจนต์ยังขาดเครื่องมือ abstraction และโครงสร้างภายในที่จะช่วยให้บรรลุเป้าหมายระดับสูง
งานหลักของทีมวิศวกรรมจึงเปลี่ยนไปเป็นการสนับสนุนให้เอเจนต์ทำงานที่มีประโยชน์ได้
แยกเป้าหมายใหญ่ให้เป็น building block ขนาดเล็กกว่า (การออกแบบ, โค้ด, การรีวิว, การทดสอบ ฯลฯ) และให้เอเจนต์ประกอบบล็อกเหล่านี้ก่อนจะไปแก้งานที่ซับซ้อนขึ้น ในรูปแบบการทำงานแบบ depth-first
เมื่อเกิดความล้มเหลว คำถามสำคัญไม่ใช่ "พยายามให้มากขึ้น" แต่คือ "มีความสามารถอะไรที่ยังขาดอยู่ และต้องทำอย่างไรให้เอเจนต์อ่านเข้าใจและลงมือทำได้"
มนุษย์โต้ตอบกับระบบแทบทั้งหมดผ่าน prompt
- สั่งอธิบายงาน, รันเอเจนต์, เปิด pull request เป็นต้น
เพื่อให้ PR เสร็จสมบูรณ์ จะสั่งให้ Codex ตรวจทานการเปลี่ยนแปลงของตัวเองบนเครื่อง, ขอเพิ่ม agent review ทั้งใน local และ cloud, ตอบ feedback และวนซ้ำจนผู้รีวิวที่เป็นเอเจนต์ทั้งหมดพอใจ
- โดยพื้นฐานคือแนวทางแบบ Ralph Wiggum Loop
Codex ใช้เครื่องมือพัฒนามาตรฐานโดยตรง เช่น gh, local scripts และ skills ที่ฝังอยู่ใน repository เพื่อรวบรวม context
มนุษย์ยังสามารถรีวิว pull request ได้ แต่ไม่ใช่สิ่งจำเป็น และเมื่อเวลาผ่านไป งานรีวิวเกือบทั้งหมดถูกเปลี่ยนเป็นการ ให้เอเจนต์รีวิวกันเอง

เพิ่มความสามารถในการอ่านแอปพลิเคชัน

เมื่อ throughput ของโค้ดเพิ่มขึ้น ก็เกิดคอขวดที่ ความสามารถด้าน QA ของมนุษย์
เนื่องจากเวลาและความสนใจของมนุษย์เป็นข้อจำกัดตายตัว ทีมจึงเพิ่มความสามารถให้เอเจนต์โดยทำให้ Codex อ่านและเข้าใจ UI ของแอป, logs, app metrics ฯลฯ ได้โดยตรง
ด้วยความสามารถ บูตแอปแยกตาม git worktree ทำให้ Codex รันและควบคุมอินสแตนซ์แยกสำหรับแต่ละชุดการเปลี่ยนแปลงได้
เชื่อม Chrome DevTools Protocol เข้ากับ agent runtime และสร้าง skills สำหรับ DOM snapshot, screenshots และงานนำทาง
- ทำให้ Codex สามารถ reproduce บั๊ก, ตรวจยืนยันการแก้ไข และให้เหตุผลเกี่ยวกับพฤติกรรมของ UI ได้โดยตรง
tooling ด้าน observability ก็ใช้แนวทางเดียวกัน
- logs, metrics และ traces ถูกเปิดให้ Codex ใช้ผ่าน local observability stack ที่อยู่ชั่วคราวสำหรับแต่ละ worktree
- เมื่องานเสร็จ logs และ metrics จะถูกลบ
- เอเจนต์สามารถ query logs ด้วย LogQL และ query metrics ด้วย PromQL
เมื่อมี context เหล่านี้ ก็จะจัดการ prompt อย่างเช่นให้ "service start เสร็จภายใน 800ms" หรือ "ไม่มี span ใดใน 4 user journey หลักเกิน 2 วินาที" ได้ง่ายขึ้น
Codex หนึ่งครั้งสามารถทำงานเรื่องเดียวต่อเนื่องได้นานกว่า 6 ชั่วโมง (บ่อยครั้งระหว่างที่มนุษย์กำลังนอน)

ใช้ความรู้ใน repository เป็นระบบบันทึก

การจัดการ context เป็นหนึ่งใน ความท้าทายใหญ่ที่สุด ที่ทำให้เอเจนต์ทำงานขนาดใหญ่และซับซ้อนได้อย่างมีประสิทธิภาพ
บทเรียนช่วงแรกคือ ต้อง ให้แผนที่กับ Codex ไม่ใช่คู่มือ 1,000 หน้า
พวกเขาเคยลองแนวทาง "AGENTS.md ไฟล์ใหญ่ไฟล์เดียว" แล้วล้มเหลวอย่างคาดเดาได้
- context เป็นทรัพยากรที่มีจำกัด: ไฟล์คำสั่งขนาดใหญ่ทำให้งาน, โค้ด และเอกสารที่เกี่ยวข้องซับซ้อนขึ้น จนเอเจนต์พลาดข้อจำกัดสำคัญหรือไป optimize กับข้อจำกัดที่ผิด
- ถ้าคำสั่งมีมากเกินไป มันก็ไม่ใช่คำสั่งอีกต่อไป: เมื่อทุกอย่าง "สำคัญ" ก็ไม่มีอะไรสำคัญ เอเจนต์จะทำ local pattern matching แทนการสำรวจอย่างมีเจตนา
- พังอย่างรวดเร็ว: คู่มือใหญ่แบบเหมารวมจะกลายเป็นสุสานของกฎที่ล้าสมัย และเอเจนต์ไม่สามารถตัดสินได้ว่าอะไรยังใช้ได้อยู่
- ตรวจสอบได้ยาก: blob เดียวไม่เหมาะกับการตรวจเชิงกล (coverage, freshness, ownership, cross-linking) ทำให้ drift เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้
วิธีแก้คือมอง AGENTS.md เป็น สารบัญ ไม่ใช่สารานุกรม
ฐานความรู้ของ repository ถูกจัดการเป็น ระบบบันทึก ในไดเรกทอรี docs/ ที่มีโครงสร้าง
AGENTS.md แบบสั้น (ประมาณ 100 บรรทัด) จะถูกใส่เข้า context เพื่อทำหน้าที่เป็นแผนที่และชี้ไปยังแหล่งข้อมูลที่ลึกกว่าและเชื่อถือได้กว่า
เอกสารการออกแบบถูกจัดหมวดหมู่และทำดัชนี โดยมีความเชื่อหลักที่กำหนดสถานะการตรวจสอบและหลักการดำเนินงานแบบ agent-first
เอกสารสถาปัตยกรรม ทำหน้าที่เป็นแผนที่ระดับบนสุดของโดเมนและการแบ่งชั้นของแพ็กเกจ
เอกสารคุณภาพ ให้คะแนนแต่ละ product domain และ architecture layer พร้อมติดตามช่องว่างตามเวลา
แผนงานถูกมองเป็น artifact ชั้นหนึ่ง
- แผนชั่วคราวและเรียบง่ายใช้กับการเปลี่ยนแปลงเล็ก ๆ
- งานที่ซับซ้อนจะถูกใส่ไว้ใน execution plan พร้อมความคืบหน้าและ decision log แล้วบันทึกไว้ใน repository
- ทั้งแผนที่กำลังทำ แผนที่เสร็จแล้ว และหนี้ทางเทคนิคที่ทราบอยู่ จะถูกทำ version และวางไว้ในที่เดียวกัน
แนวทางนี้ทำให้เกิด progressive disclosure: เอเจนต์เริ่มจากจุดเข้าใช้งานที่เล็กและเสถียรโดยไม่ต้องรับภาระมากเกินไปตั้งแต่แรก แล้วค่อยไปขั้นถัดไป
การบังคับใช้แบบเชิงกล: linter เฉพาะทางและงาน CI จะตรวจสอบว่าฐานความรู้ยังเป็นปัจจุบัน, เชื่อมโยงข้ามกันครบ และจัดโครงสร้างถูกต้อง
มี เอเจนต์ "doc-gardening" ที่รันซ้ำเป็นประจำ คอยตรวจเอกสารที่เก่าหรือไม่ถูกต้อง แล้วเปิด pull request เพื่อแก้ไข

เป้าหมายคือให้เอเจนต์อ่านง่าย

เพราะ repository นี้ถูกสร้างโดยเอเจนต์ทั้งหมด จึงถูกปรับให้เหมาะกับ ความสามารถในการอ่านของ Codex เป็นอันดับแรก
เป้าหมายของวิศวกรมนุษย์คือทำให้เอเจนต์สามารถให้เหตุผลเกี่ยวกับ business domain ทั้งหมดได้ จากใน repository เองโดยตรง
จากมุมมองของเอเจนต์ สิ่งที่เข้าถึงไม่ได้ใน context ระหว่างรัน ก็แทบเท่ากับไม่มีอยู่จริง
- ความรู้ใน Google Docs, เธรดแชต หรือในหัวของผู้คน เป็นสิ่งที่ระบบเข้าถึงไม่ได้
- เข้าถึงได้เฉพาะ artifact ที่มีการจัดการเวอร์ชัน ใน repository (โค้ด, markdown, schema, execution plans)
แม้รูปแบบสถาปัตยกรรมจะถูกตกลงกันใน Slack แต่ถ้าเอเจนต์ค้นหาไม่เจอ มันก็อ่านไม่ออก
การให้ context กับ Codex มากขึ้นไม่ได้หมายถึงเพิ่มคำสั่งชั่วคราว แต่คือ จัดระเบียบและเปิดเผยข้อมูลที่ถูกต้องเพื่อให้เอเจนต์ใช้เหตุผลได้
เมื่อนำเสนอข้อมูลแก่เอเจนต์เหมือนการ onboarding สมาชิกทีมใหม่ ไม่ว่าจะเป็น product principles, engineering norms หรือ team culture (รวมถึงความชอบเรื่องอีโมจิ) ก็จะได้ผลลัพธ์ที่ดีกว่า
พวกเขาเลือกใช้ dependencies และ abstractions ที่สามารถ internalize ได้ทั้งหมดและให้เหตุผลได้จากภายใน repository
เทคโนโลยีที่ "น่าเบื่อ" มักถูกเอเจนต์สร้างแบบจำลองได้ง่ายกว่า เพราะมีการ coupling, API stability และการนำเสนอใน training set ที่ดีกว่า
ในบางกรณี การให้เอเจนต์ เขียนฟังก์ชันบางส่วนขึ้นใหม่เอง อาจถูกกว่าการพึ่งพาพฤติกรรม upstream ที่มืดทึบของ public library
- ตัวอย่างเช่น สร้าง helper สำหรับ map-with-concurrency เองแทนแพ็กเกจสไตล์ p-limit แบบทั่วไป เพื่อให้ผสานกับ OpenTelemetry instrumentation ได้แน่นแฟ้น มี test coverage 100% และทำงานตรงตามที่ runtime คาดหวัง
ยิ่งดึงระบบให้อยู่ในรูปที่เอเจนต์ตรวจสอบ, ยืนยัน และแก้ไขได้โดยตรงมากเท่าไร ก็ยิ่งเพิ่ม leverage ไม่เฉพาะกับ Codex แต่รวมถึงเอเจนต์อื่น ๆ (เช่น Aardvark) ด้วย

บังคับใช้สถาปัตยกรรมและรสนิยม

แค่เอกสารอย่างเดียวไม่พอที่จะทำให้ codebase ที่เอเจนต์สร้างขึ้นคงความสอดคล้องอย่างสมบูรณ์
พวกเขาจึงทำให้ฐานแข็งแรงและออกของได้เร็วด้วยการ บังคับใช้ invariant โดยไม่ไปควบคุมรายละเอียดการ implement
- ตัวอย่างเช่น ต้องการให้ Codex parse รูปแบบข้อมูลตรง boundary แต่ไม่ได้ระบุวิธีที่ตายตัว (แม้โมเดลจะมีแนวโน้มชอบ Zod)
เอเจนต์ทำงานได้ดีที่สุดในสภาพแวดล้อมที่มี ขอบเขตเข้มงวดและโครงสร้างที่คาดเดาได้
แอปพลิเคชันถูกสร้างบนโมเดลสถาปัตยกรรมที่เข้มงวด
- แต่ละ business domain ถูกแยกเป็น ชุดชั้นคงที่ โดยมีการตรวจสอบทิศทางของ dependency อย่างเข้มงวดและมีชุด edge ที่อนุญาตอย่างจำกัด
- โค้ดไหลตามลำดับ Types → Config → Repo → Service → Runtime → UI
- ประเด็น cross-cutting (authentication, connectors, telemetry, feature flags) จะเข้ามาผ่านอินเทอร์เฟซที่ชัดเจนเพียงตัวเดียวชื่อ Providers
- นอกเหนือจากนี้จะไม่อนุญาต และถูกบังคับใช้ด้วยกลไกอัตโนมัติ
ข้อจำกัดเหล่านี้ถูกบังคับใช้ผ่าน linter แบบกำหนดเองและ structural tests ที่ Codex สร้างขึ้น
สถาปัตยกรรมระดับนี้มักถูกเลื่อนไปทำเมื่อองค์กรมีวิศวกรหลายร้อยคน แต่สำหรับ coding agent นี่คือ เงื่อนไขตั้งต้นตั้งแต่แรก
custom lint ถูกใช้บังคับใช้ structured logging, naming conventions ของ schema และ type, ขนาดไฟล์สูงสุด และข้อกำหนดด้านความเสถียรตามแพลตฟอร์มแบบ static
- เพราะ lint ถูกทำขึ้นเอง จึงสามารถเขียนข้อความ error เพื่อ ใส่คำแนะนำการแก้ไขเข้าไปใน context ของเอเจนต์ ได้
ใน workflow ที่มนุษย์เป็นศูนย์กลาง กฎเหล่านี้อาจดูละเอียดหรือจำกัดเกินไป แต่เมื่อใช้กับเอเจนต์ ผลลัพธ์จะทวีคูณหลายเท่า
ข้อจำกัดเหล่านี้ช่วยแยกให้ชัดว่าอะไรสำคัญและอะไรไม่สำคัญ
- คล้ายกับการบริหารองค์กรแพลตฟอร์มวิศวกรรมขนาดใหญ่: กำหนดขอบเขตจากส่วนกลาง แต่เปิดให้มีอิสระในระดับท้องถิ่น
โค้ดที่ได้อาจไม่ตรงกับรสนิยมด้านสไตล์ของมนุษย์เสมอไป แต่ถ้าผลลัพธ์ถูกต้อง ดูแลรักษาได้ และอ่านง่ายเวลาเอเจนต์รัน ก็ถือว่าผ่านเกณฑ์
รสนิยมของมนุษย์จะถูกป้อนกลับเข้าสู่ระบบอย่างต่อเนื่อง
- review comments, refactoring PR และบั๊กฝั่งผู้ใช้ จะถูกบันทึกเป็นการอัปเดตเอกสารหรือ encode ลงใน tooling โดยตรง
- หากเอกสารไม่เพียงพอ ก็จะ ยกระดับกฎให้กลายเป็นโค้ด

ปรัชญาการ merge ที่เปลี่ยนไป

เมื่อ throughput ของ Codex เพิ่มขึ้น บรรทัดฐานทางวิศวกรรมแบบเดิมกลับให้ผลตรงกันข้าม
repository นี้ทำงานด้วย merge gate ที่บล็อกให้น้อยที่สุด
pull request มีอายุสั้น และปัญหาความไม่เสถียรของการทดสอบจะถูก ตามแก้ในรอบถัดไป แทนที่จะขัดขวางความคืบหน้าอย่างไม่มีกำหนด
ในระบบที่ throughput ของเอเจนต์สูงเกินกว่าความสนใจของมนุษย์มาก ต้นทุนการแก้ไขนั้นถูก แต่ latency แพง
แนวทางนี้อาจไม่เหมาะกับสภาพแวดล้อมที่มี throughput ต่ำกว่า และจำเป็นต้องหาจุดสมดุลที่เหมาะสม

ขอบเขตที่แท้จริงของคำว่า "agent-generated"

เมื่อบอกว่า codebase นี้สร้างโดยเอเจนต์ Codex นั่นหมายถึง ทุกอย่าง ใน codebase
- product code และ tests
- การตั้งค่า CI และ release tooling
- internal developer tools
- เอกสารและประวัติการออกแบบ
- evaluation harness
- review comments และการตอบกลับ
- scripts ที่ใช้ดูแล repository เอง
- ไฟล์นิยาม production dashboard
มนุษย์ยังอยู่ในลูปเสมอ แต่ทำงานอยู่บน ชั้น abstraction ที่ต่างจากเดิม
- จัดลำดับความสำคัญของงาน, แปลง feedback จากผู้ใช้เป็น acceptance criteria และตรวจสอบผลลัพธ์
เมื่อเอเจนต์ติดขัด พวกเขาจะมองว่านั่นเป็นสัญญาณให้หาว่าเครื่องมือ, guardrails หรือเอกสารอะไรที่ยังขาด และจะ ให้ Codex เขียนการแก้ไขนั้นเองเสมอ ก่อนนำกลับเข้า repository
เอเจนต์สามารถดึง feedback จากการรีวิว, ตอบกลับแบบ inline, push อัปเดต และแม้กระทั่ง squash และ merge pull request ของตัวเองได้

ระดับความเป็นอิสระที่เพิ่มขึ้น

เมื่อมีการ encode development loop มากขึ้นลงในระบบโดยตรง ทั้งการทดสอบ, การยืนยันผล, การรีวิว, การจัดการ feedback และการกู้คืน จึงมาถึง จุดวิกฤตสำคัญ
สิ่งที่เอเจนต์ทำได้จาก prompt เดียวมีดังนี้:
- ตรวจสอบสถานะปัจจุบันของ codebase
- reproduce บั๊กที่มีรายงาน
- บันทึกวิดีโอ แสดงสถานการณ์ที่ล้มเหลว
- implement การแก้ไข
- รันแอปพลิเคชันเพื่อตรวจยืนยันการแก้ไข
- บันทึกวิดีโอชุดที่สองเพื่อแสดงวิธีแก้
- เปิด pull request
- ตอบ feedback จากทั้งเอเจนต์และมนุษย์
- ตรวจจับและแก้ build failure
- escalate ไปหามนุษย์เฉพาะเมื่อจำเป็นต้องใช้การตัดสินใจ
- merge การเปลี่ยนแปลง
ความสามารถเหล่านี้ขึ้นอยู่กับโครงสร้างและ tooling ของ repository นี้โดยเฉพาะอย่างมาก และไม่ควรสมมติว่าสามารถ generalized ได้หากไม่มีการลงทุนแบบเดียวกัน

Entropy และ garbage collection

ความเป็นอิสระเต็มรูปแบบของเอเจนต์ก่อให้เกิดปัญหาใหม่: Codex จะทำซ้ำรูปแบบที่มีอยู่ใน repository (รวมถึงรูปแบบที่ไม่สม่ำเสมอหรือยังไม่เหมาะสม) ทำให้เกิด drift อย่างหลีกเลี่ยงไม่ได้เมื่อเวลาผ่านไป
ในช่วงแรกมนุษย์รับมือด้วยมือ โดยใช้เวลาทุกวันศุกร์ (20% ของสัปดาห์) ไปกับการเก็บกวาด "AI slop"
- และตามคาด มันไม่สามารถขยายได้
ทางเลือกที่ใช้คือ encode "กฎทอง" ลงใน repository โดยตรง และสร้างกระบวนการทำความสะอาดเป็นประจำ
- (1) เพื่อรวมศูนย์ invariant ให้เลือกใช้ shared utility package มากกว่า helper ที่เขียนเองกระจัดกระจาย
- (2) อย่าสำรวจข้อมูลแบบ "YOLO-style" แต่ให้ตรวจสอบ boundary หรือพึ่งพา SDK ที่มีการกำหนด type เพื่อไม่ให้เอเจนต์ไปสร้างของผิดจากรูปแบบที่เดาเอา
พวกเขารัน background jobs ของ Codex เพื่อตรวจความเบี่ยงเบน อัปเดตคะแนนคุณภาพ และสร้าง PR สำหรับ refactor เฉพาะจุดเป็นประจำ
- ส่วนใหญ่รีวิวได้ภายใน 1 นาที และ merge อัตโนมัติ
วิธีนี้ทำงานเหมือน garbage collection: หนี้เทคนิคก็เหมือนเงินกู้ดอกเบี้ยสูง ควรทยอยจ่ายน้อย ๆ อย่างสม่ำเสมอก่อนที่ดอกเบี้ยจะพอกพูน
เมื่อจับรสนิยมของมนุษย์ได้แล้ว ก็สะท้อนไปยังทุกบรรทัดของโค้ดอย่างต่อเนื่อง และจับพร้อมแก้ pattern ที่ไม่ดีทุกวัน ไม่ปล่อยให้แพร่กระจายเป็นวันหรือเป็นสัปดาห์

สิ่งที่กำลังเรียนรู้ในตอนนี้และโจทย์ถัดไป

กลยุทธ์นี้ใช้ได้ผลดีภายใน OpenAI จนถึงระดับการเปิดใช้งานภายในและการนำไปใช้จริง
เป็นการยึดโยงการลงทุนเข้ากับความจริงด้วยการสร้างผลิตภัณฑ์จริงสำหรับผู้ใช้จริง และทำให้ดูแลรักษาได้ในระยะยาว
สิ่งที่ยังไม่รู้คือ ในระบบที่สร้างโดยเอเจนต์อย่างเต็มรูปแบบ ความสอดคล้องของสถาปัตยกรรมจะวิวัฒน์อย่างไรในช่วงหลายปี
พวกเขายังอยู่ระหว่างเรียนรู้ว่าจุดไหนที่การตัดสินใจของมนุษย์สร้างอิทธิพลได้มากที่สุด และจะ encode การตัดสินใจนั้นเพื่อนำไปใช้แบบทบต้นได้อย่างไร
เมื่อความสามารถของโมเดลดีขึ้นอย่างต่อเนื่อง ทิศทางการพัฒนาของระบบนี้ก็ยังเป็นสิ่งที่ไม่แน่นอน
การสร้างซอฟต์แวร์ยังคงต้องมี วินัย แต่ตอนนี้วินัยนั้นแสดงออกผ่าน scaffolding มากกว่าตัวโค้ด
tooling, abstractions และ feedback loops ที่ช่วยรักษาความสอดคล้องของ codebase กำลังมีความสำคัญมากขึ้นเรื่อย ๆ
ความท้าทายที่ยากที่สุดในตอนนี้คือการออกแบบสภาพแวดล้อม, feedback loops และ control systems ที่ช่วยให้เอเจนต์ สร้างและดูแลซอฟต์แวร์ที่ซับซ้อนและเสถียรในระดับใหญ่ ได้

1 ความคิดเห็น

ragingwind 2026-03-13

40 วัน, 1 ล้านบรรทัด, 1.3 หมื่นล้านโทเค็น — สิ่งที่ ชินจองกยู CEO ของ Lablup ค้นพบเกี่ยวกับความเป็นจริงของเวิร์กโฟลว์แบบเอเจนติก - Silicon Valley ของ Park Jaehong - https://wikidocs.net/blog/@jaehong/8206/