วิศวกรรมฮาร์เนส: ยุคที่การออกแบบสภาพแวดล้อมการทำงานสำคัญกว่าตัวโมเดล

(addyosmani.com)

46 คะแนน โดย ragingwind 1 일 전 | 10 ความคิดเห็น | แชร์ทาง WhatsApp

นี่คือบทวิเคราะห์เกี่ยวกับ “วิศวกรรมฮาร์เนส (Harness Engineering)” ที่ Addy Osmani สรุปไว้ เขาวินิจฉัยว่าตลอด 2 ปีที่ผ่านมา ความสนใจของอุตสาหกรรมพุ่งไปที่คำถามว่า “โมเดล AI ตัวไหนฉลาดกว่า” เพียงอย่างเดียว มีการเปรียบเทียบกันไม่รู้จบว่า GPT เขียนโค้ดได้สะอาดกว่าหรือไม่ หรือ Claude มีอาการหลอนน้อยกว่าหรือเปล่า แต่ข้อโต้แย้งของเขาคือ ผลลัพธ์ของ AI สำหรับการเขียนโค้ดในโลกจริงนั้นไม่ได้ถูกกำหนดโดยตัวโมเดลเพียงอย่างเดียว หากแต่ถูกกำหนดโดยฮาร์เนสที่ล้อมรอบโมเดลนั้นเสียมากกว่า คำว่าฮาร์เนสหมายถึงทุกอย่างยกเว้นตัวโมเดล ครอบคลุมทั้ง system prompt ที่ใช้สั่งงาน AI, เครื่องมือและเซิร์ฟเวอร์ภายนอกที่ใช้งานได้, นโยบายการจัดการคอนเท็กซ์, อุปกรณ์ตรวจสอบที่แทรกเข้ามาอัตโนมัติระหว่างการทำงาน (hook), พื้นที่รันที่ปลอดภัย (sandbox), AI ผู้ช่วย (sub-agent), วงจรป้อนกลับ (feedback loop) ไปจนถึงกระบวนการกู้คืนเมื่อการทำงานติดขัด Viv Trivedy ได้ทำให้แนวคิดนี้เป็นทางการด้วยประโยคสั้น ๆ ว่า “AI agent = model + harness” และคนอย่างทีมวิศวกรรมของ Anthropic, HumanLayer, และ Simon Willison ก็กำลังขัดเกลาแนวทางนี้ให้ประณีตยิ่งขึ้น Osmani มองว่ากระแสนี้ได้ตั้งหลักเป็นสาขาวิศวกรรมแขนงหนึ่งแล้ว

เมื่อคลี่ประเด็นสำคัญออกมา จะได้ดังนี้

ฮาร์เนสคืออะไร AI ไม่อาจกลายเป็นระบบที่ทำงานให้เสร็จได้ด้วยโมเดลเพียงอย่างเดียว ต้องมีทั้งโค้ดและการตั้งค่าที่ช่วยให้มันจำความคืบหน้าได้, เรียกใช้เครื่องมือได้, ดูผลลัพธ์แล้วตัดสินใจใหม่ได้, และป้องกันสิ่งที่ไม่ควรทำได้ จึงจะกลายเป็น “AI ที่ทำงานเป็น” ได้ ผลิตภัณฑ์อย่าง Claude Code, Cursor, Codex, Aider, และ Cline ล้วนเป็นฮาร์เนส และแม้จะใช้โมเดลเดียวกัน พฤติกรรมที่ผู้ใช้สัมผัสได้ก็ยังขึ้นอยู่กับฮาร์เนส Simon Willison อธิบายว่า AI agent คือ “ระบบที่เรียกใช้เครื่องมือซ้ำ ๆ เพื่อให้บรรลุเป้าหมาย” และแก่นของความสามารถก็คือการออกแบบเครื่องมือและโครงสร้างการทำซ้ำเหล่านั้นอย่างไร
มุมมองที่ว่าไม่ใช่ความผิดของโมเดล แต่เป็นความผิดของการตั้งค่า เมื่อ AI ทำสิ่งแปลก ๆ วิศวกรมักโทษโมเดลและสรุปว่า “รอเวอร์ชันถัดไปเถอะ” แต่วิศวกรรมฮาร์เนสปฏิเสธปฏิกิริยาแบบนี้ หากยืมคำของ HumanLayer มาก็คือ “นี่ไม่ใช่ปัญหาของโมเดล แต่เป็นปัญหาของการตั้งค่า (skill issue)” แม้จะใช้ Claude Opus 4.6 โมเดลเดียวกัน ถ้าอยู่ในฮาร์เนสมาตรฐานอย่าง Claude Code ก็อาจอยู่แถวล่างของ Terminal Bench 2.0 แต่เมื่อย้ายไปใช้ฮาร์เนสที่ปรับแต่งเอง กลับกระโดดขึ้นไปอยู่หัวตารางได้ ทีมของ Viv ก็เคยยกระดับโมเดลเดียวกันจากประมาณอันดับ 30 ขึ้นมาเป็นระดับท็อป 5 ได้เพียงแค่เปลี่ยนฮาร์เนส นั่นหมายความว่าศักยภาพของโมเดลมักถูกฮาร์เนสลดทอนอยู่ไม่น้อย
หลักการ “ratchet” ที่เปลี่ยนความผิดพลาดให้กลายเป็นกฎถาวร ถ้า AI เคยทำผิดพลาดแม้เพียงครั้งเดียว ก็ไม่ควรมองว่าเป็นอุบัติเหตุแบบสุ่ม แต่ควรมองว่าเป็นสัญญาณถาวร แล้วค่อย ๆ ขันให้แน่นขึ้นทีละขั้นเพื่อไม่ให้ความผิดพลาดแบบเดิมเกิดขึ้นอีก เช่น เพิ่มบรรทัดหนึ่งในเอกสารกฎ, ใส่กลไกบล็อกอัตโนมัติ, หรือเพิ่ม AI ผู้ช่วยที่คอยตรวจทาน ตัวอย่างเช่น หาก AI เคยคอมเมนต์ทิ้งโค้ดทดสอบ ในเอกสารกฎเวอร์ชันถัดไปก็ควรมีบรรทัดว่า “ห้ามคอมเมนต์ทิ้งเทสต์ ให้ลบหรือแก้ไขแทน” และในขั้นตอนตรวจสอบก่อน commit ก็ควรมีตัวตรวจจับแพตเทิร์นแบบนั้นเพิ่มเข้ามา แก่นสำคัญคือ ทุกบรรทัดของเอกสารกฎที่ดีต้องโยงกลับไปยังความล้มเหลวเฉพาะเจาะจงที่เคยเกิดขึ้นจริง ดังนั้นวิศวกรรมฮาร์เนสจึงไม่ใช่การหยิบเฟรมเวิร์กที่ใครทำไว้มาใช้ทั้งดุ้น แต่ใกล้เคียงกับ “วินัย” ที่ค่อย ๆ เติบโตตามประวัติความล้มเหลวของโค้ดเบสตนเองมากกว่า
ออกแบบย้อนกลับจากพฤติกรรมที่ต้องการ วิธีคิดที่มีประโยชน์ที่สุดอย่างหนึ่งที่ Viv เสนอคือ ออกแบบย้อนกลับในลำดับ “เราต้องการพฤติกรรมแบบนี้ → ชิ้นส่วนฮาร์เนสใดที่ทำให้พฤติกรรมนั้นเกิดขึ้นได้” ถ้าไม่สามารถอธิบายได้ในหนึ่งบรรทัดว่าชิ้นส่วนใดมีไว้เพื่อพฤติกรรมอะไร ก็ควรถอดมันออกจะดีกว่า เมื่อลงรายละเอียด ระบบไฟล์และ Git มีไว้เพื่อเก็บรักษางานและย้อนกลับได้ในระยะยาว, bash และการรันโค้ดคือเครื่องมืออเนกประสงค์สำหรับลองทำทุกอย่าง, sandbox คือพื้นที่รันที่ปลอดภัยซึ่งต่อให้พังก็ไม่กระทบตัวระบบหลัก, ไฟล์หน่วยความจำรวมถึงเว็บเสิร์ชและเครื่องมือ MCP คือช่องทางสะสมความรู้ใหม่, การบีบอัดด้วยสรุปและการแยกผลลัพธ์จากเครื่องมือรวมถึงฟังก์ชัน skill คือกลไกขยายข้อจำกัดด้านความจำของ AI, และ Ralph loop กับสถาปัตยกรรมแยก planner / evaluator คือวิธีพางานยาวหลายวันไปจนจบ
ปัญหา context rot AI มีข้อจำกัดเรื่องปริมาณข้อความที่อ่านได้ในครั้งเดียว และยิ่งเข้าใกล้ขีดจำกัดนั้น ความสามารถในการตัดสินใจก็ยิ่งลดลงอย่างเห็นได้ชัด เพราะฉะนั้นฮาร์เนสจึงเป็นชุดกลไกสำหรับใช้พื้นที่จำกัดนี้ให้คุ้มค่าที่สุดด้วย ประการแรก เมื่อใกล้เต็มขีดจำกัด ก็ต้องสรุปและบีบอัดเนื้อหาเก่าอย่างชาญฉลาด ประการที่สอง สำหรับผลลัพธ์ขนาดใหญ่ เช่น log ยาว 2,000 บรรทัด ให้เก็บไว้เฉพาะหัวกับท้าย แล้วแยกเนื้อหากลางไปไว้ในไฟล์เพื่อค่อยอ่านกลับมาเมื่อจำเป็น ประการที่สาม อย่าแสดงเครื่องมือและคำสั่งทั้งหมดตั้งแต่แรก แต่ใช้วิธี “เปิดเผยแบบค่อยเป็นค่อยไป” โดยแสดงเฉพาะตอนที่งานนั้นจำเป็นจริง ๆ สำหรับงานที่ยาวมาก บางครั้งก็ต้องเริ่มใหม่ในหน้าต่างใหม่โดยถือเอกสารส่งต่องานที่จัดโครงสร้างไว้ Anthropic ชี้ว่า “สำหรับงานยาว การบีบอัดด้วยสรุปอย่างเดียวไม่พอ และอาจมีช่วงที่ต้องเริ่มใหม่ด้วยเอกสารส่งต่องานแบบมีโครงสร้าง” ซึ่งก็คล้ายกับเวลาคนส่งต่องานให้พนักงานใหม่พร้อมเอกสารที่จัดไว้ดีแล้ว
แพตเทิร์นสำหรับพางานยาวไปต่อ จุดอ่อนอย่างหนึ่งของโมเดลในปัจจุบันคือชอบจบงานเร็วเกินไป, ไม่เก่งในการแตกปัญหาใหญ่ให้เป็นส่วนย่อย, และเมื่อหน้าต่างคอนเท็กซ์เปลี่ยน การไหลของงานก็มักขาดตอน ฮาร์เนสจึงต้องเข้ามาชดเชยจุดอ่อนนี้ Ralph loop เป็นเทคนิคเรียบง่ายที่ hook จะคอยดักทุกครั้งที่โมเดลพยายามจบงาน แล้วฉีดเป้าหมายเดิมกลับเข้าไปในหน้าต่างคอนเท็กซ์ใหม่เพื่อให้ทำงานต่อได้ แต่ละรอบเริ่มจากสถานะสะอาด ทว่าผลลัพธ์ของรอบก่อนยังส่งต่อกันผ่านระบบไฟล์ ขณะเดียวกัน Anthropic เน้นว่าควรแยก “ผู้สร้าง” กับ “ผู้ประเมิน” ออกเป็น AI คนละตัว เพราะถ้าให้ AI ประเมินผลงานของตัวเอง มันมักให้คะแนนตัวเองสูงเกินจริง นอกจากนี้ยังมีแพตเทิร์น “sprint contract” ที่ตกลงกันล่วงหน้าตั้งแต่ก่อนเริ่มงานว่า “เสร็จ” หมายถึงสถานะใด เพื่อกันไม่ให้เป้าหมายค่อย ๆ บวมระหว่างทาง
บทบาทของ hook “บอก AI ไว้ว่าให้ทำแบบนั้น” กับ “ให้ระบบบังคับให้ทำแบบนั้น” เป็นคนละเรื่องกัน hook คือกลไกอัตโนมัติที่เข้ามาอุดช่องว่างนี้ โดยจะแทรกตัวทำงานในจังหวะอย่างก่อนใช้เครื่องมือ, หลังแก้ไฟล์, ก่อน commit, หรือเมื่อเริ่ม session เช่น รัน syntax check, lint, และ test อัตโนมัติทุกครั้งที่มีการแก้โค้ด, บล็อกคำสั่งเสี่ยงอย่าง rm -rf หรือ git push --force, หรือบังคับให้ขออนุมัติจากมนุษย์ก่อนเปิด PR หลักการคือ “สำเร็จให้เงียบ ล้มเหลวให้ดัง” ถ้าการตรวจผ่าน AI จะไม่ได้ยินอะไรเลย แต่ถ้าล้มเหลว ข้อความ error จะถูกฉีดกลับเข้าไปในโฟลว์ทันทีเพื่อให้มันแก้เองได้ เป็นโครงสร้างที่แทบไม่มีต้นทุนในเวลาปกติ แต่ช่วยได้ตรงจุดเมื่อเกิดปัญหาจริง
เอกสารกฎและการเลือกเครื่องมือควรสั้นและชัดเจน AGENTS.md ที่วางไว้ใน root ของโปรเจกต์คือไฟล์ตั้งค่าที่ทรงอิทธิพลที่สุด เพราะมันจะถูกใส่เข้าไปใน system prompt ทุกเทิร์น HumanLayer แนะนำให้คงเอกสารนี้ไว้ไม่เกิน 60 บรรทัด ยิ่งยาว น้ำหนักของแต่ละบรรทัดยิ่งจางลง จึงไม่ควรใช้เป็นคู่มือบอกสไตล์ทั่วไป แต่ควรเหลือไว้เฉพาะสิ่งจำเป็นจริง ๆ เหมือนเช็กลิสต์ของนักบิน เช่นเดียวกับเครื่องมือ ชื่อ คำอธิบาย และสคีมาจะถูกฝังเข้าไปในพรอมป์ต์ทุกครั้งที่ร้องขอ ดังนั้นเครื่องมือที่ขัดเกลาดี 10 ตัวจึงดีกว่าเครื่องมือคล้าย ๆ กัน 50 ตัว HumanLayer ยังชี้ประเด็นด้านความปลอดภัยด้วย เพราะคำอธิบายของเครื่องมือก็คือข้อความที่ AI จะอ่าน การต่อ MCP server ภายนอกที่ยังไม่ผ่านการตรวจสอบ จึงอาจกลายเป็นช่องทางให้ใครบางคนแอบฉีดคำสั่งที่เขียนไว้ล่วงหน้าเข้าไปใน AI ได้

ส่วนที่นับเป็นข้อดีได้มีดังนี้

ชี้ชัดว่าควรลงแรงตรงไหน ข้อมูล benchmark แสดงให้เห็นว่าต่อให้ไม่เปลี่ยนโมเดล ก็ยังยกระดับพฤติกรรมได้มากผ่านฮาร์เนส นั่นหมายความว่าแทนที่จะหวังลอย ๆ ว่า “รอโมเดลตัวถัดไป” ก็มีพื้นที่เฉพาะเจาะจงที่ลงมือปรับได้ทันที
เป็นโครงสร้างที่สะสมความรู้ได้ วิธีแบบ ratchet ที่เปลี่ยนความผิดพลาดให้เป็นกฎ ทำให้บทเรียนที่เคยเจอครั้งหนึ่งกลายเป็นทรัพย์สินของทีม แม้คนจะเปลี่ยน เอกสารกฎและ hook ก็ยังอยู่เพื่อปกป้องคนถัดไป
การเกิดขึ้นของฮาร์เนสสำเร็จรูป (HaaS) กระแสที่ Viv เรียกว่า “Harness-as-a-Service” กำลังตั้งหลักอย่างรวดเร็ว ผลิตภัณฑ์อย่าง Claude Agent SDK, Codex SDK, และ OpenAI Agents SDK เริ่มรวมทั้ง work loop, เครื่องมือ, การจัดการคอนเท็กซ์, hook, และ sandbox ไว้ให้ล่วงหน้า ทำให้ไม่ต้องสร้างทุกอย่างเองตั้งแต่ต้น และหันไปโฟกัสที่ความรู้เฉพาะโดเมนของตัวเองได้

แต่ก็มีส่วนที่น่าหนักใจอยู่เช่นกัน

ขอบเขตที่ต้องดูแลกว้างมาก ทั้งคำสั่ง, เครื่องมือ, พื้นที่รันที่ปลอดภัย, การตรวจสอบอัตโนมัติ, และการสังเกต log ล้วนต้องรับผิดชอบเองทั้งหมด แก่นสำคัญคือมันไม่ใช่พื้นที่ที่ผู้ให้บริการโมเดลจะจัดการให้เอง
ความเสี่ยงจากการจับคู่กันของโมเดลกับฮาร์เนส โมเดลในปัจจุบันถูกฝึกแบบมี post-processing ภายในฮาร์เนสบางแบบ เมื่อนำไปย้ายฮาร์เนส ประสิทธิภาพจึงอาจตกฮวบได้ทันที แค่เปลี่ยนชื่อเครื่องมือหนึ่งชื่อ หรือรูปแบบอาร์กิวเมนต์เพียงแบบเดียว ผลลัพธ์ก็อาจสั่นคลอน โมเดลที่เป็นสากลจริงไม่ควรถูกกระทบจากชื่อเครื่องมือ แต่เพราะมันถูกฝึกร่วมกับโครงสร้างแวดล้อมเฉพาะ จึงเกิดอาการคล้าย overfitting
ความเสี่ยงด้านความปลอดภัยของเครื่องมือภายนอก เนื่องจาก AI อ่านคำอธิบายของ MCP server โดยตรง ทันทีที่เชื่อมต่อเครื่องมือที่ยังไม่ผ่านการตรวจสอบ ข้อความจากภายนอกก็เริ่มมีอิทธิพลต่อ AI ได้ตั้งแต่ก่อนที่ผู้ใช้จะพิมพ์อะไรแม้แต่ตัวเดียว

มุมมองที่ทำให้เรื่องนี้แตกต่างคือ

ถอยห่างจากวาทกรรมที่ยึดโมเดลเป็นศูนย์กลาง แทนที่จะรอ GPT ที่ฉลาดกว่า ก็เสนอแนวทางเชิงวิศวกรรมเพื่อดันขีดจำกัดของโมเดลที่มีอยู่ตอนนี้ให้ไปไกลที่สุด การวินิจฉัยคือ ช่องว่างระหว่างข้อจำกัดของ AI ที่เราเห็นในวันนี้กับความสามารถจริงของโมเดลนั้น ส่วนใหญ่มักเป็น “ช่องว่างของฮาร์เนส”
ฮาร์เนสไม่ได้หายไป แต่ย้ายตำแหน่ง เมื่อโมเดลดีขึ้น ชิ้นส่วนฮาร์เนสบางอย่างก็หมดความจำเป็น ตัวอย่างเช่น Opus 4.6 แทบลบอาการรีบร้อนแบบ “คอนเท็กซ์ใกล้หมดแล้ว ต้องรีบปิดงาน” ที่พบได้บ่อยใน Claude Sonnet 4.5 ไปได้ ทำให้อุปกรณ์ช่วยพยุงความมั่นใจบางอย่างที่เคยใช้กลายเป็น dead code ไปทั้งชุด แต่ในพื้นที่ใหม่ที่โมเดลเข้าไปแตะได้ ก็จะมีจุดอ่อนใหม่เกิดขึ้น และต้องมีฮาร์เนสใหม่เข้ามาอุดช่องว่างนั้นอีก คำของ Anthropic ที่ว่า “ทุกชิ้นส่วนของฮาร์เนสล้วนแฝงสมมติฐานว่ามีอะไรบ้างที่โมเดลยังทำเองไม่ได้” จึงเข้ากันได้ดีมาก
วงจรการเรียนรู้ระหว่างโมเดลกับฮาร์เนส อีกกระแสหนึ่งที่ Viv ชี้คือวงจรป้อนกลับระหว่างการออกแบบฮาร์เนสกับการฝึกโมเดล เมื่อพบแพตเทิร์นที่มีประโยชน์ในฮาร์เนส มันจะถูกทำให้เป็นมาตรฐาน จากนั้นโมเดลรุ่นถัดไปก็ถูกฝึกบนมาตรฐานนั้น และบนโมเดลใหม่ก็จะเกิดแพตเทิร์นฮาร์เนสใหม่อีกครั้ง ดังนั้นข้อสรุปก็คือ “ฮาร์เนสที่ดี” ไม่ใช่ฮาร์เนสที่โมเดลถูกฝึกมาด้วย แต่คือฮาร์เนสที่ถูกนำมาขัดเกลาใหม่ให้เข้ากับงานของตนเอง
อุตสาหกรรมกำลังค่อย ๆ ลู่เข้าหากัน Coding AI อย่าง Claude Code, Cursor, Codex, Aider, และ Cline แม้จะมีโมเดลภายในต่างกัน แต่รูปร่างของฮาร์เนสกลับค่อย ๆ คล้ายกันมากขึ้น ข้อเท็จจริงที่ว่าโมเดลต่างกันแต่ฮาร์เนสเริ่มเหมือนกัน เป็นสัญญาณให้เห็นว่าสาขานี้กำลังลงหลักอยู่ตรงไหน

บทความของ Osmani เสนอภาพว่าความสามารถในการแข่งขันของ coding AI ถูกกำหนดโดยการออกแบบฮาร์เนสรอบ ๆ โมเดลมากกว่าการเลือกโมเดล และฮาร์เนสก็ไม่ใช่ไฟล์ตั้งค่าที่ตั้งครั้งเดียวจบ แต่เป็นระบบมีชีวิตที่อัปเดตต่อเนื่องตามประวัติความล้มเหลว แม้โมเดลจะดีขึ้น ฮาร์เนสก็ไม่ได้หายไป เพียงแต่ระดับของปัญหาที่ต้องรับมือจะขยับสูงขึ้น และฮาร์เนสแบบใหม่จะเข้ามาแทนที่ตรงนั้น ดังคำของ Viv ที่เขาถูกอ้างถึงว่า “การสร้าง agent ที่ดีคือศิลปะแห่งการทำซ้ำ และถ้าไม่มีเวอร์ชันแรก ก็ไม่มีการทำซ้ำเช่นกัน” ซึ่งสื่อว่าท้ายที่สุดแล้วสนามนี้คือการแข่งขันว่าใครเริ่มเร็วและขัดเกลาได้ถี่กว่ากัน สรุปได้ว่า จุดที่วิศวกรควรใช้เวลามากที่สุด ไม่ใช่การสลับเปลี่ยนโมเดลที่กำลังเป็นกระแสไปเรื่อย ๆ แต่คือการปรับแต่งฮาร์เนสให้เหมาะกับงานของตัวเองอย่างต่อเนื่อง เพื่อค่อย ๆ ดันเพดานของสิ่งที่โมเดลทำได้ให้สูงขึ้นทีละขั้น

10 ความคิดเห็น

kimjoin2 1 일 전

รู้สึกเหมือนมีแต่คำศัพท์การตลาดเพิ่มขึ้นเรื่อย ๆ แบบมหาศาลเลยนะ

jimmy2056 22 시간 전

ถ้าโมเดลดี ภาระในการออกแบบฮาร์เนสก็จะลดลงด้วย

akapwhd 1 일 전

ถึงจะเอาพวกนี้มาใช้ก็ดูเหมือนจะไม่ได้ช่วยมากนักเวลาลงมือเขียนโค้ดจริง ๆ... คงเป็นเพราะเป็นงานพัฒนาที่ยากแค่ระดับวางแผน codex แล้วรันเอเจนต์สินะ 555

dongho42 1 일 전

แต่ถ้าพูดในพรอมป์ต์ว่าให้ทำ A และอย่าทำ B แล้วมันเข้าใจได้ดีจริง ๆ วิธีแบบนี้ก็น่าจะใช้ได้ แต่ถ้าการทำตามพรอมป์ต์ของ AI เป็นไปแบบมีความน่าจะเป็นตามสถานะของเซิร์ฟเวอร์ AI วิธีแบบนี้จะยังใช้ได้ผลไหม?

dongho42 1 일 전

เมื่อก่อนแม้จะเขียนในพรอมป์ชัดเจนว่าให้ทำ A แต่ก็ยังมีโอกาสอยู่เรื่อย ๆ ที่มันจะไม่ทำตาม เลยลองสารพัดวิธี ทั้งเน้นด้วยตัวหนาแบบ mrkdwn เขียนซ้ำสองรอบ เขียนเป็นภาษาอังกฤษ เขียนแบบรับต้นส่งท้าย เขียนเป็น xml แต่สุดท้ายมันก็ยังเมินพรอมป์อยู่เป็นระยะ ๆ...

kurthong 1 일 전

ผมก็ยัดทุกอย่างคล้าย ๆ กับที่ Osmani พูดเหมือนกัน
ตอนที่กำลังทำแอปอยู่ แล้วประเด็นนี้ก็โผล่ขึ้นมา เลยรีบพูดหน่อย
Osmani เองก็อย่าพูดอย่างเดียวเลย
ผมว่าถ้าเอาสิ่งที่ตัวเองพูดไปใส่ไว้ใน Google Anti-Gravity ด้วยก็น่าจะดีกว่าไหม
Karpathy ก็เหมือนกัน ตอนนี้เหมือนไม่คิดจะลงมือทำแล้ว เอาแต่โยนบทความออกมานิด ๆ หน่อย ๆ เฉย ๆ แบบนี้ก็ไม่ค่อยไหร่นะ! ครับ

https://github.com/hang-in/tunaFlow

blackfabric 1 일 전

สรุป 3 บรรทัด

ระบบ (harness) สำคัญกว่าตัวโมเดลในการตัดสินความสำเร็จหรือความล้มเหลว: ประสิทธิภาพของ AI ไม่ได้ขึ้นอยู่กับตัวโมเดลอย่าง GPT หรือ Claude เพียงอย่างเดียว แต่ถูกกำหนดโดยการออกแบบสภาพแวดล้อมการทำงานที่ล้อมรอบมัน เช่น พรอมป์ต์ เครื่องมือ แซนด์บ็อกซ์ และลูปฟีดแบ็ก ซึ่งเรียกรวมว่า harness
หลักการ 'Ratchet' ที่เปลี่ยนความผิดพลาดให้กลายเป็นกฎ: ไม่ควรมองความผิดพลาดของ AI เป็นแค่อุบัติเหตุชั่วคราว แต่ต้องสะท้อนกลับเข้าไปในเอกสารกฎ (เช่น AGENTS.md) หรือฮุกทันที เพื่อให้ระบบแข็งแรงขึ้นเรื่อย ๆ ตามกาลเวลา
ปัญหาไม่ได้อยู่ที่ตัวโมเดล แต่อยู่ที่การตั้งค่า (Skill): บ่อยครั้งที่ AI ทำงานได้ไม่ดี ไม่ใช่เพราะสติปัญญาของโมเดลไม่พอ แต่เพราะการออกแบบ harness ไม่ดีพอ และจำเป็นต้องใช้แนวทางเชิงวิศวกรรมโดยออกแบบส่วนประกอบและข้อจำกัดที่ต้องมี ไล่ย้อนกลับมาจากผลลัพธ์ที่ต้องการ

yungoun 1 일 전

แต่ก็แปลกนะ จนถึงแค่สัปดาห์ก่อน Harness ยังขายหนักมากอยู่เลย แต่พอเริ่มสัปดาห์นี้กลับเงียบไปเลย.. ไม่แน่ใจว่าเป็นเพราะ Anthropic ทำพลาดเองกับ Codex 5.5 ที่ทำได้โดดเด่นกว่าด้วยหรือเปล่า........

click 1 일 전

อะไรอย่าง SDD นี่กระแส hype ตายไปนานแล้ว ดูเหมือนตอนนี้จะเป็นยุคของ harness แทน
ส่วนที่ค่อนข้างน่าทึ่งของ harness คือ ทั้งที่ในข้อมูลฝึกชัดเจนว่าไม่มี แต่โมเดลกลับเข้าใจแนวคิดที่เรียกว่า harness ได้อย่างรวดเร็ว
ไม่แน่ใจว่าเพราะมันใช้ความหมายเดิมของคำที่มีอยู่แล้วหรือเปล่า ทั้งที่ยังไม่ได้พูดถึงเลย แต่มันก็พูดขึ้นมาก่อนเองประมาณว่าให้ไปอัปเดต harness ก่อน

kurthong 1 일 전

นี่เป็นเนื้อหาที่ถึงขั้นวิเคราะห์บทความของนักพัฒนาระดับสูงที่พูดเรื่องไม่ค่อยมีแก่นสารแต่ทำให้ดูน่าเชื่อถือเลยนะครับ (ขออภัยด้วยที่ส่วนตัวผมไม่ค่อยชอบ Google) แน่นอนว่าการพยายามเข้าถึงเพื่อทำความเข้าใจปรากฏการณ์นี้ ผมมองว่าเป็นความพยายามที่ดีครับ

วิศวกรรมฮาร์เนส: ยุคที่การออกแบบสภาพแวดล้อมการทำงานสำคัญกว่าตัวโมเดล

บทความที่เกี่ยวข้อง

10 ความคิดเห็น