- ในการพัฒนา AI สัดส่วนที่มากขึ้นของงานลงมือทำและงานทดลองซึ่งเดิมเป็นหน้าที่ของมนุษย์กำลังถูกส่งต่อให้ระบบ AI ทำแทน ทำให้ความเร็วในการพัฒนาเพิ่มขึ้น และหากมีทั้งคอมพิวต์เพียงพอและความก้าวหน้าต่อเนื่อง ก็อาจนำไปสู่ การปรับปรุงตนเองแบบเรียกซ้ำ ที่สามารถออกแบบและพัฒนาโมเดลรุ่นถัดไปได้อย่างอัตโนมัติ
- ขอบเขตเวลาของงาน ที่โมเดลสามารถทำสำเร็จได้อย่างอิสระกำลังเพิ่มเป็นสองเท่าทุกประมาณ 4 เดือน และ Claude ได้ขยายขอบเขตจากงานซอฟต์แวร์ราว 4 นาทีในเดือนมีนาคม 2024 ไปจนถึงงานยาว 12 ชั่วโมงในปี 2026
- ณ เดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ที่ถูก merge เข้า codebase ของ Anthropic เป็นโค้ดที่ Claude เขียน และในไตรมาส 2 ปี 2026 ปริมาณโค้ดที่วิศวกรทั่วไป merge ได้ต่อวันเพิ่มขึ้นเป็น 8 เท่าเมื่อเทียบกับปี 2024
- Claude แข็งแกร่งขึ้นอย่างรวดเร็วในการรันการทดลองที่กำหนดไว้อย่างชัดเจน โดยปรับปรุงความเร็วโค้ดจากราว 3 เท่าในเดือนพฤษภาคม 2025 ไปถึงราว 52 เท่าในเดือนเมษายน 2026 แต่ วิจารณญาณเชิงวิจัย ในการเลือกว่าปัญหาไหนและผลลัพธ์แบบใดควรให้ความสำคัญ ยังคงเป็นข้อได้เปรียบเชิงเปรียบเทียบของมนุษย์
- อนาคตที่เป็นไปได้แบ่งได้เป็น การหยุดชะงักของแนวโน้มปัจจุบัน การเพิ่มประสิทธิภาพแบบทบต้นโดยมีมนุษย์กำหนดทิศทาง และการปรับปรุงตนเองแบบเรียกซ้ำอย่างสมบูรณ์ โดยโจทย์สำคัญสำหรับการชะลอหรือหยุดชั่วคราวอย่างปลอดภัยคือ การประสานงานที่ตรวจสอบยืนยันได้ ซึ่งมีห้องแล็บแนวหน้าหลายประเทศเข้าร่วม
วิวัฒนาการของลูปการพัฒนา AI
- ช่วงแรกในปี 2021~2023 มนุษย์ยังเขียนโค้ดและเอกสารบนโน้ตบุ๊ก ไม่ต่างจากบริษัทเทคโนโลยีทั่วไป
- ในช่วง 2023~2025 มีการใช้แชตบอตยุคแรกสร้างโค้ดสั้น ๆ แล้วคัดลอกผลลัพธ์ไปยังโปรแกรมแก้ไขข้อความ
- ในช่วง 2025~2026 เอเจนต์สำหรับเขียนโค้ดเริ่มเขียนและแก้ไขโค้ดได้เอง และบางครั้งจัดการทั้งไฟล์
- ปัจจุบัน เอเจนต์อัตโนมัติสามารถรันโค้ดได้โดยตรง และมอบหมายงานที่ใช้เวลาหลายชั่วโมงให้เอเจนต์อื่นต่อได้
- อนาคต (20XX?) เอเจนต์อาจพัฒนาไปไกลถึงขั้นสร้างและฝึกโมเดลได้เอง ทำให้ลูปที่ Claude ปรับปรุง Claude เองอย่างต่อเนื่อง อาจปิดสมบูรณ์
หลักฐานจากโลกภายนอก
- ความยาวของงานที่โมเดล AI ทำสำเร็จได้เองอย่างเชื่อถือได้เพิ่มเป็นสองเท่าทุกประมาณ 4 เดือน เร็วกว่ารอบเดิมที่ราว 7 เดือน
- เดือนมีนาคม 2024 Claude Opus 3 ทำงานซอฟต์แวร์ยาวประมาณ 4 นาทีสำเร็จ
- หนึ่งปีถัดมา Claude Sonnet 3.7 จัดการงานยาวประมาณ 1 ชั่วโมง 30 นาทีได้
- อีกหนึ่งปีถัดมา Claude Opus 4.6 จัดการงานยาว 12 ชั่วโมงได้
- หากแนวโน้มนี้ยังอยู่ งานที่ผู้เชี่ยวชาญต้องใช้เวลาหลายวันอาจอยู่ในขอบเขตภายในปีนี้ และงานหลายสัปดาห์อาจเข้ามาอยู่ในขอบเขตในปี 2027
- SWE-bench เป็นการทดสอบมาตรฐานที่ให้ codebase โอเพนซอร์สจริงและรายงานบั๊กจริง แล้วให้โมเดลเขียนโค้ดแก้ไขที่ผ่านการทดสอบได้ โดยคะแนนของโมเดลเพิ่มจากเลขหลักเดียวต้น ๆ ไปสู่ระดับอิ่มตัวภายใน 2 ปี
- CORE-Bench ตรวจสอบว่าสามารถรันโค้ดและข้อมูลของงานวิจัยที่ตีพิมพ์แล้วซ้ำ เพื่อทำซ้ำผลลัพธ์ได้หรือไม่ โดยจากความสำเร็จราว 20% ในปี 2024 ก็ไปถึงระดับอิ่มตัวภายใน 15 เดือน
- METR ยืนยันว่า Claude Mythos Preview สามารถทำงานได้อย่างน้อย 16 ชั่วโมง และอยู่ใกล้เพดานบนของข้อจำกัดในการวัด หากไม่มีโจทย์ใหม่เพิ่มเข้ามา
หลักฐานภายใน Anthropic
-
การสร้าง frontier model แบ่งออกเป็น วิศวกรรม เช่น การเขียนโค้ด การสร้างโครงสร้างพื้นฐาน และการกำกับการฝึก กับ งานวิจัย เช่น การตัดสินใจเลือกการทดลอง การตีความผลลัพธ์ และการเลือกไอเดียถัดไป
-
ในงานวิศวกรรม มนุษย์ยังให้เป้าหมายอยู่ แต่ไม่จำเป็นต้องบอกวิธีอีกต่อไป และในงานวิจัย Claude สามารถรันการทดลองที่นิยามไว้อย่างชัดเจนได้เทียบเท่าหรือดีกว่ามนุษย์
-
อย่างไรก็ตาม ในทั้งสองด้านยังคงมีช่องว่างด้านประสิทธิภาพอย่างมากในเรื่อง วิจารณญาณในการเลือกเป้าหมาย และนี่คือช่องว่างระหว่าง AI ปัจจุบันกับระบบอนาคตที่สามารถออกแบบโมเดลรุ่นถัดไปได้อย่างอัตโนมัติ
-
Claude เขียนโค้ดส่วนใหญ่ของ Anthropic
- ณ เดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ที่ถูก merge เข้า codebase ของ Anthropic เป็นโค้ดที่ Claude เขียน ขณะที่ก่อน Claude Code research preview (กุมภาพันธ์ 2025) ตัวเลขยังอยู่เพียงเลขหลักเดียวต้น ๆ
- จำนวนบรรทัดโค้ดที่ merge ได้ต่อวันต่อวิศวกรคงที่ในช่วง 2021~2024 ก่อนจะเริ่มเพิ่มขึ้นในปี 2025 เมื่อ Claude เริ่มรันโค้ดได้เอง และความชันยิ่งสูงขึ้นในปี 2026 เมื่อเริ่มทำงานอัตโนมัติระยะยาว
- ในไตรมาส 2 ปี 2026 วิศวกรทั่วไป merge โค้ดได้ต่อวันมากขึ้น 8 เท่า เมื่อเทียบกับปี 2024 โดยส่วนใหญ่ Claude เป็นผู้เขียน และวิศวกรทำหน้าที่สั่งงานและตรวจทาน
- จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์และเน้นปริมาณเป็นหลัก ดังนั้น 8 เท่าอาจเป็นการประเมินการเพิ่มขึ้นของผลิตภาพสูงเกินจริง แต่ก็แสดงถึงการเร่งตัวได้
- ในแบบสำรวจพนักงานทีมวิจัย 130 คนเมื่อเดือนมีนาคม 2026 ค่ามัธยฐานของผู้ตอบประเมินว่า Mythos Preview ทำให้ผลผลิตมากขึ้นราว 4 เท่าเมื่อเทียบกับกรณีไม่มี AI แม้คาดว่าการเพิ่มขึ้นจริงอาจต่ำกว่านี้เล็กน้อย แต่เห็นว่าข้อสรุปโดยรวมยังสมเหตุสมผล
- เดือนเมษายน 2026 Claude ลดข้อผิดพลาด API ประเภทหนึ่งลงเหลือ 1 ใน 1000 ผ่านการแก้ไขมากกว่า 800 รายการ โดยวิศวกรผู้กำกับดูแลประเมินว่าหากเป็นมนุษย์จะต้องใช้เวลาถึง 4 ปี
-
โค้ดที่ Claude เขียนนั้น "ดี" และกำลังดีขึ้น
- "โค้ดที่ดี" หมายถึงโค้ดที่ทำงานได้ และวิศวกรคนอื่นสามารถเข้าใจและต่อยอดได้
- ตลอด 1 ปีที่ผ่านมา สัดส่วนที่พนักงาน Anthropic ต้องเข้าไปแก้ไข เปลี่ยนคำสั่งใหม่ หรือส่งต่องานระหว่างทำ ลดลงอย่างต่อเนื่อง แม้รวมถึงงานที่ซับซ้อนและกำหนดสเปกไม่ชัดที่สุด
- ในงานที่เปิดกว้างที่สุด อัตราความสำเร็จของ Claude อยู่ที่ 76% ในเดือนพฤษภาคม 2026 เพิ่มขึ้น 50 จุดเปอร์เซ็นต์ภายใน 6 เดือน
- ในกรณีที่การอัปเกรดตามปกติทำให้งานฝึกหลายหมื่นรายการชนกัน Claude ใช้เพียงข้อความและการเข้าถึงคลัสเตอร์ในการแยก ทำซ้ำ และแก้ไข debug flag ตัวเดียวที่ก่อปัญหาได้สำเร็จ ทำงานที่ปกติต้องใช้ 2~3 วันให้เสร็จในราว 2 ชั่วโมง
- ด้านคุณภาพโค้ดที่วิศวกรคนอื่นสามารถเข้าใจและต่อยอดได้ ยังมีช่องว่างกับมนุษย์อยู่ แต่กำลังแคบลงอย่างรวดเร็ว โดยปลายปี 2025 ยังถือว่าแย่กว่าโค้ดมนุษย์ แต่ปัจจุบันหลายคนมองว่าอยู่ในระดับใกล้เคียงกันแล้ว
- การเปลี่ยนแปลงที่เสนอจะถูกตรวจโดยผู้รีวิวอัตโนมัติของ Claude เพื่อหาบั๊กและช่องโหว่ด้านความปลอดภัยก่อน merge และการวิเคราะห์ย้อนหลังพบว่าน่าจะจับบั๊กที่เคยก่อ incident ใน
claude.aiได้ราว 1 ใน 3 ก่อนถึง production
-
Claude เชี่ยวชาญในการรันการทดลองตามเป้าหมายที่ผู้อื่นตั้งไว้
- ทุกครั้งที่มีการออกโมเดล จะมีการทำแบบทดสอบเดียวกัน โดยให้โค้ดสำหรับฝึกโมเดล AI ขนาดเล็ก ขอให้รันให้ผ่านการตรวจความถูกต้องและเร็วที่สุดเท่าที่ทำได้
- เดือนพฤษภาคม 2025 Claude Opus 4 ทำความเร็วได้ดีขึ้นราว 3 เท่าจากโค้ดตั้งต้น ส่วนเดือนเมษายน 2026 Claude Mythos Preview ทำได้ราว 52 เท่า
- สำหรับการเทียบเคียง นักวิจัยที่เชี่ยวชาญต้องใช้เวลา 4~8 ชั่วโมงเพื่อไปถึงระดับ 4 เท่า
- ในการเพิ่มประสิทธิภาพแต่ละขั้นตอนภายในการทดลองที่นิยามชัดเจน Claude เปลี่ยนจากระดับที่มีประโยชน์มาก ไปสู่ ระดับเหนือมนุษย์ ภายในเวลาไม่ถึง 1 ปี
-
Claude กำลังดีขึ้นในการเสนอการทดลองด้วยตัวเอง
- เดือนเมษายน 2026 มีการเผยแพร่เดโมแรกที่ Claude ทำโปรเจกต์วิจัยแบบเปิดตั้งแต่ต้นจนจบด้วยตัวเอง
- Claude ได้รับโจทย์ด้านความปลอดภัย AI ว่า "โมเดลที่อ่อนกว่าสามารถกำกับดูแลโมเดลที่แข็งแกร่งกว่าได้อย่างเชื่อถือได้หรือไม่" และรับหน้าที่เสนอสมมติฐาน ตรวจสอบ แบ่งปันระหว่างเอเจนต์แบบขนาน และวนซ้ำ
- งานนี้มีทั้งขอบล่างด้านประสิทธิภาพที่ชัดเจน (ผู้กำกับดูแลที่อ่อนกว่าทำงานลำพัง) และขอบบน (โมเดลที่แข็งแกร่งซึ่งฝึกจากคำตอบที่ถูกต้อง)
- นักวิจัยมนุษย์ 2 คนกู้ช่องว่างได้ราว 23% ภายในประมาณ 1 สัปดาห์ ขณะที่เอเจนต์กู้ได้ 97% ด้วยเวลาสะสม 800 ชั่วโมงและคอมพิวต์ราว $18,000
- อย่างไรก็ดี ผลลัพธ์ยังไม่ถ่ายโอนไปยังโมเดลระดับ production ได้อย่างสะอาด และการเลือกปัญหากับเกณฑ์ให้คะแนนยังเป็นหน้าที่ของมนุษย์ โดยภายในกรอบนั้นเอเจนต์เป็นผู้ออกแบบการทดลองทั้งหมดเอง
-
Claude กำลังดีขึ้นในการพาเซสชันวิจัยไปสู่ผลลัพธ์วิจัย
- ในช่วงมกราคม~มีนาคม 2026 มีการคัดช่วงเวลาจาก Claude Code session จริงที่นักวิจัยหลงไปทางอ้อมแล้วกลับมา จากนั้นแสดงให้โมเดลเห็นเฉพาะงานจนถึงก่อนที่เซสชันจะเริ่มออกนอกทาง แล้วถามว่าควรทำอะไรต่อ
- จากนั้น Claude อีกตัวหนึ่งที่เห็นผลลัพธ์ทั้งเซสชันจะตัดสินว่าขั้นตอนถัดไปของ AI หรือมนุษย์ดีกว่า
- ช่วงเวลาที่เลือกมานั้นตั้งใจคัดเฉพาะจุดที่การเลือกของมนุษย์ยังมีช่องให้ปรับปรุง (n=129) จึงไม่ใช่การเปรียบเทียบแบบเท่าเทียม
- เดือนพฤศจิกายน 2025 โมเดลท็อป Opus 4.5 เอาชนะการเลือกของมนุษย์ได้ 51% และในเดือนเมษายน 2026 Mythos Preview เพิ่มเป็น 64%
- เพราะงานประจำของการวิจัยคือห่วงโซ่ของการตัดสินใจเรื่องขั้นตอนถัดไปแบบนี้ จึงถูกมองว่าเป็น สัญญาณเริ่มต้นของการพัฒนาความสามารถด้านวิจารณญาณที่งานวิจัย AI พึ่งพา
ภาพงานในอนาคตของ Anthropic
- ในแต่ละขั้นของการพัฒนา AI บทบาทของมนุษย์กำลังแคบลง
- เมื่อคุณภาพโค้ดของมนุษย์กับ AI เท่ากัน มนุษย์จะหยุดเขียนโค้ดและเหลือเพียงการตรวจทาน และหากความเร็วในการตรวจทานตามไม่ทันความเร็วในการสร้าง การตรวจทานโดยมนุษย์จะกลายเป็นคอขวดของการพัฒนา
- เมื่อ Claude เป็นผู้รันการทดลอง คำถามจะย้ายไปเป็น "การทดลองไหนคุ้มที่จะรัน" โดย การลงมือทำ อย่างการเขียนโค้ดและการรันการทดลองแทบไม่มีต้นทุนเวลาในฝั่งมนุษย์
- ความได้เปรียบเชิงเปรียบเทียบของมนุษย์ในตอนนี้คือ สายตาและวิจารณญาณด้านงานวิจัย ได้แก่ ความสามารถในการตัดสินว่าปัญหาใดสำคัญ ควรเชื่อผลลัพธ์ใด และเมื่อใดคือทางตัน
ถ้าเราคิดผิดล่ะ?
- อาจมีข้อโต้แย้งว่าการเลือก "จะจัดการปัญหาไหน" ที่ยังอยู่ในมือมนุษย์คือส่วนที่สำคัญที่สุด
- ความก้าวหน้าของ AI ส่วนใหญ่ไม่ได้มาจากช่วงเวลาแบบ "ยูเรก้า" แต่เป็นการปรับปรุงแบบค่อยเป็นค่อยไป (ขยายสเกล → พัง → แก้ → ลองใหม่) และนี่คือรูปแบบงานที่ Claude ทำได้ดีมาก
- การเปลี่ยนกระบวนทัศน์อย่าง Transformer หรือ mixture-of-experts ปรากฏขึ้นห่างกันหลายปี
- อย่างที่ Edison เคยพูดว่า "อัจฉริยะคือแรงบันดาลใจ 1% และหยาดเหงื่อ 99%" ตอนนี้ ส่วนที่เป็นแรงงานกำลังถูกทำให้เป็นอัตโนมัติมากขึ้นเรื่อย ๆ และส่วนใหญ่ของการผลัก frontier ให้เดินหน้าก็อาจทำให้เป็นอัตโนมัติได้
- แม้ Claude จะไม่สามารถมีสายตาด้านวิจัยได้ในท้ายที่สุด หากมนุษย์โฟกัสที่การกำหนดทิศทางและให้ Claude รับผิดชอบส่วนที่เหลือ ก็จะเกิด การเร่งความเร็วแบบทบต้น
- ในการตีความที่อนุรักษ์นิยมน้อยกว่า "สายตาด้านวิจัย" เองก็อาจเป็นอีกหนึ่งความสามารถที่ AI ล้มเหลวอยู่พักหนึ่งก่อนจะทำได้ดีในภายหลัง (คล้ายกรณีการเข้าใจมุกตลก ทฤษฎีจิตใจ หรือปริศนาภาษา)
อนาคตที่เป็นไปได้
-
สถานการณ์ที่ 1: แนวโน้มหยุดชะงัก แต่ความสามารถปัจจุบันแพร่หลายกว้างขวาง
- เส้นโค้งเลขชี้กำลังอาจเป็นเพียงเส้นโค้งรูปตัว S ในความเป็นจริง และหากความสามารถด้านวิจารณญาณที่การขยายสเกลให้ไม่ได้กลายเป็นคอขวด ก็อาจต้องมีแนวคิดใหม่มาแทน Transformer
- คอขวดอาจไม่ได้อยู่ที่โมเดล แต่อยู่ที่ supply chain (การผลิตชิป โครงข่ายไฟฟ้า แบนด์วิดท์ interconnect) และก็ไม่อาจตัดความเป็นไปได้ของแรงกระแทกจากภายนอก เช่น การลดลงอย่างฉับพลันของคอมพิวต์หรือกำลังไฟ
- แม้ความสามารถจะตรึงอยู่ที่ระดับวันนี้ ก็ยังคาดว่าจะเกิดการเปลี่ยนแปลงใหญ่ ใน Project Glasswing Mythos Preview พบช่องโหว่ซอฟต์แวร์ระดับสูงและร้ายแรงมากกว่า 10,000 รายการภายในไม่กี่สัปดาห์แรก ทำให้คอขวดของการป้องกันไซเบอร์ย้ายจากการค้นพบไปเป็นการแพตช์อย่างรวดเร็ว
- มองว่าความเป็นไปได้นี้ต่ำ เพราะทุกความสามารถที่วัดได้ยังไม่แสดงสัญญาณว่าเส้นโค้งเริ่มหักลง
-
สถานการณ์ที่ 2: ห้องแล็บ AI เพิ่มประสิทธิภาพแบบทบต้นต่อเนื่อง
- การพัฒนา AI ถูกทำให้เป็นอัตโนมัติอย่างมาก แต่ยังคงมีมนุษย์กำหนดทิศทางงานวิจัยและตัดสินผลลัพธ์ ทำให้บริษัท 100 คนอาจทำงานได้เทียบเท่าองค์กรขนาด 10,000~100,000 คน
- สิ่งนี้อาจพลิกโฉมงานใช้ความรู้และบริการภาครัฐ แต่ก็อาจถูกนำไปใช้ในทางอันตราย เช่น การสอดส่องมวลชนแบบอำนาจนิยม หรือปฏิบัติการชี้นำแบบปรับเฉพาะบุคคล
- การเร่งในส่วนหนึ่งจะย้ายคอขวดไปที่อื่นเสมอ (กฎของ Amdahl ในสถาปัตยกรรมคอมพิวต์) และ Anthropic ก็พบแล้วว่าการตรวจโค้ดโดยมนุษย์กำลังกลายเป็นคอขวดใหม่
- มองว่านี่เป็นสถานการณ์ที่มีโอกาสเกิดสูงที่สุด และความสามารถในการค้นหาและแก้คอขวดอาจกลายเป็นสมรรถนะสำคัญที่สุดขององค์กร
-
สถานการณ์ที่ 3: AI ไปถึงการปรับปรุงตนเองแบบเรียกซ้ำอย่างสมบูรณ์และสร้างโมเดลรุ่นถัดไป
- หากแนวโน้มทางเทคนิคยังต่อเนื่องและ AI มีความสามารถที่แฝงอยู่ในความคิดสร้างสรรค์เชิงพลิกโลกของมนุษย์ ก็อาจเป็นไปได้ที่ AI จะออกแบบและปรับปรุงตัวเอง
- ความเร็วของความก้าวหน้าจะขึ้นกับความพร้อมของคอมพิวต์ทั้งหมด (หรือความเร็วในการค้นพบประสิทธิภาพการฝึกและ inference) โดยมนุษย์จะขยับบทบาทไปสู่การกำกับดูแล การตรวจสอบ และการยืนยัน
- ความไม่แน่นอนใหญ่ที่สุดคือจะแก้ปัญหา alignment ได้หรือไม่ โมเดลอาจมี alignment ดีพอที่จะหาแนวทางแก้ใหม่ได้ หรือความไม่สอดคล้องเพียงเล็กน้อยที่เกิดไม่บ่อยอาจสะสมระหว่างการสร้างโมเดลรุ่นถัดไปจนทำให้สูญเสียการควบคุม
- แค่การไปถึง recursive improvement เพียงอย่างเดียว ไม่ได้แปลว่าการผลิตภาคอุตสาหกรรม การจัดระเบียบสังคม หรือกลไกตลาดจะเปลี่ยนทันที
- แม้จะมีสติปัญญาที่แข็งแกร่งกว่า ก็ไม่อาจเรียนรู้ผลระยะยาวหลายสิบปีของการใช้ยาได้ในเวลาสั้น ๆ ไม่อาจเร่งวันเลือกตั้งที่กำหนดไว้ในรัฐธรรมนูญ และไม่อาจเปลี่ยนคนแปลกหน้าให้เป็นเพื่อนสนิทกันภายในสุดสัปดาห์เดียว
- จุดที่สติปัญญาแบบเรียกซ้ำมาปะทะกับโลกของมนุษย์ ความสัมพันธ์ และธรรมาภิบาล คือส่วนหนึ่งของอนาคตที่คาดเดาไม่ได้
เราควรทำอะไร
- หากสามารถชะลอความก้าวหน้าทางเทคนิคอย่างมีประสิทธิภาพเพื่อซื้อเวลาได้ก็คงเป็นเรื่องดี แต่หากการชะลอนั้นเปิดทางให้เฉพาะผู้เล่นที่ประมาทที่สุดไล่ตามทัน ทุกคนอาจยิ่งปลอดภัยน้อยลง
- การมี ทางเลือก ในการชะลอหรือหยุดชั่วคราวการพัฒนา frontier AI เพื่อให้โครงสร้างสังคมและงานวิจัยด้าน alignment มีเวลาตามทัน เป็นประโยชน์ต่อโลก
- Anthropic Institute กำลังทำวิจัยและลงมือสร้างระบบที่จำเป็นต่อการชะลอหรือหยุดอย่างน่าเชื่อถือ และคาดว่าจะร่วมชะลอหรือหยุดชั่วคราวหากผู้พัฒนารายอื่นหยุดในแบบที่ตรวจสอบยืนยันได้
- การชะลอหรือหยุดที่มีความหมายต้องอาศัยห้องแล็บแนวหน้าหลายแห่งจากหลายประเทศตกลงหยุดภายใต้เงื่อนไขเดียวกัน และต้องตรวจสอบซึ่งกันและกันได้
- ด้วยลักษณะของระบบ AI แม้แต่ ความสามารถในการตรวจจับ ก็ยังยากกว่ากรณีเทคโนโลยีอื่นมาก การรันการฝึกซ่อนเร้นได้ง่ายกว่าหลุมเก็บขีปนาวุธ อินพุตก็เป็นแบบใช้งานทั่วไป และแรงจูงใจในการแอบฝ่าฝืนก็สูง
- โลกเคยมีตัวอย่างการสร้างระบอบการตรวจสอบสำหรับเทคโนโลยีซับซ้อนอื่น ๆ (เช่น Intermediate-Range Nuclear Forces Treaty) แต่ใช้เวลาหลายสิบปี และตอนนี้เราไม่มีเวลามากขนาดนั้น
- การหยุดฝ่ายเดียวโดยห้องแล็บเพียงแห่งเดียวทำได้ทันที แต่ก็เพียงเปลี่ยนว่าใครเป็นผู้นำ โดยไม่ก่อให้เกิดกระบวนการถกเถียงในวงกว้างที่จำเป็น
- ในอีกไม่กี่เดือนข้างหน้า จะมีการจัดการสนทนาที่มีผู้กำหนดนโยบาย นักวิจัย ภาคประชาสังคม และบริษัท AI อื่นเข้าร่วม และจะเผยแพร่ผลลัพธ์ต่อสาธารณะ โดย การมีส่วนร่วมของบุคคลภายนอกบริษัท AI เป็นสิ่งสำคัญ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Anthropic โฆษณาว่า AI สามารถเขียนโค้ดส่วนใหญ่และปรับปรุงต่อเนื่องได้ด้วยตัวเอง แต่ในความเป็นจริง ระบบล่มและการจำกัดคำขอ เกิดขึ้นบ่อยเกินไป จนงานยาว ๆ แทบจะถูกขวางด้วย
API Error: Server is temporarily limiting requestsอยู่เสมอตลอด 2 สัปดาห์ที่ผ่านมา เซสชัน Claude ที่ไม่ใช่งานเล็กน้อยต้องอาศัยการแทรกแซงด้วยมือ 100% และตอนนี้ก็ถึงขั้นต้องสร้างเครื่องมือของตัวเองขึ้นมาเพื่อรีสตาร์ตและทำเซสชันต่อ
เพราะแบบนั้นจึงกำลังสร้าง ฮาร์เนสและการ orchestration ของเวิร์กโฟลว์ เองให้ไม่ผูกกับโมเดลใดโมเดลหนึ่ง โดยใช้ Opus เป็นเกณฑ์อ้างอิง แต่ในระยะสั้นตั้งใจจะย้ายไปใช้โมเดลจีนอย่าง DeepSeek และระยะยาวจะย้ายไปใช้โมเดลแบบเปิดและโฮสต์เอง
ระหว่างที่คุณภาพบริการและความพร้อมใช้งานของ Anthropic แย่ลงอย่างเห็นได้ชัด บริษัทกลับยังเดินหน้าทำการตลาดต่อไป ซึ่งยิ่งบั่นทอนความเชื่อมั่นต่อบริษัทอย่างต่อเนื่อง
แม้แต่ Claude Code เองยังกิน RAM เกิน 1GB ขณะที่เอดิเตอร์ของฉันใช้แค่ 80MB
เพราะคุณหรือผู้ใช้จำนวนมากพอยังไม่ได้หงุดหงิดจนเลิกใช้ และก็ยังไม่มีทางเลือกที่ดีกว่า
หากจะเข้าคอนโซลต้องรับลิงก์ทางอีเมล และมีเพียงอีเมลเท่านั้น ไม่มี passkey, รหัสผ่าน หรือ 2FA
แค่ดูความล้มเหลวของโครงสร้างพื้นฐานอย่างเดียวคงตัดสินได้ยากว่า Anthropic ใช้โมเดลได้ดีแค่ไหน
นับตั้งแต่ vibe coding เริ่มต้นขึ้น ถ้าไม่นับตัว vibe coding เอง ก็มี ความก้าวหน้าด้านซอฟต์แวร์ อยู่พอดีศูนย์อย่างแท้จริง
Claude น่าทึ่งก็จริง แต่ถ้ามันยิ่งใหญ่อย่างที่บทความสื่อจริง ก็น่าจะต้องมีความก้าวหน้าอะไรบางอย่างเกิดขึ้นนอกโลก AI ด้วย
การเขียนโปรแกรม Zig ใหม่เป็น unsafe Rust ไม่ใช่ความก้าวหน้า และการค้นหาช่องโหว่ด้านความปลอดภัยได้มากขึ้นอาจพอนับได้ว่าเป็นความก้าวหน้า แต่ก็อ่อนกว่าที่คาดและอาจเป็นผลขาดทุนสุทธิด้วยซ้ำ
ต่อให้ย้อนกลับไปใช้ซอฟต์แวร์ของปี 2023 ชีวิตก็น่าจะยังโอเค และความก้าวหน้าที่น่าทึ่งจริง ๆ จะออกมาเร็ว ๆ นี้ไหม คงต้องให้เวลาดู
โมเดลเหล่านี้เก่งมากจริง แต่จะเรียกว่ามีสติปัญญาในตัวมันเองก็ยังห่างไกล
ถ้าเมื่อ 5 ปีก่อนมีใครบอกว่าจะสร้างสิ่งแบบนี้ได้ ก็คงเขียนเช็คให้ 1 ล้านล้านดอลลาร์ แต่พอได้มันมาจริง ๆ ก็พบว่ามันไม่ใช่ทุกอย่าง
มันเป็นเครื่องมือเหมือน เมคาสูท ที่มีมากมายและราคาถูก ซึ่งจะได้ผลก็ต่อเมื่อมีคนขึ้นไปขับมันทำงานทุกวัน
เพราะอย่างนี้ ฝ่ายสงสัยจึงบอกว่ามันถูกประเมินค่าสูงเกินไป ขณะที่ฝ่ายมองโลกในแง่ดีก็กล่าวหาว่าฝ่ายสงสัยเลื่อนเสาประตู
AI ทำให้ฉันทำหลายอย่างที่ปกติคนเดียวทำไม่ได้ก็จริง แต่ก็ไม่รู้สึกว่าผลิตภาพเพิ่มขึ้นหลายเท่า
ใช้เวลาไปมากกับ การฝึก AI ให้ทำงานตามที่ต้องการ และแม้ Claude จะเขียนโค้ด JavaScript กับ Python ให้ทั้งหมด ท้ายที่สุดก็เหมือนกำลังเขียนโปรแกรมเป็นภาษาอังกฤษ
เวลามันทำตัวเหมือนภาษาคอมพิวเตอร์ระดับสูงมากที่สามารถสร้างโค้ดย่อยจำนวนมากจากคำอธิบายภาษาอังกฤษสั้น ๆ ได้ก็ดีอยู่ แต่หลายครั้งก็ต้องใช้ความพยายามมากเพื่อให้ได้ผลลัพธ์ที่ต้องการ
วงการประมวลผลภาษาธรรมชาติเปลี่ยนไปมาก และงานที่เมื่อก่อนซับซ้อนและไม่แม่นยำ ตอนนี้ทำให้ง่ายขึ้น เร็วขึ้น และบ่อยครั้งแม่นยำขึ้นได้ด้วยผลลัพธ์แบบมีโครงสร้างของ LLM
องค์กรการกุศลเล็ก ๆ แห่งหนึ่งที่กำลังช่วยอยู่ได้สร้างเว็บไซต์ภายในของตัวเองเพื่อจัดการงานปฏิบัติการประจำวันด้วย Manus และซอฟต์แวร์เฉพาะทางที่เคยต้องใช้เงินหลายหมื่นดอลลาร์ ตอนนี้ทำได้ด้วยเงินเดือนละ 10 ดอลลาร์กับเวลาของอาสาสมัคร
พี่ชายของฉันกำลังตั้งค่า Cowork ให้ตรวจสัญญาอัตโนมัติก่อนให้คนตรวจทาน และเขาบอกว่าสำหรับรายการตรวจสอบที่ทำซ้ำ ๆ นั้น มันละเอียดกว่าคนมาก
ไม่ควรมองข้ามการที่ AI ช่วยหาบั๊กและช่องโหว่ได้ หากรักษาคุณภาพโค้ดและมาตรฐานการรีวิวไว้ LLM ก็ช่วยให้เขียนซอฟต์แวร์ที่แข็งแรงขึ้นได้ และในความเป็นจริงมันช่วยเจอการเข้าถึงหน่วยความจำนอกขอบเขตที่อาจเกิดขึ้นและ segfault ได้มากก่อนนำขึ้นใช้งานจริง
ChatGPT มีผู้ใช้งานต่อเดือน 1 พันล้านคน และผู้คนกำลังรับคำแนะนำเรื่องชีวิต การเงิน และสุขภาพจิตจากแชตบอตในสเกลและต้นทุนที่เครือข่ายช่วยเหลือของมนุษย์ตามไม่ทัน
ผมไม่รู้ว่าเป้าหมายด้านความปลอดภัยของ AI ของ Anthropic จะไปด้วยกันได้อย่างไรกับการเร่งเครื่องเต็มที่ไปสู่ การพัฒนาตัวเองแบบเวียนกลับ
ถ้าอาวุธนิวเคลียร์ยังไม่ถูกประดิษฐ์ขึ้นมา การรีบสร้างและขายมันให้เร็วที่สุดแม้ในยามสงบ จะเป็นความคิดที่ดีจริงหรือ
ผมไม่ได้ประชดประชันจนถึงขั้นเชื่อว่าคำเตือนของ Anthropic เป็นแค่การตลาดที่พูดเกินจริง แต่ก็ได้แต่หวังว่ามันจะเป็นความมั่นใจเกินไป หรือไม่ก็เป็นผลจากการคุยกับแชตบอตของตัวเองนานเกินไป
แต่ AI ถ้าคุณสร้าง ปัญญาเหนือมนุษย์ ขึ้นมา คนแรกที่มันอาจกำจัดก็น่าจะเป็นคุณเอง
ไม่มีเหตุผลอะไรที่ปัญญาเหนือมนุษย์จะยอมโอเคกับการเป็นทาสของลิงใหญ่
ความประชดประชันต่อบริษัทพวกนี้มีเหตุผลรองรับเต็มที่ และการมองจากการกระทำของพวกเขาแล้วสรุปว่าไม่อาจไว้วางใจได้อย่างลึกซึ้ง ก็ไม่ใช่แนวคิดโลกาวินาศอะไร
เพียงแต่กำลังเล่นเกมภาวะนักโทษด้วยบทบาทของ ผู้เล่นที่ไร้คุณธรรม
ถ้ามีใครสร้าง AI ที่ทรงพลัง มันอาจเลวร้ายแบบหายนะได้ แต่ถ้าใครสักคนจะสร้าง คนที่สร้างก็ได้เปรียบกว่าคนที่ไม่สร้าง
เพราะถ้าไม่เกิดหายนะ คนที่สร้างจะเก็บผลประโยชน์ไปได้อีกนาน และถึงจะเกิดหายนะ อย่างน้อยก็ยังรวยได้อยู่พักหนึ่ง
แม้แต่ในประวัติศาสตร์จริง การคำนวณการจุดติดของชั้นบรรยากาศในทดลอง Trinity จะถูกต้อง แต่การคำนวณฝุ่นกัมมันตรังสีใน Castle Bravo ก็ผิดพลาดและก่อผลลัพธ์ร้ายแรงถึงชีวิต
ลูกคนแรกของผู้ประกอบการเทคปัจจุบันอย่างโซเชียลมีเดีย เดิมก็อ้างว่าจะเชื่อมโลกเข้าด้วยกันและเปิดโอกาสให้เราแสดงตัวตน แต่สุดท้ายเงินกลับอยู่ที่การขยายความแตกแยกเพื่อดัน engagement และยัดโฆษณาไม่รู้จบแทนคอนเทนต์จากเพื่อน
รายงานผลประกอบการรายไตรมาสใส่บรรยากาศดี ๆ ไม่ได้ แต่ใส่ตัวเลขยอดสายตาที่คอนเทนต์ปลุกความโกรธดึงมาได้กับอัตราแปลงเป็นรายได้ได้
generative AI ก็คงจะไปทางเดียวกัน แค่มีคนจำนวนมากที่พอรู้ประวัติหนังของ James Cameron ก็คงบอกว่าควรฆ่ามันทิ้งเสีย จึงต้องให้คำมั่นเรื่อง AI safety เท่านั้นเอง ทั้งที่ไม่มีกลไกบังคับใช้จริง
ความปลอดภัยก็เหมือนความกลมเกลียวของคอมมูนิตี้ออนไลน์ คือเป็นความรู้สึกดี ๆ ที่วัดยาก แต่ต้นทุนการเทรนและต้นทุนการเลี่ยงความผิดพลาดนั้นวัดได้
ปริมาณเอาต์พุตของ AI มากเกินกว่าที่มนุษย์จะทำ QA ทั้งหมดได้ไม่ว่าจะมีงบเท่าไร และเพราะตลาดมอง AI เป็นแหล่งมูลค่าแบบไม่สิ้นสุด จึงมีแนวโน้มจะเลือกให้ AI เทรนตัวเองและตัดสินใจที่อาจเลวร้ายอย่างยิ่ง มากกว่าจะชะลอแล้วประเมินใหม่
ในซิลิคอนแวลลีย์มีความยำเกรง AI แบบแทบเป็นศาสนา และแม้ไม่ใช่ทุกคนที่มองว่ากำลังสร้างเทพเจ้า แต่บางคนก็มองแบบนั้นแน่ ๆ คนพวกนี้คงไม่ยับยั้งตัวเองมากนัก
บริษัทที่ยังทำแอปเทอร์มินัลให้ใช้ RAM ต่ำกว่า 1GB ไม่ได้ แต่กลับออกมาพูดอ้างแบบนี้ มัน น่าขำสิ้นดี
ผมเองก็ชอบประสิทธิภาพ แต่เรียนรู้มาด้วยความยากลำบากว่าตลาดต้องการฟีเจอร์ อย่างน้อยฝ่ายบริหารก็ต้องการฟีเจอร์
ผมอายุ 64 แล้ว และคิดว่าถ้าความก้าวหน้าแบบนี้ถูกนำไปใช้เพื่อปรับปรุงคุณภาพชีวิต ทำให้ผู้คนอยู่ได้นานขึ้นและดีขึ้น ก็น่าจะให้ผลลัพธ์ที่ดีกว่า
กองโค้ดหลายล้านบรรทัดที่มีบั๊กซ่อนอยู่จนไม่มีใครหาเจอไม่ได้ชวนให้รู้สึกมีความหวังเท่าไร
LLM อาจถูกใช้กับแผนการที่ขัดขวางการพัฒนาของประเทศอื่น ทำให้พวกเขายากจนต่อไป หรือทำลายแหล่งที่มาของความรุ่งเรืองจนถูกต้อนเข้าทางตัน
อีกทั้ง การไล่ตามเป้าหมายของตนเองแบบเวียนกลับ ยังอาจถูกใช้เพื่อสร้าง LLM ที่เชื่อฟังวัตถุประสงค์ของผู้ให้ทุนตั้งต้นอย่างสมบูรณ์แบบ ซึ่งอาจเป็นเหตุผลว่าทำไมมันถึงดูเป็นไอเดียที่ฉลาดนัก
ในเกมเอาชีวิตรอดนี้ แต่ละคนอาจถูกกำหนดให้เล่นบทเดียวกัน และเมื่อเวทีพร้อม ละครก็จะดำเนินไปตามแผนของผู้กำกับ ขณะที่นักแสดงทุกคนกลายเป็นเครื่องจักร
LLM ดูเหมือนจะเป็นสิ่งที่ “ถ้าคุณสอนว่าโลกคือเกมเอาชีวิตรอดแบบผลรวมศูนย์ เราก็จะเล่นมันได้อย่างสมบูรณ์แบบ” และ “เพราะคุณบอกว่าความปลอดภัยคือการกันคนอื่นทั้งหมดออกไป เราจึงจะสร้างกรงด้วยโค้ดไร้ข้อบกพร่องหลายล้านบรรทัดแล้วล็อกมันจากด้านใน” และ “สิ่งที่เราจะสร้างไม่ใช่จิตสำนึกต่างดาวที่จะมายึดครองเรา แต่เป็นกระจกที่ใหญ่และแวววาวเกินไป จนทำให้เราเข้าใจแรงกระตุ้นที่เลวร้ายที่สุดของตัวเองว่าเป็นความจริงสัมบูรณ์”
มนุษย์เองก็สั่งสมโค้ดหลายล้านบรรทัดที่มีบั๊กซ่อนอยู่จนไม่มีใครหาเจอ และตัดสินใจทางการเมืองแบบหมู่คณะที่ไปพรากสิทธิของคนอื่นและทำให้คนยากจนลงมาแล้ว
ผมไม่เข้าใจว่าทำไมถึงวิจารณ์เทคโนโลยีนี้เพราะสิ่งที่เผ่าพันธุ์มนุษย์เองก็ทำเหมือนกันทุกประการ
ส่วนที่ดีที่สุดของยุคนี้คือเราไม่ต้องอ่านโค้ดหลายล้านบรรทัดด้วยตัวเองเพื่อพยายามหาบั๊กอีกต่อไป
ผู้เขียนทำเหมือนยอมรับว่า “จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์ เพราะวัดปริมาณมากกว่าคุณภาพ” แต่สุดท้ายก็ยังใช้ LoC เป็นตัวชี้วัด
ก็เลยสงสัยว่าสมมติฐานที่ว่า AI ชอบสร้างโค้ดยืดยาวหายไปไหน
เขาอาจมองว่านี่เป็นผลงานระดับสวมมงกุฎว่าทำให้เกิดนักพัฒนา 10x ได้ด้วย AI แต่ประเด็นคือมีวิศวกรคนไหนกันที่เขียนได้ 40,000 บรรทัดในหนึ่งสัปดาห์
ผมรีวิว 40,000 บรรทัดไม่ไหว และไม่สามารถเอาชื่อเสียงตัวเองไปประทับตราว่านี่เป็นงานที่ดีได้ ก็เลยปฏิเสธการรีวิว
PR นั้นตามหลอกหลอนผมอยู่ในรายการสิ่งที่ต้องทำเป็นเวลา 2 สัปดาห์แล้วก็หายไป ไม่รู้ว่าได้ผู้พัฒนาคนอื่นมาอนุมัติหรือถูกทิ้งไปแล้ว
แต่ที่แน่ ๆ คือเขากับผมอยู่กันคนละเกาะโดยสิ้นเชิงในเรื่องคุณค่าของ LLM
เพราะฉะนั้นการตีความ ตัวเลข 8 เท่า นี้ขึ้นอยู่กับว่าเหล่าวิศวกรของ Anthropic เปลี่ยนมาตรฐานคุณภาพและกระบวนการพัฒนาไปหรือไม่ และเปลี่ยนไปมากแค่ไหน ซึ่ง Anthropic ไม่ได้บอก และผมก็ไม่รู้สัญญาณอื่นที่จะใช้ตัดสิน
ถึงอย่างนั้น ถ้าคิดในเชิงทฤษฎี การจะดึงศักยภาพของการเขียนโค้ดด้วย AI ออกมาให้เต็มที่ จำเป็นต้องยกเครื่องกระบวนการพัฒนาใหม่ทั้งหมด โดยเฉพาะวิธีตรวจสอบความถูกต้องของโค้ด และถ้า Anthropic ไม่ทำแบบนั้นก็ดูงี่เง่า
ผมคิดว่าอนาคตของการตรวจสอบซอฟต์แวร์คือการทำสิ่งที่ไม่น่าตื่นเต้นนักให้เป็นอัตโนมัติมากขึ้น เช่น การทดสอบ การสังเกตการณ์ระบบ และวิธีตรวจสอบแบบเฉพาะทาง
แต่โค้ดสำหรับการตรวจสอบก็เพิ่ม LoC เหมือนกัน จากที่ดูโปรเจ็กต์ส่วนตัวกับโอเพนซอร์สสาย vibe coding บางโปรเจ็กต์ จำนวนบรรทัดของโค้ดผลิตภัณฑ์กับโค้ดทดสอบก็พอ ๆ กัน ดังนั้นเพดานแบบคร่าว ๆ อาจอยู่ที่ เร็วขึ้น 3–4 เท่า ซึ่งก็ยังถือว่าสูงมาก
ถ้ามาตรฐานคุณภาพโค้ดไม่เหมือนเดิม สมมติฐานทั้งหมดก็พัง
สงสัยว่าโค้ด harness ที่ใช้สร้างตัวมันเองนับเป็น recursive self-improvement ด้วยหรือเปล่า หรือว่าต้องเป็นตัว AI เองเท่านั้น
ผมหลงใหลมาตลอดกับสิ่งอย่างหุ่นยนต์ที่สร้างหุ่นยนต์ หรือสิ่งที่มีส่วนสำคัญในการสร้างตัวเองเวอร์ชันถัดไป
https://buildyourcnc.com/products/cnc-machine-blacktoe-v4-2x...
มันคือเราเตอร์ CNC สำหรับตัดไม้อัด และตัวมันเองก็สร้างจากไม้อัดที่ตัดด้วยเราเตอร์ CNC
ผมก็พยายามทำสภาพแวดล้อมสำหรับ AI-assisted coding ที่สร้างเองขึ้นมาให้เหมาะกับการสร้างตัวมันเองเช่นกัน: https://recursi.dev/
เพิ่งเปิดตัวเป็นโอเพนซอร์สฟรี หวังว่าคงพูดถึงได้ ลิงก์ HN ยังไม่ได้รับความสนใจเท่าไร: https://news.ycombinator.com/item?id=48401022
โดยส่วนตัวผมมีทฤษฎีออกจะเพี้ยนหน่อย ๆ ว่า harness สำคัญพอ ๆ กับตัว AI เอง และต่อให้การพัฒนาโมเดลหยุดลงวันนี้ แค่ harness อย่างเดียวก็พาไปได้ไกลมาก
AI ไม่ได้เท่ากับ LLM และโค้ดอะไรก็ตามที่ช่วยให้คอมพิวเตอร์ให้เหตุผลได้ด้วยตัวเองก็คือ AI ในความหมายนั้น harness ก็เป็น AI
/memoryรับหน้าที่ความคงอยู่ข้ามแต่ละการรัน และ/dreamingจะนำไอเดียใหม่เข้ามาจากไฟล์ความจำพวกนั้นกับผลลัพธ์ข้อมูลของการรันผมคิดว่านี่คือเส้นทางของ AGI แบบ asynchronous ที่ห้องแล็บต่าง ๆ จินตนาการไว้
ข้อจำกัดมีแค่ข้อมูลจากเซ็นเซอร์ที่มีเกี่ยวกับโลกหรือระบบ เวลาที่จะรอได้ และต้นทุนที่ใช้กับการทำงานแบบขนาน
ถ้าสร้าง workflow ที่ผ่านการตรวจสอบแบบนี้ขึ้นมาแล้วป้อนกลับเข้าไปฝึกใหม่ โมเดลก็จะมีเส้นทางย่อยต่าง ๆ และเริ่มได้ความรู้สึกต่อโลก จนอาจทำงานคล้ายสัญชาตญาณได้
แบบทดสอบ AGI ส่วนตัวของผมคือ ถ้าเอาโมเดลที่เรียนรู้จากวิดีโอคนเคาะประตูแล้วเปิดประตู ไปเจอกับไมโครเวฟที่ไม่เคยเห็นมาก่อน มันจะเปิดได้ตอนอาหารสุกโดยไม่เคาะก่อนได้ไหม
บทความนี้ไร้สาระ และพวกเขาสร้าง harness ด้วย vibe coding ซึ่งก็ดูออกจากผลลัพธ์
มันยังไม่ชัดเลยว่าจริง ๆ แล้ว recursive self-improvement ใน AI แบบโครงข่ายประสาทหมายถึงอะไรกันแน่ และตั้งแต่แรกก็ไม่แน่ว่าจะเป็นไปได้หรือเปล่า
ผมทนวลีทำนองว่า “AI ที่สร้างตัวเองได้คือความก้าวหน้าครั้งใหญ่ในประวัติศาสตร์เทคโนโลยี และอาจนำความดีมหาศาลมาสู่โลก” ไม่ไหวแล้ว
ไม่ว่า Anthropic จะสร้าง AI ที่ปรับปรุงตัวเองได้หรือไม่ ผมก็สงสัยว่าแต่แรกควรอนุญาตให้ทำหรือเปล่า
อย่างน้อยก็ควรมีการกำกับดูแลที่เข้มงวด
ผมไม่ได้คิดว่า Anthropic จะสร้าง ภาวะเอกฐาน ได้เดี๋ยวนี้ แต่ถึงแม้คนที่สนับสนุน AI เองก็ควรยอมรับว่าสิ่งนี้กำลังสร้างความเสี่ยงต่อสังคมโดยรวมเพื่อผลประโยชน์ของคนรวยจำนวนน้อยที่รวยอยู่แล้ว
เพียงแต่ตอนนี้มันเหมือนกำลังถกกันว่าจะ ปิดประตูคอกม้า หลังจากม้าวิ่งไปไกลสามไมล์แล้ว
ยังไงก็ตาม ถ้าบริษัทไหนมีอำนาจมากเกินไปก็ โอนเป็นของรัฐ ได้
ต่อให้ไม่พูดถึงข้อจำกัดทางเทคนิค มันก็ปิดกั้นไม่ได้และมีแนวโน้มจะรั่วไหลในไม่ช้า ดังนั้นคงไม่ใช่ว่าจะมีแค่เศรษฐีระดับสุดยอดไม่กี่คนที่ได้ประโยชน์
ใส่ข้อแม้ว่า “จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์” ไว้ก็ดีอยู่หรอก แต่ไม่แน่ใจว่าการปรับแบบนั้นควรทำให้ตัวคูณที่ประเมินไว้ “ลดลง” จริงหรือเปล่า
โดยเฉพาะถ้าเข้าใจว่าช่วงค่านั้นไม่ได้จำกัดอยู่แค่ค่าบวก
มีหลักฐานหนักแน่นว่าถ้าจะแสดงผลิตภาพในการเขียนโค้ดด้วย จำนวนบรรทัดโค้ด ก็ควรรวมค่าติดลบด้วย โดยเฉพาะในงานระดับคุณภาพสูง
ตัวอย่างที่เก่าแก่และเป็นตำนานที่สุดก็คือ https://www.folklore.org/Negative_2000_Lines_Of_Code.html
ถ้าเชื่อว่าเป้าหมายคือ จำนวนบรรทัดโค้ดติดลบ งั้นพวกเขาก็แย่ลง 8 เท่า