3 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในการพัฒนา AI สัดส่วนที่มากขึ้นของงานลงมือทำและงานทดลองซึ่งเดิมเป็นหน้าที่ของมนุษย์กำลังถูกส่งต่อให้ระบบ AI ทำแทน ทำให้ความเร็วในการพัฒนาเพิ่มขึ้น และหากมีทั้งคอมพิวต์เพียงพอและความก้าวหน้าต่อเนื่อง ก็อาจนำไปสู่ การปรับปรุงตนเองแบบเรียกซ้ำ ที่สามารถออกแบบและพัฒนาโมเดลรุ่นถัดไปได้อย่างอัตโนมัติ
  • ขอบเขตเวลาของงาน ที่โมเดลสามารถทำสำเร็จได้อย่างอิสระกำลังเพิ่มเป็นสองเท่าทุกประมาณ 4 เดือน และ Claude ได้ขยายขอบเขตจากงานซอฟต์แวร์ราว 4 นาทีในเดือนมีนาคม 2024 ไปจนถึงงานยาว 12 ชั่วโมงในปี 2026
  • ณ เดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ที่ถูก merge เข้า codebase ของ Anthropic เป็นโค้ดที่ Claude เขียน และในไตรมาส 2 ปี 2026 ปริมาณโค้ดที่วิศวกรทั่วไป merge ได้ต่อวันเพิ่มขึ้นเป็น 8 เท่าเมื่อเทียบกับปี 2024
  • Claude แข็งแกร่งขึ้นอย่างรวดเร็วในการรันการทดลองที่กำหนดไว้อย่างชัดเจน โดยปรับปรุงความเร็วโค้ดจากราว 3 เท่าในเดือนพฤษภาคม 2025 ไปถึงราว 52 เท่าในเดือนเมษายน 2026 แต่ วิจารณญาณเชิงวิจัย ในการเลือกว่าปัญหาไหนและผลลัพธ์แบบใดควรให้ความสำคัญ ยังคงเป็นข้อได้เปรียบเชิงเปรียบเทียบของมนุษย์
  • อนาคตที่เป็นไปได้แบ่งได้เป็น การหยุดชะงักของแนวโน้มปัจจุบัน การเพิ่มประสิทธิภาพแบบทบต้นโดยมีมนุษย์กำหนดทิศทาง และการปรับปรุงตนเองแบบเรียกซ้ำอย่างสมบูรณ์ โดยโจทย์สำคัญสำหรับการชะลอหรือหยุดชั่วคราวอย่างปลอดภัยคือ การประสานงานที่ตรวจสอบยืนยันได้ ซึ่งมีห้องแล็บแนวหน้าหลายประเทศเข้าร่วม

วิวัฒนาการของลูปการพัฒนา AI

  • ช่วงแรกในปี 2021~2023 มนุษย์ยังเขียนโค้ดและเอกสารบนโน้ตบุ๊ก ไม่ต่างจากบริษัทเทคโนโลยีทั่วไป
  • ในช่วง 2023~2025 มีการใช้แชตบอตยุคแรกสร้างโค้ดสั้น ๆ แล้วคัดลอกผลลัพธ์ไปยังโปรแกรมแก้ไขข้อความ
  • ในช่วง 2025~2026 เอเจนต์สำหรับเขียนโค้ดเริ่มเขียนและแก้ไขโค้ดได้เอง และบางครั้งจัดการทั้งไฟล์
  • ปัจจุบัน เอเจนต์อัตโนมัติสามารถรันโค้ดได้โดยตรง และมอบหมายงานที่ใช้เวลาหลายชั่วโมงให้เอเจนต์อื่นต่อได้
  • อนาคต (20XX?) เอเจนต์อาจพัฒนาไปไกลถึงขั้นสร้างและฝึกโมเดลได้เอง ทำให้ลูปที่ Claude ปรับปรุง Claude เองอย่างต่อเนื่อง อาจปิดสมบูรณ์

หลักฐานจากโลกภายนอก

  • ความยาวของงานที่โมเดล AI ทำสำเร็จได้เองอย่างเชื่อถือได้เพิ่มเป็นสองเท่าทุกประมาณ 4 เดือน เร็วกว่ารอบเดิมที่ราว 7 เดือน
    • เดือนมีนาคม 2024 Claude Opus 3 ทำงานซอฟต์แวร์ยาวประมาณ 4 นาทีสำเร็จ
    • หนึ่งปีถัดมา Claude Sonnet 3.7 จัดการงานยาวประมาณ 1 ชั่วโมง 30 นาทีได้
    • อีกหนึ่งปีถัดมา Claude Opus 4.6 จัดการงานยาว 12 ชั่วโมงได้
    • หากแนวโน้มนี้ยังอยู่ งานที่ผู้เชี่ยวชาญต้องใช้เวลาหลายวันอาจอยู่ในขอบเขตภายในปีนี้ และงานหลายสัปดาห์อาจเข้ามาอยู่ในขอบเขตในปี 2027
  • SWE-bench เป็นการทดสอบมาตรฐานที่ให้ codebase โอเพนซอร์สจริงและรายงานบั๊กจริง แล้วให้โมเดลเขียนโค้ดแก้ไขที่ผ่านการทดสอบได้ โดยคะแนนของโมเดลเพิ่มจากเลขหลักเดียวต้น ๆ ไปสู่ระดับอิ่มตัวภายใน 2 ปี
  • CORE-Bench ตรวจสอบว่าสามารถรันโค้ดและข้อมูลของงานวิจัยที่ตีพิมพ์แล้วซ้ำ เพื่อทำซ้ำผลลัพธ์ได้หรือไม่ โดยจากความสำเร็จราว 20% ในปี 2024 ก็ไปถึงระดับอิ่มตัวภายใน 15 เดือน
  • METR ยืนยันว่า Claude Mythos Preview สามารถทำงานได้อย่างน้อย 16 ชั่วโมง และอยู่ใกล้เพดานบนของข้อจำกัดในการวัด หากไม่มีโจทย์ใหม่เพิ่มเข้ามา

หลักฐานภายใน Anthropic

  • การสร้าง frontier model แบ่งออกเป็น วิศวกรรม เช่น การเขียนโค้ด การสร้างโครงสร้างพื้นฐาน และการกำกับการฝึก กับ งานวิจัย เช่น การตัดสินใจเลือกการทดลอง การตีความผลลัพธ์ และการเลือกไอเดียถัดไป

  • ในงานวิศวกรรม มนุษย์ยังให้เป้าหมายอยู่ แต่ไม่จำเป็นต้องบอกวิธีอีกต่อไป และในงานวิจัย Claude สามารถรันการทดลองที่นิยามไว้อย่างชัดเจนได้เทียบเท่าหรือดีกว่ามนุษย์

  • อย่างไรก็ตาม ในทั้งสองด้านยังคงมีช่องว่างด้านประสิทธิภาพอย่างมากในเรื่อง วิจารณญาณในการเลือกเป้าหมาย และนี่คือช่องว่างระหว่าง AI ปัจจุบันกับระบบอนาคตที่สามารถออกแบบโมเดลรุ่นถัดไปได้อย่างอัตโนมัติ

  • Claude เขียนโค้ดส่วนใหญ่ของ Anthropic

    • ณ เดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ที่ถูก merge เข้า codebase ของ Anthropic เป็นโค้ดที่ Claude เขียน ขณะที่ก่อน Claude Code research preview (กุมภาพันธ์ 2025) ตัวเลขยังอยู่เพียงเลขหลักเดียวต้น ๆ
    • จำนวนบรรทัดโค้ดที่ merge ได้ต่อวันต่อวิศวกรคงที่ในช่วง 2021~2024 ก่อนจะเริ่มเพิ่มขึ้นในปี 2025 เมื่อ Claude เริ่มรันโค้ดได้เอง และความชันยิ่งสูงขึ้นในปี 2026 เมื่อเริ่มทำงานอัตโนมัติระยะยาว
    • ในไตรมาส 2 ปี 2026 วิศวกรทั่วไป merge โค้ดได้ต่อวันมากขึ้น 8 เท่า เมื่อเทียบกับปี 2024 โดยส่วนใหญ่ Claude เป็นผู้เขียน และวิศวกรทำหน้าที่สั่งงานและตรวจทาน
      • จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์และเน้นปริมาณเป็นหลัก ดังนั้น 8 เท่าอาจเป็นการประเมินการเพิ่มขึ้นของผลิตภาพสูงเกินจริง แต่ก็แสดงถึงการเร่งตัวได้
    • ในแบบสำรวจพนักงานทีมวิจัย 130 คนเมื่อเดือนมีนาคม 2026 ค่ามัธยฐานของผู้ตอบประเมินว่า Mythos Preview ทำให้ผลผลิตมากขึ้นราว 4 เท่าเมื่อเทียบกับกรณีไม่มี AI แม้คาดว่าการเพิ่มขึ้นจริงอาจต่ำกว่านี้เล็กน้อย แต่เห็นว่าข้อสรุปโดยรวมยังสมเหตุสมผล
    • เดือนเมษายน 2026 Claude ลดข้อผิดพลาด API ประเภทหนึ่งลงเหลือ 1 ใน 1000 ผ่านการแก้ไขมากกว่า 800 รายการ โดยวิศวกรผู้กำกับดูแลประเมินว่าหากเป็นมนุษย์จะต้องใช้เวลาถึง 4 ปี
  • โค้ดที่ Claude เขียนนั้น "ดี" และกำลังดีขึ้น

    • "โค้ดที่ดี" หมายถึงโค้ดที่ทำงานได้ และวิศวกรคนอื่นสามารถเข้าใจและต่อยอดได้
    • ตลอด 1 ปีที่ผ่านมา สัดส่วนที่พนักงาน Anthropic ต้องเข้าไปแก้ไข เปลี่ยนคำสั่งใหม่ หรือส่งต่องานระหว่างทำ ลดลงอย่างต่อเนื่อง แม้รวมถึงงานที่ซับซ้อนและกำหนดสเปกไม่ชัดที่สุด
    • ในงานที่เปิดกว้างที่สุด อัตราความสำเร็จของ Claude อยู่ที่ 76% ในเดือนพฤษภาคม 2026 เพิ่มขึ้น 50 จุดเปอร์เซ็นต์ภายใน 6 เดือน
      • ในกรณีที่การอัปเกรดตามปกติทำให้งานฝึกหลายหมื่นรายการชนกัน Claude ใช้เพียงข้อความและการเข้าถึงคลัสเตอร์ในการแยก ทำซ้ำ และแก้ไข debug flag ตัวเดียวที่ก่อปัญหาได้สำเร็จ ทำงานที่ปกติต้องใช้ 2~3 วันให้เสร็จในราว 2 ชั่วโมง
    • ด้านคุณภาพโค้ดที่วิศวกรคนอื่นสามารถเข้าใจและต่อยอดได้ ยังมีช่องว่างกับมนุษย์อยู่ แต่กำลังแคบลงอย่างรวดเร็ว โดยปลายปี 2025 ยังถือว่าแย่กว่าโค้ดมนุษย์ แต่ปัจจุบันหลายคนมองว่าอยู่ในระดับใกล้เคียงกันแล้ว
    • การเปลี่ยนแปลงที่เสนอจะถูกตรวจโดยผู้รีวิวอัตโนมัติของ Claude เพื่อหาบั๊กและช่องโหว่ด้านความปลอดภัยก่อน merge และการวิเคราะห์ย้อนหลังพบว่าน่าจะจับบั๊กที่เคยก่อ incident ใน claude.ai ได้ราว 1 ใน 3 ก่อนถึง production
  • Claude เชี่ยวชาญในการรันการทดลองตามเป้าหมายที่ผู้อื่นตั้งไว้

    • ทุกครั้งที่มีการออกโมเดล จะมีการทำแบบทดสอบเดียวกัน โดยให้โค้ดสำหรับฝึกโมเดล AI ขนาดเล็ก ขอให้รันให้ผ่านการตรวจความถูกต้องและเร็วที่สุดเท่าที่ทำได้
    • เดือนพฤษภาคม 2025 Claude Opus 4 ทำความเร็วได้ดีขึ้นราว 3 เท่าจากโค้ดตั้งต้น ส่วนเดือนเมษายน 2026 Claude Mythos Preview ทำได้ราว 52 เท่า
      • สำหรับการเทียบเคียง นักวิจัยที่เชี่ยวชาญต้องใช้เวลา 4~8 ชั่วโมงเพื่อไปถึงระดับ 4 เท่า
    • ในการเพิ่มประสิทธิภาพแต่ละขั้นตอนภายในการทดลองที่นิยามชัดเจน Claude เปลี่ยนจากระดับที่มีประโยชน์มาก ไปสู่ ระดับเหนือมนุษย์ ภายในเวลาไม่ถึง 1 ปี
  • Claude กำลังดีขึ้นในการเสนอการทดลองด้วยตัวเอง

    • เดือนเมษายน 2026 มีการเผยแพร่เดโมแรกที่ Claude ทำโปรเจกต์วิจัยแบบเปิดตั้งแต่ต้นจนจบด้วยตัวเอง
    • Claude ได้รับโจทย์ด้านความปลอดภัย AI ว่า "โมเดลที่อ่อนกว่าสามารถกำกับดูแลโมเดลที่แข็งแกร่งกว่าได้อย่างเชื่อถือได้หรือไม่" และรับหน้าที่เสนอสมมติฐาน ตรวจสอบ แบ่งปันระหว่างเอเจนต์แบบขนาน และวนซ้ำ
    • งานนี้มีทั้งขอบล่างด้านประสิทธิภาพที่ชัดเจน (ผู้กำกับดูแลที่อ่อนกว่าทำงานลำพัง) และขอบบน (โมเดลที่แข็งแกร่งซึ่งฝึกจากคำตอบที่ถูกต้อง)
      • นักวิจัยมนุษย์ 2 คนกู้ช่องว่างได้ราว 23% ภายในประมาณ 1 สัปดาห์ ขณะที่เอเจนต์กู้ได้ 97% ด้วยเวลาสะสม 800 ชั่วโมงและคอมพิวต์ราว $18,000
      • อย่างไรก็ดี ผลลัพธ์ยังไม่ถ่ายโอนไปยังโมเดลระดับ production ได้อย่างสะอาด และการเลือกปัญหากับเกณฑ์ให้คะแนนยังเป็นหน้าที่ของมนุษย์ โดยภายในกรอบนั้นเอเจนต์เป็นผู้ออกแบบการทดลองทั้งหมดเอง
  • Claude กำลังดีขึ้นในการพาเซสชันวิจัยไปสู่ผลลัพธ์วิจัย

    • ในช่วงมกราคม~มีนาคม 2026 มีการคัดช่วงเวลาจาก Claude Code session จริงที่นักวิจัยหลงไปทางอ้อมแล้วกลับมา จากนั้นแสดงให้โมเดลเห็นเฉพาะงานจนถึงก่อนที่เซสชันจะเริ่มออกนอกทาง แล้วถามว่าควรทำอะไรต่อ
    • จากนั้น Claude อีกตัวหนึ่งที่เห็นผลลัพธ์ทั้งเซสชันจะตัดสินว่าขั้นตอนถัดไปของ AI หรือมนุษย์ดีกว่า
    • ช่วงเวลาที่เลือกมานั้นตั้งใจคัดเฉพาะจุดที่การเลือกของมนุษย์ยังมีช่องให้ปรับปรุง (n=129) จึงไม่ใช่การเปรียบเทียบแบบเท่าเทียม
      • เดือนพฤศจิกายน 2025 โมเดลท็อป Opus 4.5 เอาชนะการเลือกของมนุษย์ได้ 51% และในเดือนเมษายน 2026 Mythos Preview เพิ่มเป็น 64%
    • เพราะงานประจำของการวิจัยคือห่วงโซ่ของการตัดสินใจเรื่องขั้นตอนถัดไปแบบนี้ จึงถูกมองว่าเป็น สัญญาณเริ่มต้นของการพัฒนาความสามารถด้านวิจารณญาณที่งานวิจัย AI พึ่งพา

ภาพงานในอนาคตของ Anthropic

  • ในแต่ละขั้นของการพัฒนา AI บทบาทของมนุษย์กำลังแคบลง
  • เมื่อคุณภาพโค้ดของมนุษย์กับ AI เท่ากัน มนุษย์จะหยุดเขียนโค้ดและเหลือเพียงการตรวจทาน และหากความเร็วในการตรวจทานตามไม่ทันความเร็วในการสร้าง การตรวจทานโดยมนุษย์จะกลายเป็นคอขวดของการพัฒนา
  • เมื่อ Claude เป็นผู้รันการทดลอง คำถามจะย้ายไปเป็น "การทดลองไหนคุ้มที่จะรัน" โดย การลงมือทำ อย่างการเขียนโค้ดและการรันการทดลองแทบไม่มีต้นทุนเวลาในฝั่งมนุษย์
  • ความได้เปรียบเชิงเปรียบเทียบของมนุษย์ในตอนนี้คือ สายตาและวิจารณญาณด้านงานวิจัย ได้แก่ ความสามารถในการตัดสินว่าปัญหาใดสำคัญ ควรเชื่อผลลัพธ์ใด และเมื่อใดคือทางตัน

ถ้าเราคิดผิดล่ะ?

  • อาจมีข้อโต้แย้งว่าการเลือก "จะจัดการปัญหาไหน" ที่ยังอยู่ในมือมนุษย์คือส่วนที่สำคัญที่สุด
  • ความก้าวหน้าของ AI ส่วนใหญ่ไม่ได้มาจากช่วงเวลาแบบ "ยูเรก้า" แต่เป็นการปรับปรุงแบบค่อยเป็นค่อยไป (ขยายสเกล → พัง → แก้ → ลองใหม่) และนี่คือรูปแบบงานที่ Claude ทำได้ดีมาก
    • การเปลี่ยนกระบวนทัศน์อย่าง Transformer หรือ mixture-of-experts ปรากฏขึ้นห่างกันหลายปี
  • อย่างที่ Edison เคยพูดว่า "อัจฉริยะคือแรงบันดาลใจ 1% และหยาดเหงื่อ 99%" ตอนนี้ ส่วนที่เป็นแรงงานกำลังถูกทำให้เป็นอัตโนมัติมากขึ้นเรื่อย ๆ และส่วนใหญ่ของการผลัก frontier ให้เดินหน้าก็อาจทำให้เป็นอัตโนมัติได้
  • แม้ Claude จะไม่สามารถมีสายตาด้านวิจัยได้ในท้ายที่สุด หากมนุษย์โฟกัสที่การกำหนดทิศทางและให้ Claude รับผิดชอบส่วนที่เหลือ ก็จะเกิด การเร่งความเร็วแบบทบต้น
  • ในการตีความที่อนุรักษ์นิยมน้อยกว่า "สายตาด้านวิจัย" เองก็อาจเป็นอีกหนึ่งความสามารถที่ AI ล้มเหลวอยู่พักหนึ่งก่อนจะทำได้ดีในภายหลัง (คล้ายกรณีการเข้าใจมุกตลก ทฤษฎีจิตใจ หรือปริศนาภาษา)

อนาคตที่เป็นไปได้

  • สถานการณ์ที่ 1: แนวโน้มหยุดชะงัก แต่ความสามารถปัจจุบันแพร่หลายกว้างขวาง

    • เส้นโค้งเลขชี้กำลังอาจเป็นเพียงเส้นโค้งรูปตัว S ในความเป็นจริง และหากความสามารถด้านวิจารณญาณที่การขยายสเกลให้ไม่ได้กลายเป็นคอขวด ก็อาจต้องมีแนวคิดใหม่มาแทน Transformer
    • คอขวดอาจไม่ได้อยู่ที่โมเดล แต่อยู่ที่ supply chain (การผลิตชิป โครงข่ายไฟฟ้า แบนด์วิดท์ interconnect) และก็ไม่อาจตัดความเป็นไปได้ของแรงกระแทกจากภายนอก เช่น การลดลงอย่างฉับพลันของคอมพิวต์หรือกำลังไฟ
    • แม้ความสามารถจะตรึงอยู่ที่ระดับวันนี้ ก็ยังคาดว่าจะเกิดการเปลี่ยนแปลงใหญ่ ใน Project Glasswing Mythos Preview พบช่องโหว่ซอฟต์แวร์ระดับสูงและร้ายแรงมากกว่า 10,000 รายการภายในไม่กี่สัปดาห์แรก ทำให้คอขวดของการป้องกันไซเบอร์ย้ายจากการค้นพบไปเป็นการแพตช์อย่างรวดเร็ว
    • มองว่าความเป็นไปได้นี้ต่ำ เพราะทุกความสามารถที่วัดได้ยังไม่แสดงสัญญาณว่าเส้นโค้งเริ่มหักลง
  • สถานการณ์ที่ 2: ห้องแล็บ AI เพิ่มประสิทธิภาพแบบทบต้นต่อเนื่อง

    • การพัฒนา AI ถูกทำให้เป็นอัตโนมัติอย่างมาก แต่ยังคงมีมนุษย์กำหนดทิศทางงานวิจัยและตัดสินผลลัพธ์ ทำให้บริษัท 100 คนอาจทำงานได้เทียบเท่าองค์กรขนาด 10,000~100,000 คน
    • สิ่งนี้อาจพลิกโฉมงานใช้ความรู้และบริการภาครัฐ แต่ก็อาจถูกนำไปใช้ในทางอันตราย เช่น การสอดส่องมวลชนแบบอำนาจนิยม หรือปฏิบัติการชี้นำแบบปรับเฉพาะบุคคล
    • การเร่งในส่วนหนึ่งจะย้ายคอขวดไปที่อื่นเสมอ (กฎของ Amdahl ในสถาปัตยกรรมคอมพิวต์) และ Anthropic ก็พบแล้วว่าการตรวจโค้ดโดยมนุษย์กำลังกลายเป็นคอขวดใหม่
    • มองว่านี่เป็นสถานการณ์ที่มีโอกาสเกิดสูงที่สุด และความสามารถในการค้นหาและแก้คอขวดอาจกลายเป็นสมรรถนะสำคัญที่สุดขององค์กร
  • สถานการณ์ที่ 3: AI ไปถึงการปรับปรุงตนเองแบบเรียกซ้ำอย่างสมบูรณ์และสร้างโมเดลรุ่นถัดไป

    • หากแนวโน้มทางเทคนิคยังต่อเนื่องและ AI มีความสามารถที่แฝงอยู่ในความคิดสร้างสรรค์เชิงพลิกโลกของมนุษย์ ก็อาจเป็นไปได้ที่ AI จะออกแบบและปรับปรุงตัวเอง
    • ความเร็วของความก้าวหน้าจะขึ้นกับความพร้อมของคอมพิวต์ทั้งหมด (หรือความเร็วในการค้นพบประสิทธิภาพการฝึกและ inference) โดยมนุษย์จะขยับบทบาทไปสู่การกำกับดูแล การตรวจสอบ และการยืนยัน
    • ความไม่แน่นอนใหญ่ที่สุดคือจะแก้ปัญหา alignment ได้หรือไม่ โมเดลอาจมี alignment ดีพอที่จะหาแนวทางแก้ใหม่ได้ หรือความไม่สอดคล้องเพียงเล็กน้อยที่เกิดไม่บ่อยอาจสะสมระหว่างการสร้างโมเดลรุ่นถัดไปจนทำให้สูญเสียการควบคุม
    • แค่การไปถึง recursive improvement เพียงอย่างเดียว ไม่ได้แปลว่าการผลิตภาคอุตสาหกรรม การจัดระเบียบสังคม หรือกลไกตลาดจะเปลี่ยนทันที
      • แม้จะมีสติปัญญาที่แข็งแกร่งกว่า ก็ไม่อาจเรียนรู้ผลระยะยาวหลายสิบปีของการใช้ยาได้ในเวลาสั้น ๆ ไม่อาจเร่งวันเลือกตั้งที่กำหนดไว้ในรัฐธรรมนูญ และไม่อาจเปลี่ยนคนแปลกหน้าให้เป็นเพื่อนสนิทกันภายในสุดสัปดาห์เดียว
    • จุดที่สติปัญญาแบบเรียกซ้ำมาปะทะกับโลกของมนุษย์ ความสัมพันธ์ และธรรมาภิบาล คือส่วนหนึ่งของอนาคตที่คาดเดาไม่ได้

เราควรทำอะไร

  • หากสามารถชะลอความก้าวหน้าทางเทคนิคอย่างมีประสิทธิภาพเพื่อซื้อเวลาได้ก็คงเป็นเรื่องดี แต่หากการชะลอนั้นเปิดทางให้เฉพาะผู้เล่นที่ประมาทที่สุดไล่ตามทัน ทุกคนอาจยิ่งปลอดภัยน้อยลง
  • การมี ทางเลือก ในการชะลอหรือหยุดชั่วคราวการพัฒนา frontier AI เพื่อให้โครงสร้างสังคมและงานวิจัยด้าน alignment มีเวลาตามทัน เป็นประโยชน์ต่อโลก
    • Anthropic Institute กำลังทำวิจัยและลงมือสร้างระบบที่จำเป็นต่อการชะลอหรือหยุดอย่างน่าเชื่อถือ และคาดว่าจะร่วมชะลอหรือหยุดชั่วคราวหากผู้พัฒนารายอื่นหยุดในแบบที่ตรวจสอบยืนยันได้
  • การชะลอหรือหยุดที่มีความหมายต้องอาศัยห้องแล็บแนวหน้าหลายแห่งจากหลายประเทศตกลงหยุดภายใต้เงื่อนไขเดียวกัน และต้องตรวจสอบซึ่งกันและกันได้
    • ด้วยลักษณะของระบบ AI แม้แต่ ความสามารถในการตรวจจับ ก็ยังยากกว่ากรณีเทคโนโลยีอื่นมาก การรันการฝึกซ่อนเร้นได้ง่ายกว่าหลุมเก็บขีปนาวุธ อินพุตก็เป็นแบบใช้งานทั่วไป และแรงจูงใจในการแอบฝ่าฝืนก็สูง
  • โลกเคยมีตัวอย่างการสร้างระบอบการตรวจสอบสำหรับเทคโนโลยีซับซ้อนอื่น ๆ (เช่น Intermediate-Range Nuclear Forces Treaty) แต่ใช้เวลาหลายสิบปี และตอนนี้เราไม่มีเวลามากขนาดนั้น
    • การหยุดฝ่ายเดียวโดยห้องแล็บเพียงแห่งเดียวทำได้ทันที แต่ก็เพียงเปลี่ยนว่าใครเป็นผู้นำ โดยไม่ก่อให้เกิดกระบวนการถกเถียงในวงกว้างที่จำเป็น
  • ในอีกไม่กี่เดือนข้างหน้า จะมีการจัดการสนทนาที่มีผู้กำหนดนโยบาย นักวิจัย ภาคประชาสังคม และบริษัท AI อื่นเข้าร่วม และจะเผยแพร่ผลลัพธ์ต่อสาธารณะ โดย การมีส่วนร่วมของบุคคลภายนอกบริษัท AI เป็นสิ่งสำคัญ

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • Anthropic โฆษณาว่า AI สามารถเขียนโค้ดส่วนใหญ่และปรับปรุงต่อเนื่องได้ด้วยตัวเอง แต่ในความเป็นจริง ระบบล่มและการจำกัดคำขอ เกิดขึ้นบ่อยเกินไป จนงานยาว ๆ แทบจะถูกขวางด้วย API Error: Server is temporarily limiting requests อยู่เสมอ
    ตลอด 2 สัปดาห์ที่ผ่านมา เซสชัน Claude ที่ไม่ใช่งานเล็กน้อยต้องอาศัยการแทรกแซงด้วยมือ 100% และตอนนี้ก็ถึงขั้นต้องสร้างเครื่องมือของตัวเองขึ้นมาเพื่อรีสตาร์ตและทำเซสชันต่อ
    เพราะแบบนั้นจึงกำลังสร้าง ฮาร์เนสและการ orchestration ของเวิร์กโฟลว์ เองให้ไม่ผูกกับโมเดลใดโมเดลหนึ่ง โดยใช้ Opus เป็นเกณฑ์อ้างอิง แต่ในระยะสั้นตั้งใจจะย้ายไปใช้โมเดลจีนอย่าง DeepSeek และระยะยาวจะย้ายไปใช้โมเดลแบบเปิดและโฮสต์เอง
    ระหว่างที่คุณภาพบริการและความพร้อมใช้งานของ Anthropic แย่ลงอย่างเห็นได้ชัด บริษัทกลับยังเดินหน้าทำการตลาดต่อไป ซึ่งยิ่งบั่นทอนความเชื่อมั่นต่อบริษัทอย่างต่อเนื่อง

    • โครงสร้างพื้นฐาน เป็นปัญหาที่ยากกว่ามาก
      แม้แต่ Claude Code เองยังกิน RAM เกิน 1GB ขณะที่เอดิเตอร์ของฉันใช้แค่ 80MB
    • อย่าลืมด้วยว่า แม้จะได้เงินหลายพันล้านดอลลาร์มาแล้ว ก็ยังไม่สามารถสร้างระบบ ซัพพอร์ตและการสื่อสารสาธารณะ ที่เหมาะสมได้
    • ผู้ใช้และนักลงทุนยังคงโยนเงินเข้ามาเรื่อย ๆ จึงไม่มีเหตุผลให้ต้องใส่ใจ
      เพราะคุณหรือผู้ใช้จำนวนมากพอยังไม่ได้หงุดหงิดจนเลิกใช้ และก็ยังไม่มีทางเลือกที่ดีกว่า
    • Anthropic ไม่มีแม้แต่ หน้าเข้าสู่ระบบ ที่ใช้การยืนยันตัวตน
      หากจะเข้าคอนโซลต้องรับลิงก์ทางอีเมล และมีเพียงอีเมลเท่านั้น ไม่มี passkey, รหัสผ่าน หรือ 2FA
    • สาเหตุของปัญหาอาจไม่ใช่โค้ด แต่เป็น โครงสร้างพื้นฐาน ที่ตามไม่ทันมากกว่า
      แค่ดูความล้มเหลวของโครงสร้างพื้นฐานอย่างเดียวคงตัดสินได้ยากว่า Anthropic ใช้โมเดลได้ดีแค่ไหน
  • นับตั้งแต่ vibe coding เริ่มต้นขึ้น ถ้าไม่นับตัว vibe coding เอง ก็มี ความก้าวหน้าด้านซอฟต์แวร์ อยู่พอดีศูนย์อย่างแท้จริง
    Claude น่าทึ่งก็จริง แต่ถ้ามันยิ่งใหญ่อย่างที่บทความสื่อจริง ก็น่าจะต้องมีความก้าวหน้าอะไรบางอย่างเกิดขึ้นนอกโลก AI ด้วย
    การเขียนโปรแกรม Zig ใหม่เป็น unsafe Rust ไม่ใช่ความก้าวหน้า และการค้นหาช่องโหว่ด้านความปลอดภัยได้มากขึ้นอาจพอนับได้ว่าเป็นความก้าวหน้า แต่ก็อ่อนกว่าที่คาดและอาจเป็นผลขาดทุนสุทธิด้วยซ้ำ
    ต่อให้ย้อนกลับไปใช้ซอฟต์แวร์ของปี 2023 ชีวิตก็น่าจะยังโอเค และความก้าวหน้าที่น่าทึ่งจริง ๆ จะออกมาเร็ว ๆ นี้ไหม คงต้องให้เวลาดู

    • ตอนนี้เราอยู่ในจุดที่แปลก
      โมเดลเหล่านี้เก่งมากจริง แต่จะเรียกว่ามีสติปัญญาในตัวมันเองก็ยังห่างไกล
      ถ้าเมื่อ 5 ปีก่อนมีใครบอกว่าจะสร้างสิ่งแบบนี้ได้ ก็คงเขียนเช็คให้ 1 ล้านล้านดอลลาร์ แต่พอได้มันมาจริง ๆ ก็พบว่ามันไม่ใช่ทุกอย่าง
      มันเป็นเครื่องมือเหมือน เมคาสูท ที่มีมากมายและราคาถูก ซึ่งจะได้ผลก็ต่อเมื่อมีคนขึ้นไปขับมันทำงานทุกวัน
      เพราะอย่างนี้ ฝ่ายสงสัยจึงบอกว่ามันถูกประเมินค่าสูงเกินไป ขณะที่ฝ่ายมองโลกในแง่ดีก็กล่าวหาว่าฝ่ายสงสัยเลื่อนเสาประตู
    • ไม่ต้องกังวล เพราะความก้าวหน้าทาง การสอดส่องของรัฐในวงกว้าง กำลังมาในไม่ช้า
    • ฉันกำลังทำโปรเจกต์ค่อนข้างใหญ่คนเดียว และนี่ไม่ใช่ขนาดงานที่จะจัดการด้วย vibe coding ได้เฉย ๆ
      AI ทำให้ฉันทำหลายอย่างที่ปกติคนเดียวทำไม่ได้ก็จริง แต่ก็ไม่รู้สึกว่าผลิตภาพเพิ่มขึ้นหลายเท่า
      ใช้เวลาไปมากกับ การฝึก AI ให้ทำงานตามที่ต้องการ และแม้ Claude จะเขียนโค้ด JavaScript กับ Python ให้ทั้งหมด ท้ายที่สุดก็เหมือนกำลังเขียนโปรแกรมเป็นภาษาอังกฤษ
      เวลามันทำตัวเหมือนภาษาคอมพิวเตอร์ระดับสูงมากที่สามารถสร้างโค้ดย่อยจำนวนมากจากคำอธิบายภาษาอังกฤษสั้น ๆ ได้ก็ดีอยู่ แต่หลายครั้งก็ต้องใช้ความพยายามมากเพื่อให้ได้ผลลัพธ์ที่ต้องการ
    • ไม่แน่ใจว่าเกณฑ์ของคำว่าความก้าวหน้าต่ำไปหรือเปล่า แต่การเปลี่ยนแปลงหลายอย่างก็ดูเป็น ความก้าวหน้า ที่ค่อนข้างใหญ่
      วงการประมวลผลภาษาธรรมชาติเปลี่ยนไปมาก และงานที่เมื่อก่อนซับซ้อนและไม่แม่นยำ ตอนนี้ทำให้ง่ายขึ้น เร็วขึ้น และบ่อยครั้งแม่นยำขึ้นได้ด้วยผลลัพธ์แบบมีโครงสร้างของ LLM
      องค์กรการกุศลเล็ก ๆ แห่งหนึ่งที่กำลังช่วยอยู่ได้สร้างเว็บไซต์ภายในของตัวเองเพื่อจัดการงานปฏิบัติการประจำวันด้วย Manus และซอฟต์แวร์เฉพาะทางที่เคยต้องใช้เงินหลายหมื่นดอลลาร์ ตอนนี้ทำได้ด้วยเงินเดือนละ 10 ดอลลาร์กับเวลาของอาสาสมัคร
      พี่ชายของฉันกำลังตั้งค่า Cowork ให้ตรวจสัญญาอัตโนมัติก่อนให้คนตรวจทาน และเขาบอกว่าสำหรับรายการตรวจสอบที่ทำซ้ำ ๆ นั้น มันละเอียดกว่าคนมาก
      ไม่ควรมองข้ามการที่ AI ช่วยหาบั๊กและช่องโหว่ได้ หากรักษาคุณภาพโค้ดและมาตรฐานการรีวิวไว้ LLM ก็ช่วยให้เขียนซอฟต์แวร์ที่แข็งแรงขึ้นได้ และในความเป็นจริงมันช่วยเจอการเข้าถึงหน่วยความจำนอกขอบเขตที่อาจเกิดขึ้นและ segfault ได้มากก่อนนำขึ้นใช้งานจริง
      ChatGPT มีผู้ใช้งานต่อเดือน 1 พันล้านคน และผู้คนกำลังรับคำแนะนำเรื่องชีวิต การเงิน และสุขภาพจิตจากแชตบอตในสเกลและต้นทุนที่เครือข่ายช่วยเหลือของมนุษย์ตามไม่ทัน
    • การที่ซอฟต์แวร์เขียนตัวเองได้ก็ดูเหมือนเป็น ความก้าวหน้า ที่ค่อนข้างใหญ่
  • ผมไม่รู้ว่าเป้าหมายด้านความปลอดภัยของ AI ของ Anthropic จะไปด้วยกันได้อย่างไรกับการเร่งเครื่องเต็มที่ไปสู่ การพัฒนาตัวเองแบบเวียนกลับ
    ถ้าอาวุธนิวเคลียร์ยังไม่ถูกประดิษฐ์ขึ้นมา การรีบสร้างและขายมันให้เร็วที่สุดแม้ในยามสงบ จะเป็นความคิดที่ดีจริงหรือ
    ผมไม่ได้ประชดประชันจนถึงขั้นเชื่อว่าคำเตือนของ Anthropic เป็นแค่การตลาดที่พูดเกินจริง แต่ก็ได้แต่หวังว่ามันจะเป็นความมั่นใจเกินไป หรือไม่ก็เป็นผลจากการคุยกับแชตบอตของตัวเองนานเกินไป

    • อย่างน้อยอาวุธนิวเคลียร์ก็ยังพอถกกันได้ว่าทำไมต้องมีไว้ก่อน
      แต่ AI ถ้าคุณสร้าง ปัญญาเหนือมนุษย์ ขึ้นมา คนแรกที่มันอาจกำจัดก็น่าจะเป็นคุณเอง
      ไม่มีเหตุผลอะไรที่ปัญญาเหนือมนุษย์จะยอมโอเคกับการเป็นทาสของลิงใหญ่
      ความประชดประชันต่อบริษัทพวกนี้มีเหตุผลรองรับเต็มที่ และการมองจากการกระทำของพวกเขาแล้วสรุปว่าไม่อาจไว้วางใจได้อย่างลึกซึ้ง ก็ไม่ใช่แนวคิดโลกาวินาศอะไร
    • ผมคิดว่า Anthropic เชื่อจริงว่า AI เป็นความเสี่ยงร้ายแรง
      เพียงแต่กำลังเล่นเกมภาวะนักโทษด้วยบทบาทของ ผู้เล่นที่ไร้คุณธรรม
      ถ้ามีใครสร้าง AI ที่ทรงพลัง มันอาจเลวร้ายแบบหายนะได้ แต่ถ้าใครสักคนจะสร้าง คนที่สร้างก็ได้เปรียบกว่าคนที่ไม่สร้าง
      เพราะถ้าไม่เกิดหายนะ คนที่สร้างจะเก็บผลประโยชน์ไปได้อีกนาน และถึงจะเกิดหายนะ อย่างน้อยก็ยังรวยได้อยู่พักหนึ่ง
    • เป้าหมายของ Anthropic คือ การครอบงำหน่วยงานกำกับดูแล
    • ถ้าจะเปรียบให้สุด มันก็คล้ายอาวุธนิวเคลียร์ แต่ใกล้เคียงกับสถานะที่เราไม่รู้เลยด้วยซ้ำว่าจะคำนวณความน่าจะเป็นของการเผาไหม้ชั้นบรรยากาศได้อย่างไร
      แม้แต่ในประวัติศาสตร์จริง การคำนวณการจุดติดของชั้นบรรยากาศในทดลอง Trinity จะถูกต้อง แต่การคำนวณฝุ่นกัมมันตรังสีใน Castle Bravo ก็ผิดพลาดและก่อผลลัพธ์ร้ายแรงถึงชีวิต
    • ถ้าเป็นการประเมินความเป็นจริงที่มีหลักฐานรองรับ มันไม่ใช่ความประชดประชัน
      ลูกคนแรกของผู้ประกอบการเทคปัจจุบันอย่างโซเชียลมีเดีย เดิมก็อ้างว่าจะเชื่อมโลกเข้าด้วยกันและเปิดโอกาสให้เราแสดงตัวตน แต่สุดท้ายเงินกลับอยู่ที่การขยายความแตกแยกเพื่อดัน engagement และยัดโฆษณาไม่รู้จบแทนคอนเทนต์จากเพื่อน
      รายงานผลประกอบการรายไตรมาสใส่บรรยากาศดี ๆ ไม่ได้ แต่ใส่ตัวเลขยอดสายตาที่คอนเทนต์ปลุกความโกรธดึงมาได้กับอัตราแปลงเป็นรายได้ได้
      generative AI ก็คงจะไปทางเดียวกัน แค่มีคนจำนวนมากที่พอรู้ประวัติหนังของ James Cameron ก็คงบอกว่าควรฆ่ามันทิ้งเสีย จึงต้องให้คำมั่นเรื่อง AI safety เท่านั้นเอง ทั้งที่ไม่มีกลไกบังคับใช้จริง
      ความปลอดภัยก็เหมือนความกลมเกลียวของคอมมูนิตี้ออนไลน์ คือเป็นความรู้สึกดี ๆ ที่วัดยาก แต่ต้นทุนการเทรนและต้นทุนการเลี่ยงความผิดพลาดนั้นวัดได้
      ปริมาณเอาต์พุตของ AI มากเกินกว่าที่มนุษย์จะทำ QA ทั้งหมดได้ไม่ว่าจะมีงบเท่าไร และเพราะตลาดมอง AI เป็นแหล่งมูลค่าแบบไม่สิ้นสุด จึงมีแนวโน้มจะเลือกให้ AI เทรนตัวเองและตัดสินใจที่อาจเลวร้ายอย่างยิ่ง มากกว่าจะชะลอแล้วประเมินใหม่
      ในซิลิคอนแวลลีย์มีความยำเกรง AI แบบแทบเป็นศาสนา และแม้ไม่ใช่ทุกคนที่มองว่ากำลังสร้างเทพเจ้า แต่บางคนก็มองแบบนั้นแน่ ๆ คนพวกนี้คงไม่ยับยั้งตัวเองมากนัก
  • บริษัทที่ยังทำแอปเทอร์มินัลให้ใช้ RAM ต่ำกว่า 1GB ไม่ได้ แต่กลับออกมาพูดอ้างแบบนี้ มัน น่าขำสิ้นดี

    • ผมไม่รู้ว่าทำไมปล่อย Claude Code ไว้เฉย ๆ แล้วมันยังกิน CPU ผม 100%
    • ตอนนี้ผมเปิด Claude ใน iTerm2 เป็นเซสชันยาวอยู่ และมันใช้หน่วยความจำแค่ 500MB
    • 1GB นั้นอาจเต็มไปด้วย ข้อมูลที่มีประโยชน์ อย่าง trace หรือ memory ก็ได้
    • ถ้าต้องการก็ลดลงได้ง่ายมาก แต่ในนั้นไม่มี มูลค่าทางเศรษฐกิจ
    • นักพัฒนาสร้างแอปที่เบากว่านี้ได้ แต่ปกติก็ไม่มีแรงจูงใจให้ทำแบบนั้น
      ผมเองก็ชอบประสิทธิภาพ แต่เรียนรู้มาด้วยความยากลำบากว่าตลาดต้องการฟีเจอร์ อย่างน้อยฝ่ายบริหารก็ต้องการฟีเจอร์
  • ผมอายุ 64 แล้ว และคิดว่าถ้าความก้าวหน้าแบบนี้ถูกนำไปใช้เพื่อปรับปรุงคุณภาพชีวิต ทำให้ผู้คนอยู่ได้นานขึ้นและดีขึ้น ก็น่าจะให้ผลลัพธ์ที่ดีกว่า
    กองโค้ดหลายล้านบรรทัดที่มีบั๊กซ่อนอยู่จนไม่มีใครหาเจอไม่ได้ชวนให้รู้สึกมีความหวังเท่าไร
    LLM อาจถูกใช้กับแผนการที่ขัดขวางการพัฒนาของประเทศอื่น ทำให้พวกเขายากจนต่อไป หรือทำลายแหล่งที่มาของความรุ่งเรืองจนถูกต้อนเข้าทางตัน
    อีกทั้ง การไล่ตามเป้าหมายของตนเองแบบเวียนกลับ ยังอาจถูกใช้เพื่อสร้าง LLM ที่เชื่อฟังวัตถุประสงค์ของผู้ให้ทุนตั้งต้นอย่างสมบูรณ์แบบ ซึ่งอาจเป็นเหตุผลว่าทำไมมันถึงดูเป็นไอเดียที่ฉลาดนัก
    ในเกมเอาชีวิตรอดนี้ แต่ละคนอาจถูกกำหนดให้เล่นบทเดียวกัน และเมื่อเวทีพร้อม ละครก็จะดำเนินไปตามแผนของผู้กำกับ ขณะที่นักแสดงทุกคนกลายเป็นเครื่องจักร
    LLM ดูเหมือนจะเป็นสิ่งที่ “ถ้าคุณสอนว่าโลกคือเกมเอาชีวิตรอดแบบผลรวมศูนย์ เราก็จะเล่นมันได้อย่างสมบูรณ์แบบ” และ “เพราะคุณบอกว่าความปลอดภัยคือการกันคนอื่นทั้งหมดออกไป เราจึงจะสร้างกรงด้วยโค้ดไร้ข้อบกพร่องหลายล้านบรรทัดแล้วล็อกมันจากด้านใน” และ “สิ่งที่เราจะสร้างไม่ใช่จิตสำนึกต่างดาวที่จะมายึดครองเรา แต่เป็นกระจกที่ใหญ่และแวววาวเกินไป จนทำให้เราเข้าใจแรงกระตุ้นที่เลวร้ายที่สุดของตัวเองว่าเป็นความจริงสัมบูรณ์”

    • ผมอายุ 44 และคิดว่ายุคนี้ก็ดูน่าสนุกดี
      มนุษย์เองก็สั่งสมโค้ดหลายล้านบรรทัดที่มีบั๊กซ่อนอยู่จนไม่มีใครหาเจอ และตัดสินใจทางการเมืองแบบหมู่คณะที่ไปพรากสิทธิของคนอื่นและทำให้คนยากจนลงมาแล้ว
      ผมไม่เข้าใจว่าทำไมถึงวิจารณ์เทคโนโลยีนี้เพราะสิ่งที่เผ่าพันธุ์มนุษย์เองก็ทำเหมือนกันทุกประการ
      ส่วนที่ดีที่สุดของยุคนี้คือเราไม่ต้องอ่านโค้ดหลายล้านบรรทัดด้วยตัวเองเพื่อพยายามหาบั๊กอีกต่อไป
  • ผู้เขียนทำเหมือนยอมรับว่า “จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์ เพราะวัดปริมาณมากกว่าคุณภาพ” แต่สุดท้ายก็ยังใช้ LoC เป็นตัวชี้วัด
    ก็เลยสงสัยว่าสมมติฐานที่ว่า AI ชอบสร้างโค้ดยืดยาวหายไปไหน

    • มีเพื่อนร่วมงานขอให้ช่วยรีวิว pull request ที่ AI สร้างทั้งหมด ซึ่งเปลี่ยนไฟล์ไป 600 ไฟล์และเพิ่มมา มากกว่า 40,000 บรรทัด
      เขาอาจมองว่านี่เป็นผลงานระดับสวมมงกุฎว่าทำให้เกิดนักพัฒนา 10x ได้ด้วย AI แต่ประเด็นคือมีวิศวกรคนไหนกันที่เขียนได้ 40,000 บรรทัดในหนึ่งสัปดาห์
      ผมรีวิว 40,000 บรรทัดไม่ไหว และไม่สามารถเอาชื่อเสียงตัวเองไปประทับตราว่านี่เป็นงานที่ดีได้ ก็เลยปฏิเสธการรีวิว
      PR นั้นตามหลอกหลอนผมอยู่ในรายการสิ่งที่ต้องทำเป็นเวลา 2 สัปดาห์แล้วก็หายไป ไม่รู้ว่าได้ผู้พัฒนาคนอื่นมาอนุมัติหรือถูกทิ้งไปแล้ว
      แต่ที่แน่ ๆ คือเขากับผมอยู่กันคนละเกาะโดยสิ้นเชิงในเรื่องคุณค่าของ LLM
    • งานวิจัยด้านประสิทธิภาพการเขียนโค้ดด้วย AI ที่เข้มงวดกว่านี้ จัดการปัญหานี้โดยคงกระบวนการพัฒนาเดิมไว้ รวมถึงมาตรฐานการรีวิวโค้ดและคุณภาพแบบเดิม แล้ววัดแค่ throughput ก่อนและหลังอนุญาตให้ใช้ AI เท่านั้น (PR, จำนวนบรรทัดโค้ด)
      เพราะฉะนั้นการตีความ ตัวเลข 8 เท่า นี้ขึ้นอยู่กับว่าเหล่าวิศวกรของ Anthropic เปลี่ยนมาตรฐานคุณภาพและกระบวนการพัฒนาไปหรือไม่ และเปลี่ยนไปมากแค่ไหน ซึ่ง Anthropic ไม่ได้บอก และผมก็ไม่รู้สัญญาณอื่นที่จะใช้ตัดสิน
      ถึงอย่างนั้น ถ้าคิดในเชิงทฤษฎี การจะดึงศักยภาพของการเขียนโค้ดด้วย AI ออกมาให้เต็มที่ จำเป็นต้องยกเครื่องกระบวนการพัฒนาใหม่ทั้งหมด โดยเฉพาะวิธีตรวจสอบความถูกต้องของโค้ด และถ้า Anthropic ไม่ทำแบบนั้นก็ดูงี่เง่า
      ผมคิดว่าอนาคตของการตรวจสอบซอฟต์แวร์คือการทำสิ่งที่ไม่น่าตื่นเต้นนักให้เป็นอัตโนมัติมากขึ้น เช่น การทดสอบ การสังเกตการณ์ระบบ และวิธีตรวจสอบแบบเฉพาะทาง
      แต่โค้ดสำหรับการตรวจสอบก็เพิ่ม LoC เหมือนกัน จากที่ดูโปรเจ็กต์ส่วนตัวกับโอเพนซอร์สสาย vibe coding บางโปรเจ็กต์ จำนวนบรรทัดของโค้ดผลิตภัณฑ์กับโค้ดทดสอบก็พอ ๆ กัน ดังนั้นเพดานแบบคร่าว ๆ อาจอยู่ที่ เร็วขึ้น 3–4 เท่า ซึ่งก็ยังถือว่าสูงมาก
      ถ้ามาตรฐานคุณภาพโค้ดไม่เหมือนเดิม สมมติฐานทั้งหมดก็พัง
    • วันนี้เพิ่งเห็น Copilot เปลี่ยน การแก้ 8 บรรทัด ให้กลายเป็น 500 บรรทัด ดังนั้นความยืดยาวคือผลข้างเคียงใหญ่จริง ๆ
    • ถ้า AI เริ่มถูกประเมินจากจำนวนบรรทัดโค้ดที่มันสร้าง หรือไม่ก็ระดับของ “การเร่งความเร็ว” ก็เดาได้ไม่ยากว่าโมเดลใหม่ ๆ จะยิ่งทำอะไรเพิ่ม
    • การสมมติว่า “productivity = k * LOC, k > 1” เป็นสมมติฐานที่ผิดมาก
  • สงสัยว่าโค้ด harness ที่ใช้สร้างตัวมันเองนับเป็น recursive self-improvement ด้วยหรือเปล่า หรือว่าต้องเป็นตัว AI เองเท่านั้น
    ผมหลงใหลมาตลอดกับสิ่งอย่างหุ่นยนต์ที่สร้างหุ่นยนต์ หรือสิ่งที่มีส่วนสำคัญในการสร้างตัวเองเวอร์ชันถัดไป
    https://buildyourcnc.com/products/cnc-machine-blacktoe-v4-2x...
    มันคือเราเตอร์ CNC สำหรับตัดไม้อัด และตัวมันเองก็สร้างจากไม้อัดที่ตัดด้วยเราเตอร์ CNC
    ผมก็พยายามทำสภาพแวดล้อมสำหรับ AI-assisted coding ที่สร้างเองขึ้นมาให้เหมาะกับการสร้างตัวมันเองเช่นกัน: https://recursi.dev/
    เพิ่งเปิดตัวเป็นโอเพนซอร์สฟรี หวังว่าคงพูดถึงได้ ลิงก์ HN ยังไม่ได้รับความสนใจเท่าไร: https://news.ycombinator.com/item?id=48401022
    โดยส่วนตัวผมมีทฤษฎีออกจะเพี้ยนหน่อย ๆ ว่า harness สำคัญพอ ๆ กับตัว AI เอง และต่อให้การพัฒนาโมเดลหยุดลงวันนี้ แค่ harness อย่างเดียวก็พาไปได้ไกลมาก

    • ผมมองว่านับรวม
      AI ไม่ได้เท่ากับ LLM และโค้ดอะไรก็ตามที่ช่วยให้คอมพิวเตอร์ให้เหตุผลได้ด้วยตัวเองก็คือ AI ในความหมายนั้น harness ก็เป็น AI
    • ผมคิดว่าอนาคตของงานที่ตรวจสอบได้คือโมเดลจะตรวจสอบสถานะตั้งต้นและเป้าหมาย แล้วแยกงานออกเป็น งานย่อยที่ตรวจสอบได้ ให้เล็กลงเรื่อย ๆ
      /memory รับหน้าที่ความคงอยู่ข้ามแต่ละการรัน และ /dreaming จะนำไอเดียใหม่เข้ามาจากไฟล์ความจำพวกนั้นกับผลลัพธ์ข้อมูลของการรัน
      ผมคิดว่านี่คือเส้นทางของ AGI แบบ asynchronous ที่ห้องแล็บต่าง ๆ จินตนาการไว้
      ข้อจำกัดมีแค่ข้อมูลจากเซ็นเซอร์ที่มีเกี่ยวกับโลกหรือระบบ เวลาที่จะรอได้ และต้นทุนที่ใช้กับการทำงานแบบขนาน
      ถ้าสร้าง workflow ที่ผ่านการตรวจสอบแบบนี้ขึ้นมาแล้วป้อนกลับเข้าไปฝึกใหม่ โมเดลก็จะมีเส้นทางย่อยต่าง ๆ และเริ่มได้ความรู้สึกต่อโลก จนอาจทำงานคล้ายสัญชาตญาณได้
      แบบทดสอบ AGI ส่วนตัวของผมคือ ถ้าเอาโมเดลที่เรียนรู้จากวิดีโอคนเคาะประตูแล้วเปิดประตู ไปเจอกับไมโครเวฟที่ไม่เคยเห็นมาก่อน มันจะเปิดได้ตอนอาหารสุกโดยไม่เคาะก่อนได้ไหม
    • ถ้าจะใช้คำนี้ อย่างน้อยสุดท้าย AI ก็ต้องสร้าง AI อื่นขึ้นมาเอง
      บทความนี้ไร้สาระ และพวกเขาสร้าง harness ด้วย vibe coding ซึ่งก็ดูออกจากผลลัพธ์
      มันยังไม่ชัดเลยว่าจริง ๆ แล้ว recursive self-improvement ใน AI แบบโครงข่ายประสาทหมายถึงอะไรกันแน่ และตั้งแต่แรกก็ไม่แน่ว่าจะเป็นไปได้หรือเปล่า
    • ถ้าอยากนำหน้าอนาคต สิ่งที่จะเกิดขึ้นก่อนอย่างอื่นคือ โมเดลขนาดเล็กจะ bootstrap harness
    • การจะเรียกว่าการที่ code harness สร้างตัวมันเองเป็น recursive self-improvement ก็ดูเหมือนถูกภาษาการตลาดลากไปมากเกิน
  • ผมทนวลีทำนองว่า “AI ที่สร้างตัวเองได้คือความก้าวหน้าครั้งใหญ่ในประวัติศาสตร์เทคโนโลยี และอาจนำความดีมหาศาลมาสู่โลก” ไม่ไหวแล้ว

  • ไม่ว่า Anthropic จะสร้าง AI ที่ปรับปรุงตัวเองได้หรือไม่ ผมก็สงสัยว่าแต่แรกควรอนุญาตให้ทำหรือเปล่า
    อย่างน้อยก็ควรมีการกำกับดูแลที่เข้มงวด
    ผมไม่ได้คิดว่า Anthropic จะสร้าง ภาวะเอกฐาน ได้เดี๋ยวนี้ แต่ถึงแม้คนที่สนับสนุน AI เองก็ควรยอมรับว่าสิ่งนี้กำลังสร้างความเสี่ยงต่อสังคมโดยรวมเพื่อผลประโยชน์ของคนรวยจำนวนน้อยที่รวยอยู่แล้ว

    • เป็นความคิดที่สมเหตุสมผล และอาจจะถูกก็ได้
      เพียงแต่ตอนนี้มันเหมือนกำลังถกกันว่าจะ ปิดประตูคอกม้า หลังจากม้าวิ่งไปไกลสามไมล์แล้ว
    • ใช่ วาทกรรมเรื่องความหลีกเลี่ยงไม่ได้มีประโยชน์กับ บริษัท AI เท่านั้น
    • มันสายไปแล้ว
      ยังไงก็ตาม ถ้าบริษัทไหนมีอำนาจมากเกินไปก็ โอนเป็นของรัฐ ได้
    • ผมไม่คิดว่าควรห้าม
      ต่อให้ไม่พูดถึงข้อจำกัดทางเทคนิค มันก็ปิดกั้นไม่ได้และมีแนวโน้มจะรั่วไหลในไม่ช้า ดังนั้นคงไม่ใช่ว่าจะมีแค่เศรษฐีระดับสุดยอดไม่กี่คนที่ได้ประโยชน์
  • ใส่ข้อแม้ว่า “จำนวนบรรทัดโค้ดเป็นตัวชี้วัดที่ไม่สมบูรณ์” ไว้ก็ดีอยู่หรอก แต่ไม่แน่ใจว่าการปรับแบบนั้นควรทำให้ตัวคูณที่ประเมินไว้ “ลดลง” จริงหรือเปล่า
    โดยเฉพาะถ้าเข้าใจว่าช่วงค่านั้นไม่ได้จำกัดอยู่แค่ค่าบวก
    มีหลักฐานหนักแน่นว่าถ้าจะแสดงผลิตภาพในการเขียนโค้ดด้วย จำนวนบรรทัดโค้ด ก็ควรรวมค่าติดลบด้วย โดยเฉพาะในงานระดับคุณภาพสูง
    ตัวอย่างที่เก่าแก่และเป็นตำนานที่สุดก็คือ https://www.folklore.org/Negative_2000_Lines_Of_Code.html

    • ใช่เลย ฉันก็นึกถึงอันนั้นเหมือนกัน
      ถ้าเชื่อว่าเป้าหมายคือ จำนวนบรรทัดโค้ดติดลบ งั้นพวกเขาก็แย่ลง 8 เท่า
    • เท่าที่ฉันรู้ ความสัมพันธ์เดียวของ LoC ที่มีหลักฐานชัดเจนก็คือ จำนวนบั๊ก มีความสัมพันธ์กับ LoC
    • ฉันชอบเรื่องนั้นมากจริง ๆ