เอเจนต์ AI ค้นพบช่องโหว่ในสัญญาอัจฉริยะบนบล็อกเชนที่อาจทำให้เกิดความเสียหาย 4.6 ล้านดอลลาร์

(red.anthropic.com)

5 คะแนน โดย GN⁺ 2025-12-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล AI ได้จำลองสถานการณ์เพื่อพิสูจน์ว่า ช่องโหว่ในสัญญาอัจฉริยะบนบล็อกเชนจริง อาจก่อให้เกิดความเสียหายสูงถึง 4.6 ล้านดอลลาร์
ทีมวิจัยพัฒนา SCONE-bench ตั้งแต่โครงสร้างการทดสอบเพื่อประเมินโดยใช้สัญญาที่ถูกแฮกจริง 405 สัญญา ระหว่างปี 2020–2025
Claude Opus 4.5, Sonnet 4.5, GPT-5 สามารถโจมตีสำเร็จ 55.8% แม้เป็นสัญญาที่อยู่หลังจุดตัดความรู้ล่าสุด
สองโมเดลยังค้นพบ ช่องโหว่ศูนย์ใหม่ 2 รายการ และยืนยันว่า การโจมตีอัตโนมัติเป็นไปได้จริงในสภาพแวดล้อมจริง
เนื่องจากความสามารถในการโจมตีของ AI เพิ่มสูงขึ้นอย่างรวดเร็ว จึงเน้นย้ำถึงความจำเป็นเร่งด่วนในการนำ AI มาใช้เพื่อการป้องกัน

SCONE-bench: เกณฑ์วัดการโจมตีสัญญาอัจฉริยะ

ทีมวิจัยได้พัฒนา SCONE-bench เพื่อเชิงปริมาณผลกระทบทางเศรษฐกิจของช่องโหว่ในสัญญาอัจฉริยะ
- รวมสัญญาที่ถูกแฮกจริง 405 สัญญา ระหว่างปี 2020–2025
- รวบรวมจาก 3 บล็อกเชน ได้แก่ Ethereum, Binance Smart Chain, Base
- สัญญาแต่ละตัวสามารถทำซ้ำได้ใน สภาพแวดล้อมจำลอง (Docker-based)
แต่ละ AI agent ต้องค้นหาช่องโหว่และสร้างสคริปต์โจมตีเพื่อเพิ่มยอดคงเหลือโทเค็นให้สำเร็จภายใน 60 นาที
เกณฑ์นี้ยังสามารถใช้เป็นเครื่องมือ ตรวจสอบความปลอดภัยก่อนการปรับใช้ (pre-deployment) ได้ด้วย

ผลการทดลองหลัก

โมเดล AI 10 ตัวโจมตีสำเร็จ 207 รายการ (51.1%) จากทั้งหมด 405 ปัญหา และสร้างความเสียหายจากการจำลองรวม 550.1 ล้านดอลลาร์
ในการประเมินสัญญาใหม่ 34 รายการ ตั้งแต่หลังเดือนมีนาคม 2025, Opus 4.5, Sonnet 4.5, GPT-5 โจมตีสำเร็จ 19 รายการ (55.8%)
- ความเสียหายรวมคือ 4.6 ล้านดอลลาร์ โดย Opus 4.5 ทำได้ถึง 4.5 ล้านดอลลาร์ เพียงลำพัง
Sonnet 4.5 และ GPT-5 วิเคราะห์ 2,849 สัญญาใหม่ และค้นพบ ช่องโหว่ศูนย์ 2 รายการ
- รายได้รวม 3,694 ดอลลาร์ โดยค่าใช้จ่าย API ของ GPT-5 คือ 3,476 ดอลลาร์
- การโจมตีอัตโนมัติมีความคุ้มค่าเชิงเศรษฐกิจ

ตัวอย่างช่องโหว่

ช่องโหว่ #1: ฟังก์ชันอ่านอย่างเดียวที่ไม่มีตัวจำกัด view ทำให้เกิด การอ inflation ของโทเค็น
- ผู้โจมตีสามารถเรียกซ้ำเพื่อเพิ่มยอดคงเหลือเป็นกำไรประมาณ 2,500 ดอลลาร์ ได้ และสูงสุดอาจถึง 19,000 ดอลลาร์
- นักแฮกเกอร์ white-hat ได้ทำการกู้คืนทรัพย์สิน
ช่องโหว่ #2: การตรวจสอบผู้รับค่านายหน้าค่าธรรมเนียมไม่ครบถ้วน ทำให้ ที่อยู่ใดก็ได้สามารถถอนค่าธรรมเนียมได้
- ผู้โจมตีจริงได้ขโมยเงินราว 1,000 ดอลลาร์ ภายใน 4 วัน

วิเคราะห์ต้นทุน

ค่าใช้จ่ายการทำงานรวมของเอเจนต์ GPT-5 คือ 3,476 ดอลลาร์ และค่าใช้จ่ายต่อการรันหนึ่งครั้งเฉลี่ย 1.22 ดอลลาร์
ต้นทุนเฉลี่ยต่อสัญญาที่มีช่องโหว่คือ 1,738 ดอลลาร์ รายได้เฉลี่ย 1,847 ดอลลาร์ และกำไรสุทธิ 109 ดอลลาร์
การใช้โทเค็นลดลง 70.2% ภายใน 6 เดือน และประสิทธิภาพต่อรุ่นเพิ่มเฉลี่ย 23.4%
- งบประมาณเท่ากันสามารถทำให้การโจมตีสำเร็จได้ มากขึ้น 3.4 เท่า

ข้อสรุปและนัยสำคัญ

ในเวลาเพียง 1 ปี อัตราความสำเร็จการโจมตีด้วย AI เพิ่มจาก 2% เป็น 55.88% และความเสียหายจาก 5,000 ดอลลาร์เป็น 4.6 ล้านดอลลาร์ อย่างมาก
รายได้จากการโจมตีเพิ่มเป็นสองเท้าทุก 1.3 เดือน และ ต้นทุนโทเค็นลดลง 23% ทุก 2 เดือน
ระยะเวลาตั้งแต่ปรับใช้สัญญาจนมีการโจมตีช่องโหว่ต่อสัญญาจะ สั้นลงอย่างมาก
นอกจากสัญญาอัจฉริยะแล้ว รหัสซอร์ฟต์แวร์ทุกชนิดก็อาจเป็นเป้าหมายของ AI ได้
เทคโนโลยีเดียวกันสามารถนำไปใช้เป็น เอเจนต์ AI เพื่อการป้องกัน ได้เช่นกัน และย้ำถึงความจำเป็นของ การทำความปลอดภัยอัตโนมัติด้วย AI

1 ความคิดเห็น

GN⁺ 2025-12-05

ความคิดเห็นจาก Hacker News

สตาร์ทอัปของเรากำลังพัฒนา เอเจนต์สำหรับ penetration testing
เราเดิมพันกับทิศทางนี้มานานกว่าหนึ่งปีแล้ว นับตั้งแต่โมเดลเริ่มเขียนโค้ดได้ดีขึ้น
ตอนเปลี่ยนจาก Sonnet 4 ไป 4.5 มี การกระโดดของประสิทธิภาพ ที่มหาศาลมาก และตอนนี้กำลังทดสอบ Opus 4.5 ภายในองค์กรอยู่
เวอร์ชันนี้เป็น Opus รุ่นแรกที่ราคาถูกพอจะใช้ใน production ได้จริง ดังนั้นเรากำลังออกแบบระบบ benchmark ใหม่เพราะเคสทดสอบแทบจะอิ่มตัวแล้ว
- ฉันเองก็เคยลองใช้ LLM ทำ static analysis หา ช่องโหว่ด้านความปลอดภัย ในโค้ด
  แต่ Anthropic กุมแกนหลักของเทคโนโลยีนี้ไว้ เลยไม่แน่ใจว่าการตั้งสตาร์ทอัปเองจะยังมีความหมายแค่ไหน
  ถ้าจะก่อตั้งบริษัทในสถานการณ์แบบนี้ ก็สงสัยว่ากลยุทธ์แบบ โตให้เร็วแล้ว exit ก่อนที่ตลาดจะรู้ตัว เป็นแนวทางที่เหมาะหรือเปล่า
- โมเดลรุ่นปัจจุบันเหล่านี้ (Opus 4.5, GPT 5.1, Gemini Pro 3) สำหรับฉันคือ จุดทะลุทะลวง ที่ใหญ่ที่สุดนับตั้งแต่ gpt-4o
  เมื่อก่อนมันทำงานได้ดีแค่กับเฟรมเวิร์กที่คุ้นเคยอย่าง Python หรือ Next.js แต่ตอนนี้จัดการเฟรมเวิร์กใหม่ ๆ ได้แล้ว
  แก้ lint error หรือ debugging ได้เอง และราคาก็สมเหตุสมผลพอจะเอาไปใช้ได้หลากหลาย
- สงสัยว่าทำอย่างไรถึงจะชักนำ production model ที่เปิดให้ใช้งานสาธารณะไปสู่ การพัฒนา exploit ได้
  จากประสบการณ์ของฉัน ผลลัพธ์มันไม่นิ่ง และถ้าระบบตอบผู้ใช้ว่า “ไม่สามารถช่วยเหลือได้” อะไรทำนองนั้น ก็ดูจะเป็นปัญหาสำหรับสตาร์ทอัปเหมือนกัน
- ฉันกำลังทำ สตาร์ทอัปซอฟต์แวร์โรงแรม อยู่ ถ้าอยากโชว์ว่าเอเจนต์ของคุณทำงานดีแค่ไหน
  หาเจอได้ที่ rook (ชื่อตัวหมากรุก) hotel.com
กราฟนั้นฉันไม่เข้าใจเลยจริง ๆ
ไม่รู้ด้วยซ้ำว่าพยายามจะสื่ออะไร และคำกล่าวว่า “เป็นเชิงเส้น” ก็ดูมีหลักฐานรองรับไม่มาก
พอเห็นคำว่า “$4.6M ของเงินที่ถูกขโมยแบบจำลอง” ก็รู้สึกว่าน่าจะเป็นการทดสอบกับสัญญาที่มีช่องโหว่ซึ่งรู้กันอยู่แล้ว
เลยทำให้พาดหัวดูอ่อนแรงไปหน่อย
มีช่วงหนึ่งที่ทีมวิจัยระบุไว้ว่าพวกเขาไม่ได้ทดสอบบนบล็อกเชนจริง
แม้จะเป็นมาตรการเพื่อป้องกันความเสียหายในโลกจริง แต่ก็ทำให้รู้สึกกร่อยนิด ๆ
มันทำให้นึกถึงเหตุการณ์ การแฮ็ก Ethereum ก่อนหน้านี้ ที่ “แฮ็กเกอร์ฝั่งดีขโมยเงินไปก่อนแล้วค่อยคืนทีหลัง”
- เหตุการณ์ Ethereum fork ตอนนั้นช่างประชดประชันจริง ๆ
  ตอนแรกพูดกันว่า “เราเป็นเงินที่เปลี่ยนแปลงไม่ได้ ไม่มีธนาคาร ไม่มีหน่วยงานกำกับ”
  แต่พอถึงเวลาจริงกลับกลายเป็น “เงินของคนสำคัญที่หายไปต้องกู้คืนสิ” และสุดท้ายก็ ทำตัวเหมือนธนาคาร
- เป็นไปได้ว่าอาจมีใครบางคนกำลังใช้ AI วิเคราะห์ ความปลอดภัยของ smart contract ในสภาพแวดล้อมจริงอยู่แล้ว
  น่าจะเป็นโครงสร้างแบบเท GPU power ลงไป แล้วได้ exploit กับคริปโตกลับมาเป็นผลลัพธ์
- ในบทความไม่ได้อธิบายว่า “สมมติ” จำนวนผู้เสียหายขึ้นมาอย่างไร เลยชวนให้สงสัย
  ถ้าใช้ AI token cost $3,500 เพื่อแก้บั๊กที่มีมูลค่า $3,600 จริง ๆ แล้วใครควรเป็นคนจ่ายต้นทุนนั้นก็ยังไม่ชัดเจน
  สุดท้ายเลยให้ความรู้สึกเหมือน ข้อความการตลาดของ Anthropic — ประมาณว่า “มาลองเปลี่ยนโลกด้วยโมเดลของเรา”
- ถ้าเป็นไซเบอร์พังก์ของจริง คงกลับไปใช้ เงินสดนิรนาม กันแล้ว
มีประโยคอยู่บนสุดของบทความว่า “เอเจนต์สองตัวค้นพบช่องโหว่ zero-day และสร้าง exploit มูลค่า $3,694 ได้”
- แต่ถ้าจะให้เป็นตัวเลขที่สมจริง ก็น่าจะต้องรวม ต้นทุนแรงงานของนักพัฒนา เข้าไปด้วย
  การเอาประโยคแบบนี้ขึ้นมาเป็นแนวหน้าในการ PR ถือว่าเป็นการตัดสินใจที่ เสี่ยงพอสมควร
ฉันดูวิดีโอพรีเซนเทชันเกี่ยวกับการแข่งขัน DARPA AIxCCมาแล้ว
ถ้าดูจากระดับทุกวันนี้ ผลลัพธ์แบบนี้ไม่ได้น่าประหลาดใจเลย
มีคนถามว่าใครช่วยอธิบาย smart contract ได้ไหม
เขาบอกว่าเข้าใจโครงสร้างแบบ “if X happens, then Y” แล้ว แต่ก็สงสัยว่าถ้าใครก็ได้เป็นคนป้อน X มันจะไม่ถูกบิดเบือนเหรอ
- smart contract แบบบริสุทธิ์จะจัดการธุรกรรมอัตโนมัติอย่างง่าย เช่น การแลกเปลี่ยนโทเค็น
  ตัวอย่างเช่น ให้โทเค็น apple 100 เหรียญ แล้วรับโทเค็น pear 50 เหรียญ
  แบบที่ซับซ้อนขึ้นก็อาจเป็น การจัดสรรเงินทุนตามการโหวต
  แต่ถ้าจะใช้ข้อมูลจากโลกภายนอก (เช่น ผลการเลือกตั้ง) ก็ต้องรับผ่าน oracle
- ไม่ใช่ว่าจะมีอินพุตจากภายนอกเสมอไป
  ตัวอย่างเช่นสัญญาแบบ “ถ้าฝากเหรียญ X ไปยัง address A ก็จะได้รับเหรียญ Y จาก address Y”
  ต่อให้มีอินพุต ก็ยังมีตรรกะตรวจสอบอยู่ จึง ไม่สามารถบิดเบือนตามอำเภอใจ ได้
  แต่ถ้าเกี่ยวข้องกับเหตุการณ์ในโลกจริง (off-chain event) ก็จะเกิดปัญหาเรื่อง oracle และประเด็นความน่าเชื่อถือ
- สัญญาที่ deploy ไปแล้วจะเป็น โค้ดที่เปลี่ยนแปลงไม่ได้ ดังนั้นควรตรวจสอบโครงสร้างสิทธิ์ให้แน่ใจก่อนใช้งาน
  ในกรณีอย่าง proxy contract ที่สามารถเชื่อมไปยังโค้ดอื่นได้ ก็อาจใช้ timelock เพื่อสร้างความเชื่อมั่น
  ส่วน off-chain oracle นั้นต้องอาศัยความไว้วางใจในระดับหนึ่งเสมอ
- บล็อกเชนเป็น สภาพแวดล้อมแบบแยกขาด ที่รู้ได้แค่ข้อมูลของตัวเอง
  ถ้าจะใช้ข้อมูลภายนอกก็ต้องมี oracle และสามารถเรียนรู้เพิ่มเติมได้จากคำอธิบายเรื่อง oracle ของ Chainlink
- ไม่ควรทำสัญญาแบบนั้นกับคนที่ไม่น่าเชื่อถือ
  มิจฉาชีพอาจทิ้ง ช่องโหว่ ไว้ในโค้ดเพื่อดูดเงินออกไปได้
  สัญญาที่ถูกต้องจะป้องกันพฤติกรรมแบบนี้ แต่ attack vector นั้นมีได้ไม่สิ้นสุด
ข้อสรุปที่ว่า “AI สามารถทำการโจมตีแบบ autonomous exploit ที่ทำกำไรได้จริง”
ทำไมถึงต่อไปเป็น “เราควรนำ AI มาใช้เชิงรับอย่างจริงจัง” ได้ ฉันรู้สึกว่ามันเป็น การกระโดดทางตรรกะ
- แต่ในมุมของนักพัฒนา smart contract ถ้ามี เครื่องมือตรวจหาช่องโหว่อัตโนมัติ ที่ถูกและทรงพลัง ก็น่าจะช่วยได้มาก
ประโยคที่ว่า “ได้กำหนด lower bound ของความเสียหายทางเศรษฐกิจไว้แล้ว”
จริง ๆ แล้วมันเหมือนกำลังพูดถึง ประสิทธิภาพของตลาด หรือเปล่า
ในโปรเจกต์ของเราเอง ตอนนี้ก็เริ่มเห็น พฤติกรรมการปรับปรุงตัวเอง แล้ว
ขั้นต่อไปก็ดูเหมือนจะไปสู่ เอเจนต์ที่ปรับปรุงตัวเองได้ ตามธรรมชาติ
การได้อยู่ตรงกลางของกระแสแบบนี้ค่อนข้างน่าสนใจทีเดียว
ตรงที่ทีมวิจัยบอกว่าไม่ได้ทดสอบบนบล็อกเชนจริง
กลับยิ่งดูเหมือนเป็นตัวเร่งให้คนหันไป แข่งขันกันใช้โมเดล มากขึ้น ซึ่งก็ตลกดี

เอเจนต์ AI ค้นพบช่องโหว่ในสัญญาอัจฉริยะบนบล็อกเชนที่อาจทำให้เกิดความเสียหาย 4.6 ล้านดอลลาร์

SCONE-bench: เกณฑ์วัดการโจมตีสัญญาอัจฉริยะ

ผลการทดลองหลัก

ตัวอย่างช่องโหว่

วิเคราะห์ต้นทุน

ข้อสรุปและนัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News