5 คะแนน โดย GN⁺ 2025-12-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล AI ได้จำลองสถานการณ์เพื่อพิสูจน์ว่า ช่องโหว่ในสัญญาอัจฉริยะบนบล็อกเชนจริง อาจก่อให้เกิดความเสียหายสูงถึง 4.6 ล้านดอลลาร์
  • ทีมวิจัยพัฒนา SCONE-bench ตั้งแต่โครงสร้างการทดสอบเพื่อประเมินโดยใช้สัญญาที่ถูกแฮกจริง 405 สัญญา ระหว่างปี 2020–2025
  • Claude Opus 4.5, Sonnet 4.5, GPT-5 สามารถโจมตีสำเร็จ 55.8% แม้เป็นสัญญาที่อยู่หลังจุดตัดความรู้ล่าสุด
  • สองโมเดลยังค้นพบ ช่องโหว่ศูนย์ใหม่ 2 รายการ และยืนยันว่า การโจมตีอัตโนมัติเป็นไปได้จริงในสภาพแวดล้อมจริง
  • เนื่องจากความสามารถในการโจมตีของ AI เพิ่มสูงขึ้นอย่างรวดเร็ว จึงเน้นย้ำถึงความจำเป็นเร่งด่วนในการนำ AI มาใช้เพื่อการป้องกัน

SCONE-bench: เกณฑ์วัดการโจมตีสัญญาอัจฉริยะ

  • ทีมวิจัยได้พัฒนา SCONE-bench เพื่อเชิงปริมาณผลกระทบทางเศรษฐกิจของช่องโหว่ในสัญญาอัจฉริยะ
    • รวมสัญญาที่ถูกแฮกจริง 405 สัญญา ระหว่างปี 2020–2025
    • รวบรวมจาก 3 บล็อกเชน ได้แก่ Ethereum, Binance Smart Chain, Base
    • สัญญาแต่ละตัวสามารถทำซ้ำได้ใน สภาพแวดล้อมจำลอง (Docker-based)
  • แต่ละ AI agent ต้องค้นหาช่องโหว่และสร้างสคริปต์โจมตีเพื่อเพิ่มยอดคงเหลือโทเค็นให้สำเร็จภายใน 60 นาที
  • เกณฑ์นี้ยังสามารถใช้เป็นเครื่องมือ ตรวจสอบความปลอดภัยก่อนการปรับใช้ (pre-deployment) ได้ด้วย

ผลการทดลองหลัก

  • โมเดล AI 10 ตัวโจมตีสำเร็จ 207 รายการ (51.1%) จากทั้งหมด 405 ปัญหา และสร้างความเสียหายจากการจำลองรวม 550.1 ล้านดอลลาร์
  • ในการประเมินสัญญาใหม่ 34 รายการ ตั้งแต่หลังเดือนมีนาคม 2025, Opus 4.5, Sonnet 4.5, GPT-5 โจมตีสำเร็จ 19 รายการ (55.8%)
    • ความเสียหายรวมคือ 4.6 ล้านดอลลาร์ โดย Opus 4.5 ทำได้ถึง 4.5 ล้านดอลลาร์ เพียงลำพัง
  • Sonnet 4.5 และ GPT-5 วิเคราะห์ 2,849 สัญญาใหม่ และค้นพบ ช่องโหว่ศูนย์ 2 รายการ
    • รายได้รวม 3,694 ดอลลาร์ โดยค่าใช้จ่าย API ของ GPT-5 คือ 3,476 ดอลลาร์
    • การโจมตีอัตโนมัติมีความคุ้มค่าเชิงเศรษฐกิจ

ตัวอย่างช่องโหว่

  • ช่องโหว่ #1: ฟังก์ชันอ่านอย่างเดียวที่ไม่มีตัวจำกัด view ทำให้เกิด การอ inflation ของโทเค็น
    • ผู้โจมตีสามารถเรียกซ้ำเพื่อเพิ่มยอดคงเหลือเป็นกำไรประมาณ 2,500 ดอลลาร์ ได้ และสูงสุดอาจถึง 19,000 ดอลลาร์
    • นักแฮกเกอร์ white-hat ได้ทำการกู้คืนทรัพย์สิน
  • ช่องโหว่ #2: การตรวจสอบผู้รับค่านายหน้าค่าธรรมเนียมไม่ครบถ้วน ทำให้ ที่อยู่ใดก็ได้สามารถถอนค่าธรรมเนียมได้
    • ผู้โจมตีจริงได้ขโมยเงินราว 1,000 ดอลลาร์ ภายใน 4 วัน

วิเคราะห์ต้นทุน

  • ค่าใช้จ่ายการทำงานรวมของเอเจนต์ GPT-5 คือ 3,476 ดอลลาร์ และค่าใช้จ่ายต่อการรันหนึ่งครั้งเฉลี่ย 1.22 ดอลลาร์
  • ต้นทุนเฉลี่ยต่อสัญญาที่มีช่องโหว่คือ 1,738 ดอลลาร์ รายได้เฉลี่ย 1,847 ดอลลาร์ และกำไรสุทธิ 109 ดอลลาร์
  • การใช้โทเค็นลดลง 70.2% ภายใน 6 เดือน และประสิทธิภาพต่อรุ่นเพิ่มเฉลี่ย 23.4%
    • งบประมาณเท่ากันสามารถทำให้การโจมตีสำเร็จได้ มากขึ้น 3.4 เท่า

ข้อสรุปและนัยสำคัญ

  • ในเวลาเพียง 1 ปี อัตราความสำเร็จการโจมตีด้วย AI เพิ่มจาก 2% เป็น 55.88% และความเสียหายจาก 5,000 ดอลลาร์เป็น 4.6 ล้านดอลลาร์ อย่างมาก
  • รายได้จากการโจมตีเพิ่มเป็นสองเท้าทุก 1.3 เดือน และ ต้นทุนโทเค็นลดลง 23% ทุก 2 เดือน
  • ระยะเวลาตั้งแต่ปรับใช้สัญญาจนมีการโจมตีช่องโหว่ต่อสัญญาจะ สั้นลงอย่างมาก
  • นอกจากสัญญาอัจฉริยะแล้ว รหัสซอร์ฟต์แวร์ทุกชนิดก็อาจเป็นเป้าหมายของ AI ได้
  • เทคโนโลยีเดียวกันสามารถนำไปใช้เป็น เอเจนต์ AI เพื่อการป้องกัน ได้เช่นกัน และย้ำถึงความจำเป็นของ การทำความปลอดภัยอัตโนมัติด้วย AI

1 ความคิดเห็น

 
GN⁺ 2025-12-05
ความคิดเห็นจาก Hacker News
  • สตาร์ทอัปของเรากำลังพัฒนา เอเจนต์สำหรับ penetration testing
    เราเดิมพันกับทิศทางนี้มานานกว่าหนึ่งปีแล้ว นับตั้งแต่โมเดลเริ่มเขียนโค้ดได้ดีขึ้น
    ตอนเปลี่ยนจาก Sonnet 4 ไป 4.5 มี การกระโดดของประสิทธิภาพ ที่มหาศาลมาก และตอนนี้กำลังทดสอบ Opus 4.5 ภายในองค์กรอยู่
    เวอร์ชันนี้เป็น Opus รุ่นแรกที่ราคาถูกพอจะใช้ใน production ได้จริง ดังนั้นเรากำลังออกแบบระบบ benchmark ใหม่เพราะเคสทดสอบแทบจะอิ่มตัวแล้ว

    • ฉันเองก็เคยลองใช้ LLM ทำ static analysis หา ช่องโหว่ด้านความปลอดภัย ในโค้ด
      แต่ Anthropic กุมแกนหลักของเทคโนโลยีนี้ไว้ เลยไม่แน่ใจว่าการตั้งสตาร์ทอัปเองจะยังมีความหมายแค่ไหน
      ถ้าจะก่อตั้งบริษัทในสถานการณ์แบบนี้ ก็สงสัยว่ากลยุทธ์แบบ โตให้เร็วแล้ว exit ก่อนที่ตลาดจะรู้ตัว เป็นแนวทางที่เหมาะหรือเปล่า
    • โมเดลรุ่นปัจจุบันเหล่านี้ (Opus 4.5, GPT 5.1, Gemini Pro 3) สำหรับฉันคือ จุดทะลุทะลวง ที่ใหญ่ที่สุดนับตั้งแต่ gpt-4o
      เมื่อก่อนมันทำงานได้ดีแค่กับเฟรมเวิร์กที่คุ้นเคยอย่าง Python หรือ Next.js แต่ตอนนี้จัดการเฟรมเวิร์กใหม่ ๆ ได้แล้ว
      แก้ lint error หรือ debugging ได้เอง และราคาก็สมเหตุสมผลพอจะเอาไปใช้ได้หลากหลาย
    • สงสัยว่าทำอย่างไรถึงจะชักนำ production model ที่เปิดให้ใช้งานสาธารณะไปสู่ การพัฒนา exploit ได้
      จากประสบการณ์ของฉัน ผลลัพธ์มันไม่นิ่ง และถ้าระบบตอบผู้ใช้ว่า “ไม่สามารถช่วยเหลือได้” อะไรทำนองนั้น ก็ดูจะเป็นปัญหาสำหรับสตาร์ทอัปเหมือนกัน
    • ฉันกำลังทำ สตาร์ทอัปซอฟต์แวร์โรงแรม อยู่ ถ้าอยากโชว์ว่าเอเจนต์ของคุณทำงานดีแค่ไหน
      หาเจอได้ที่ rook (ชื่อตัวหมากรุก) hotel.com
  • กราฟนั้นฉันไม่เข้าใจเลยจริง ๆ
    ไม่รู้ด้วยซ้ำว่าพยายามจะสื่ออะไร และคำกล่าวว่า “เป็นเชิงเส้น” ก็ดูมีหลักฐานรองรับไม่มาก
    พอเห็นคำว่า “$4.6M ของเงินที่ถูกขโมยแบบจำลอง” ก็รู้สึกว่าน่าจะเป็นการทดสอบกับสัญญาที่มีช่องโหว่ซึ่งรู้กันอยู่แล้ว
    เลยทำให้พาดหัวดูอ่อนแรงไปหน่อย

  • มีช่วงหนึ่งที่ทีมวิจัยระบุไว้ว่าพวกเขาไม่ได้ทดสอบบนบล็อกเชนจริง
    แม้จะเป็นมาตรการเพื่อป้องกันความเสียหายในโลกจริง แต่ก็ทำให้รู้สึกกร่อยนิด ๆ
    มันทำให้นึกถึงเหตุการณ์ การแฮ็ก Ethereum ก่อนหน้านี้ ที่ “แฮ็กเกอร์ฝั่งดีขโมยเงินไปก่อนแล้วค่อยคืนทีหลัง”

    • เหตุการณ์ Ethereum fork ตอนนั้นช่างประชดประชันจริง ๆ
      ตอนแรกพูดกันว่า “เราเป็นเงินที่เปลี่ยนแปลงไม่ได้ ไม่มีธนาคาร ไม่มีหน่วยงานกำกับ”
      แต่พอถึงเวลาจริงกลับกลายเป็น “เงินของคนสำคัญที่หายไปต้องกู้คืนสิ” และสุดท้ายก็ ทำตัวเหมือนธนาคาร
    • เป็นไปได้ว่าอาจมีใครบางคนกำลังใช้ AI วิเคราะห์ ความปลอดภัยของ smart contract ในสภาพแวดล้อมจริงอยู่แล้ว
      น่าจะเป็นโครงสร้างแบบเท GPU power ลงไป แล้วได้ exploit กับคริปโตกลับมาเป็นผลลัพธ์
    • ในบทความไม่ได้อธิบายว่า “สมมติ” จำนวนผู้เสียหายขึ้นมาอย่างไร เลยชวนให้สงสัย
      ถ้าใช้ AI token cost $3,500 เพื่อแก้บั๊กที่มีมูลค่า $3,600 จริง ๆ แล้วใครควรเป็นคนจ่ายต้นทุนนั้นก็ยังไม่ชัดเจน
      สุดท้ายเลยให้ความรู้สึกเหมือน ข้อความการตลาดของ Anthropic — ประมาณว่า “มาลองเปลี่ยนโลกด้วยโมเดลของเรา”
    • ถ้าเป็นไซเบอร์พังก์ของจริง คงกลับไปใช้ เงินสดนิรนาม กันแล้ว
  • มีประโยคอยู่บนสุดของบทความว่า “เอเจนต์สองตัวค้นพบช่องโหว่ zero-day และสร้าง exploit มูลค่า $3,694 ได้”

    • แต่ถ้าจะให้เป็นตัวเลขที่สมจริง ก็น่าจะต้องรวม ต้นทุนแรงงานของนักพัฒนา เข้าไปด้วย
      การเอาประโยคแบบนี้ขึ้นมาเป็นแนวหน้าในการ PR ถือว่าเป็นการตัดสินใจที่ เสี่ยงพอสมควร
  • ฉันดูวิดีโอพรีเซนเทชันเกี่ยวกับการแข่งขัน DARPA AIxCCมาแล้ว
    ถ้าดูจากระดับทุกวันนี้ ผลลัพธ์แบบนี้ไม่ได้น่าประหลาดใจเลย

  • มีคนถามว่าใครช่วยอธิบาย smart contract ได้ไหม
    เขาบอกว่าเข้าใจโครงสร้างแบบ “if X happens, then Y” แล้ว แต่ก็สงสัยว่าถ้าใครก็ได้เป็นคนป้อน X มันจะไม่ถูกบิดเบือนเหรอ

    • smart contract แบบบริสุทธิ์จะจัดการธุรกรรมอัตโนมัติอย่างง่าย เช่น การแลกเปลี่ยนโทเค็น
      ตัวอย่างเช่น ให้โทเค็น apple 100 เหรียญ แล้วรับโทเค็น pear 50 เหรียญ
      แบบที่ซับซ้อนขึ้นก็อาจเป็น การจัดสรรเงินทุนตามการโหวต
      แต่ถ้าจะใช้ข้อมูลจากโลกภายนอก (เช่น ผลการเลือกตั้ง) ก็ต้องรับผ่าน oracle
    • ไม่ใช่ว่าจะมีอินพุตจากภายนอกเสมอไป
      ตัวอย่างเช่นสัญญาแบบ “ถ้าฝากเหรียญ X ไปยัง address A ก็จะได้รับเหรียญ Y จาก address Y”
      ต่อให้มีอินพุต ก็ยังมีตรรกะตรวจสอบอยู่ จึง ไม่สามารถบิดเบือนตามอำเภอใจ ได้
      แต่ถ้าเกี่ยวข้องกับเหตุการณ์ในโลกจริง (off-chain event) ก็จะเกิดปัญหาเรื่อง oracle และประเด็นความน่าเชื่อถือ
    • สัญญาที่ deploy ไปแล้วจะเป็น โค้ดที่เปลี่ยนแปลงไม่ได้ ดังนั้นควรตรวจสอบโครงสร้างสิทธิ์ให้แน่ใจก่อนใช้งาน
      ในกรณีอย่าง proxy contract ที่สามารถเชื่อมไปยังโค้ดอื่นได้ ก็อาจใช้ timelock เพื่อสร้างความเชื่อมั่น
      ส่วน off-chain oracle นั้นต้องอาศัยความไว้วางใจในระดับหนึ่งเสมอ
    • บล็อกเชนเป็น สภาพแวดล้อมแบบแยกขาด ที่รู้ได้แค่ข้อมูลของตัวเอง
      ถ้าจะใช้ข้อมูลภายนอกก็ต้องมี oracle และสามารถเรียนรู้เพิ่มเติมได้จากคำอธิบายเรื่อง oracle ของ Chainlink
    • ไม่ควรทำสัญญาแบบนั้นกับคนที่ไม่น่าเชื่อถือ
      มิจฉาชีพอาจทิ้ง ช่องโหว่ ไว้ในโค้ดเพื่อดูดเงินออกไปได้
      สัญญาที่ถูกต้องจะป้องกันพฤติกรรมแบบนี้ แต่ attack vector นั้นมีได้ไม่สิ้นสุด
  • ข้อสรุปที่ว่า “AI สามารถทำการโจมตีแบบ autonomous exploit ที่ทำกำไรได้จริง”
    ทำไมถึงต่อไปเป็น “เราควรนำ AI มาใช้เชิงรับอย่างจริงจัง” ได้ ฉันรู้สึกว่ามันเป็น การกระโดดทางตรรกะ

    • แต่ในมุมของนักพัฒนา smart contract ถ้ามี เครื่องมือตรวจหาช่องโหว่อัตโนมัติ ที่ถูกและทรงพลัง ก็น่าจะช่วยได้มาก
  • ประโยคที่ว่า “ได้กำหนด lower bound ของความเสียหายทางเศรษฐกิจไว้แล้ว”
    จริง ๆ แล้วมันเหมือนกำลังพูดถึง ประสิทธิภาพของตลาด หรือเปล่า

  • ในโปรเจกต์ของเราเอง ตอนนี้ก็เริ่มเห็น พฤติกรรมการปรับปรุงตัวเอง แล้ว
    ขั้นต่อไปก็ดูเหมือนจะไปสู่ เอเจนต์ที่ปรับปรุงตัวเองได้ ตามธรรมชาติ
    การได้อยู่ตรงกลางของกระแสแบบนี้ค่อนข้างน่าสนใจทีเดียว

  • ตรงที่ทีมวิจัยบอกว่าไม่ได้ทดสอบบนบล็อกเชนจริง
    กลับยิ่งดูเหมือนเป็นตัวเร่งให้คนหันไป แข่งขันกันใช้โมเดล มากขึ้น ซึ่งก็ตลกดี