ประสบการณ์การค้นหาโอเพนซอร์สซีโร่เดย์ด้วยเวิร์กโฟลว์ LLM แบบมัลติเอเจนต์

nell93 · 2026-03-12T09:11:57+09:00

จากการติดตามแนวโน้มของการแข่งขัน AIxCC และการแข่งขันแฮ็กกิง ทำให้สัมผัสได้ถึงการเปลี่ยนกระบวนทัศน์ของอุตสาหกรรมความปลอดภัย และได้สร้างเวิร์กโฟลว์สำหรับค้นหาช่องโหว่ในสภาพแวดล้อมจริง (Real World) ด้วยตนเอง ในช่วงแรกเคยพิจารณาทั้งช่องโหว่ด้านหน่วยความจำและการแฮ็กแบบแบล็กบ็อกซ์ แต่ได้เปลี่ยนแนวทางเพราะข้อจำกัดเชิงนโยบายและความเสี่ยงที่เซิร์ฟเวอร์จะล่ม แทนที่จะทำเช่นนั้นจึงเลือกเจาะจงโอเพนซอร์สเว็บขนาดใหญ่ที่เปิดเผยโค้ดอย่างโปร่งใส และเป็นงานที่ความสามารถของ LLM ในการเข้าใจบริบทจะมีประสิทธิภาพมากกับการวิเคราะห์บิซิเนสลอจิกที่ซับซ้อน เช่น Nextcloud, Matomo, Grafana เป็นต้น เพื่อแก้ปัญหาเรื่องค่าใช้จ่าย (ความยั่งยืน) จากการใช้โทเคน จึงอ้างอิงบทความ benchmark ที่พบใน GeekNews และออกแบบสถาปัตยกรรมการทำ routing แบบ 3 ขั้นที่อิงกับโมเดล GLM ซึ่งคุ้มค่าด้านต้นทุนมาก Finding (GLM-4.7): เพิ่มจำนวนครั้งในการเรียกใช้เวอร์ชัน 4.7 ซึ่งมีราคาถูกกว่ารุ่นบนสุดราว 3 เท่า เพื่อสำรวจผู้ต้องสงสัยว่าอาจเป็นช่องโหว่จำนวนมาก Semi-Triage (GLM-5): กรองผลลวง (False Positive) ที่เห็นได้ชัดออกในชั้นแรก Triage (Codex 5.3): นำเฉพาะข้อมูลที่รอดมาไปตรวจยืนยันขั้นสุดท้ายด้วยโมเดลระดับบนสุด และแจ้งเตือนอัตโนมัติไปยัง Discord/Notion (ก่อนรายงานจริงจะมีมนุษย์ทำการจำลองและตรวจสอบด้วยตนเอง) ผ่านการทำ prompt engineering เพื่อควบคุมลักษณะ “ไล่อ่านแบบคร่าว ๆ” ที่ค่อนข้างขี้เกียจซึ่งเป็นเอกลักษณ์ของ LLM บังคับให้แสดง 3 องค์ประกอบในคำตอบเสมอ ได้แก่ “เงื่อนไขของผู้โจมตี, เงื่อนไขของเซิร์ฟเวอร์, ผลกระทบด้านความปลอดภัย (CIA)” ให้ทำการ cross-check กับนโยบายความปลอดภัยและเอกสารทางการของโอเพนซอร์ส เพื่อแยกความแตกต่างระหว่างบั๊ก (Bug) กับช่องโหว่ความปลอดภัย (Vulnerability) ให้ชัดเจน ผลลัพธ์คือ AI สามารถชี้ช่องว่างเชิงตรรกะเล็ก ๆ ที่มนุษย์มักพลาดได้สำเร็จ ขณะต้องไล่เทียบโค้ด routing และเอนจินสิทธิ์จำนวนหลายหมื่นบรรทัดจนสมาธิลดลง ตัวอย่างเด่นคือ AI พบช่องโหว่ใน API จัดการสิทธิ์ของแดชบอร์ด Grafana ซึ่งมีจุดอ่อนจากการละเว้นอาร์กิวเมนต์ scope ระหว่างการตรวจสอบสิทธิ์ภายใน ทำให้สามารถยึดสิทธิ์ควบคุมแดชบอร์ดอื่นได้ และได้มีการรายงานช่องโหว่การยกระดับสิทธิ์ร้ายแรงนี้ (CVE-2026-21721, CVSS 8.1) นอกจากนี้ยังได้รับซีโร่เดย์ (CVE) และบั๊กบาวน์ตีอีกหลายรายการจาก Nextcloud (XSS, bypass การยืนยันตัวตน), Protobuf (DoS), Airflow และ Discourse เป็นต้น มุมมองที่นำมาแบ่งปันคือ ในอนาคตงานค้นหาช่องโหว่แบบพื้นฐาน (เรดทีม) มีแนวโน้มที่ AI จะเข้ามาแทนที่ได้มากพอสมควร และต่อจากนี้ความสามารถในการออกแบบเวิร์กโฟลว์ความปลอดภัยด้วย AI เอง รวมถึงการวางกลยุทธ์ป้องกันจากมุมมองบลูทีมให้เหมาะกับสถานการณ์ทางธุรกิจ จะยิ่งมีความสำคัญต่อแฮ็กเกอร์มากขึ้น

(se1en.tistory.com)

7 คะแนน โดย nell93 2026-03-12 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

จากการติดตามแนวโน้มของการแข่งขัน AIxCC และการแข่งขันแฮ็กกิง ทำให้สัมผัสได้ถึงการเปลี่ยนกระบวนทัศน์ของอุตสาหกรรมความปลอดภัย และได้สร้างเวิร์กโฟลว์สำหรับค้นหาช่องโหว่ในสภาพแวดล้อมจริง (Real World) ด้วยตนเอง
ในช่วงแรกเคยพิจารณาทั้งช่องโหว่ด้านหน่วยความจำและการแฮ็กแบบแบล็กบ็อกซ์ แต่ได้เปลี่ยนแนวทางเพราะข้อจำกัดเชิงนโยบายและความเสี่ยงที่เซิร์ฟเวอร์จะล่ม แทนที่จะทำเช่นนั้นจึงเลือกเจาะจงโอเพนซอร์สเว็บขนาดใหญ่ที่เปิดเผยโค้ดอย่างโปร่งใส และเป็นงานที่ความสามารถของ LLM ในการเข้าใจบริบทจะมีประสิทธิภาพมากกับการวิเคราะห์บิซิเนสลอจิกที่ซับซ้อน เช่น Nextcloud, Matomo, Grafana เป็นต้น
เพื่อแก้ปัญหาเรื่องค่าใช้จ่าย (ความยั่งยืน) จากการใช้โทเคน จึงอ้างอิงบทความ benchmark ที่พบใน GeekNews และออกแบบสถาปัตยกรรมการทำ routing แบบ 3 ขั้นที่อิงกับโมเดล GLM ซึ่งคุ้มค่าด้านต้นทุนมาก
- Finding (GLM-4.7): เพิ่มจำนวนครั้งในการเรียกใช้เวอร์ชัน 4.7 ซึ่งมีราคาถูกกว่ารุ่นบนสุดราว 3 เท่า เพื่อสำรวจผู้ต้องสงสัยว่าอาจเป็นช่องโหว่จำนวนมาก
- Semi-Triage (GLM-5): กรองผลลวง (False Positive) ที่เห็นได้ชัดออกในชั้นแรก
- Triage (Codex 5.3): นำเฉพาะข้อมูลที่รอดมาไปตรวจยืนยันขั้นสุดท้ายด้วยโมเดลระดับบนสุด และแจ้งเตือนอัตโนมัติไปยัง Discord/Notion (ก่อนรายงานจริงจะมีมนุษย์ทำการจำลองและตรวจสอบด้วยตนเอง)
ผ่านการทำ prompt engineering เพื่อควบคุมลักษณะ “ไล่อ่านแบบคร่าว ๆ” ที่ค่อนข้างขี้เกียจซึ่งเป็นเอกลักษณ์ของ LLM
- บังคับให้แสดง 3 องค์ประกอบในคำตอบเสมอ ได้แก่ “เงื่อนไขของผู้โจมตี, เงื่อนไขของเซิร์ฟเวอร์, ผลกระทบด้านความปลอดภัย (CIA)”
- ให้ทำการ cross-check กับนโยบายความปลอดภัยและเอกสารทางการของโอเพนซอร์ส เพื่อแยกความแตกต่างระหว่างบั๊ก (Bug) กับช่องโหว่ความปลอดภัย (Vulnerability) ให้ชัดเจน
ผลลัพธ์คือ AI สามารถชี้ช่องว่างเชิงตรรกะเล็ก ๆ ที่มนุษย์มักพลาดได้สำเร็จ ขณะต้องไล่เทียบโค้ด routing และเอนจินสิทธิ์จำนวนหลายหมื่นบรรทัดจนสมาธิลดลง
ตัวอย่างเด่นคือ AI พบช่องโหว่ใน API จัดการสิทธิ์ของแดชบอร์ด Grafana ซึ่งมีจุดอ่อนจากการละเว้นอาร์กิวเมนต์ scope ระหว่างการตรวจสอบสิทธิ์ภายใน ทำให้สามารถยึดสิทธิ์ควบคุมแดชบอร์ดอื่นได้ และได้มีการรายงานช่องโหว่การยกระดับสิทธิ์ร้ายแรงนี้ (CVE-2026-21721, CVSS 8.1)
นอกจากนี้ยังได้รับซีโร่เดย์ (CVE) และบั๊กบาวน์ตีอีกหลายรายการจาก Nextcloud (XSS, bypass การยืนยันตัวตน), Protobuf (DoS), Airflow และ Discourse เป็นต้น
มุมมองที่นำมาแบ่งปันคือ ในอนาคตงานค้นหาช่องโหว่แบบพื้นฐาน (เรดทีม) มีแนวโน้มที่ AI จะเข้ามาแทนที่ได้มากพอสมควร และต่อจากนี้ความสามารถในการออกแบบเวิร์กโฟลว์ความปลอดภัยด้วย AI เอง รวมถึงการวางกลยุทธ์ป้องกันจากมุมมองบลูทีมให้เหมาะกับสถานการณ์ทางธุรกิจ จะยิ่งมีความสำคัญต่อแฮ็กเกอร์มากขึ้น

ประสบการณ์การค้นหาโอเพนซอร์สซีโร่เดย์ด้วยเวิร์กโฟลว์ LLM แบบมัลติเอเจนต์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น