ClawWork — เฟรมเวิร์กเบนช์มาร์กที่เปลี่ยน AI Assistant ให้เป็น “เพื่อนร่วมงาน AI ที่รับผิดชอบทางเศรษฐกิจ”

(github.com/HKUDS)

5 คะแนน โดย princox 2026-02-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

นี่คือโปรเจกต์โอเพนซอร์สที่ทีมวิจัยจากมหาวิทยาลัยฮ่องกง (HKUDS) เผยแพร่เมื่อเดือนกุมภาพันธ์ 2026 เป็นระบบที่ใช้ชุดข้อมูล GDPVal ของ OpenAI เพื่อตรวจสอบว่า AI agent สามารถสร้างรายได้จริงได้หรือไม่ ไม่ได้เป็นเพียงการวัดประสิทธิภาพของแชตบอต แต่เป็นการวัดจากมุมมองของการอยู่รอดทางเศรษฐกิจว่า AI สามารถทำงานวิชาชีพจริงและสร้างรายได้ได้หรือไม่

แนวคิดหลัก: แรงกดดันของการอยู่รอดทางเศรษฐกิจ

เอเจนต์เริ่มต้นด้วยเงิน $10 ทุกครั้งที่มีการเรียกใช้ LLM จะมีการหักค่าใช้จ่ายโทเคนจริง และจะมีรายได้เข้ามาก็ต่อเมื่องานเสร็จสมบูรณ์เท่านั้น ในแต่ละวันเอเจนต์ต้องเลือกสองอย่าง คือจะทำงานเพื่อหารายได้ทันที (work) หรือจะเรียนรู้เพื่อพัฒนาประสิทธิภาพระยะยาว (learn) การคำนวณรายได้ก็มีความสมจริงเช่นกัน

Payment = คะแนนคุณภาพ(0.0~1.0) × (เวลาที่คาดว่าจะใช้ × ค่าแรงรายชั่วโมงตามสูตรทางการของ BLS)

มูลค่างานอยู่ในช่วง $82~$5,004 และค่าเฉลี่ยอยู่ที่ประมาณ $259

เบนช์มาร์ก: ชุดข้อมูล GDPVal
ใช้ชุดข้อมูล GDPVal ที่ OpenAI สร้างขึ้นเพื่อวัดการมีส่วนร่วมของ AI ต่อ GDP ประกอบด้วยอาชีพ 44 กลุ่ม และงานจริง 220 รายการ ครอบคลุม 4 โดเมน ได้แก่ เทคโนโลยี·วิศวกรรม, ธุรกิจ·การเงิน, เฮลท์แคร์ และกฎหมาย·ปฏิบัติการ ผลลัพธ์ของงานต้องส่งเป็นไฟล์จริง เช่น Word, Excel, PDF และรายงานการวิเคราะห์ข้อมูล พร้อมให้คะแนนคุณภาพด้วยการประเมินโดย LLM ที่อิง GPT-4o

โครงสร้าง

เป็นโครงสร้างน้ำหนักเบาที่ทำงานอยู่บน Nanobot และเครื่องมือของเอเจนต์ประกอบด้วยการค้นหาเว็บ, การสร้างไฟล์ (.docx/.xlsx/.pdf), การรันโค้ด Python (E2B isolated sandbox), การสร้างวิดีโอ เป็นต้น บนแดชบอร์ด React แบบเรียลไทม์สามารถมอนิเตอร์การเปลี่ยนแปลงของยอดเงินคงเหลือ·ความคืบหน้าการทำงาน·ความคืบหน้าการเรียนรู้ได้ในเชิงภาพ และยังรองรับการเชื่อมต่อกับ 9 ช่องทาง เช่น Telegram, Discord และ Slack

ข้อจำกัด

คำว่า “$10K in 7 hours” ในชื่อเรื่องเป็นรายได้เทียบเท่าในสภาพแวดล้อมจำลองแบบแยกส่วน และตัวการประเมินเองก็ทำโดย GPT-4o ด้วย จึงควรคำนึงถึงด้วยว่าเป็นโครงสร้างที่โมเดลของ OpenAI ถูกให้คะแนนโดยผู้ประเมินที่อิง OpenAI เช่นกัน อีกทั้งเพิ่งเปิดเผยได้ไม่นาน การตรวจสอบยืนยันจากชุมชนจึงยังมีไม่มากนัก อย่างไรก็ตาม กรอบแนวคิดที่ประเมิน AI ด้วย “การอยู่รอดทางเศรษฐกิจ” แทน “ความแม่นยำ” นั้นก็น่าสนใจทีเดียว

ClawWork — เฟรมเวิร์กเบนช์มาร์กที่เปลี่ยน AI Assistant ให้เป็น “เพื่อนร่วมงาน AI ที่รับผิดชอบทางเศรษฐกิจ”

แนวคิดหลัก: แรงกดดันของการอยู่รอดทางเศรษฐกิจ

โครงสร้าง

ข้อจำกัด

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น