สรุปภาพรวม
- รายงานนี้สรุปผลการตรวจสอบรีโพ Bio-AI และระบบอัตโนมัติทางวิทยาศาสตร์ที่เกี่ยวข้อง 10 แห่งซึ่งมีการมองเห็นสูง ณ เดือนมีนาคม 2026
- ไม่ได้คัดเลือกแบบสุ่ม แต่เลือกตาม GitHub star ความถี่ของการถกเถียงทางเทคนิค และระดับการเปิดเผยตัวในระบบนิเวศจริง
- การตรวจสอบดำเนินการแบบ 2 ขั้นตอน โดยขั้นที่ 1 เป็นการตรวจโค้ดเชิงเทคนิค: โครงสร้าง repo, entry point, การรัน ส่วนขั้นที่ 2 ใช้การให้คะแนน STEM-AI v1.0.4 เพื่อประเมินความครบถ้วนของเอกสาร รวมถึงโค้ด การทดสอบ และ governance
- ข้อสรุป: ส่วนใหญ่รันได้ แต่ยังไม่ถึงระดับที่เชื่อถือได้ การขาด governance แสดงให้เห็นข้อจำกัดของ Bio-AI
1. สถานการณ์ปัจจุบันของ Bio-AI ในปี 2026
- เครื่องมือ Bio-AI ที่อิง LLM เพิ่มขึ้นอย่างรวดเร็ว
- กระแส hype ของ agent, skills และ automation wrapper ก็แพร่กระจายอย่างรวดเร็วเช่นกัน
- ประสิทธิภาพและความมีประโยชน์ในภาพรวมภายนอกเพิ่มขึ้น
- แต่ขาดกลไกการตรวจสอบ
- ความรับผิดชอบไม่ชัดเจน
- โดยเฉพาะในพื้นที่ความเสี่ยงสูงอย่างการพัฒนายา ยิ่งอันตราย
- โดยสรุป ความเร็วในการกระจายของความสามารถนำหน้าการตรวจสอบและ governance ไปมาก
2. ขอบเขตการตรวจสอบ
- คัดเลือกเป้าหมาย 10 โครงการ
- เกณฑ์คือการมองเห็น อิทธิพล การเปิดเผยตัวจริง ความถี่ของการพูดถึง และความเป็นศูนย์กลาง
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. วิธีการตรวจสอบ
- การตรวจสอบดำเนินการเป็น 2 ขั้นตอน
- ขั้นที่ 1. Technical Code Audit
- ตรวจสอบโครงสร้างรีโพ
- ตรวจสอบ entry point
- ตรวจสอบ orchestration layer
- ติดตามเส้นทางการรัน
- ตรวจสอบเส้นทางของเอาต์พุต
- ตรวจไฟล์สำคัญโดยตรง
- เปรียบเทียบสิ่งที่อ้างใน README กับโค้ดจริง
- กล่าวคือ เน้นตรวจว่า “ทำอะไรได้จริง” มากกว่าสิ่งที่ “เขียนว่าใช้ทำอะไร”
- ขั้นที่ 2. การให้คะแนน STEM-AI v1.0.4
- ดำเนินการประเมิน S1
- ตรวจสอบ README และความครบถ้วนของเอกสาร
- ดำเนินการประเมิน S3
- ตรวจสอบตัวตนของโค้ด การทดสอบ วินัยในการเปลี่ยนแปลง และกลไกความครบถ้วนทางชีววิทยา
- กล่าวคือ ไม่ใช่การประเมินจากความประทับใจ แต่ให้คะแนนหลังจากตรวจโครงสร้างแล้ว
- หลักการตรวจสอบ
- ไม่ได้ทำการทำซ้ำแบบไดนามิกครบถ้วนของทุกรีโพทั้งหมด
- แต่จะตรวจโดยเน้นส่วนที่เชื่อมโยงโดยตรงกับคำอ้างหลัก
- ส่วนที่มีความเสี่ยงหรือความขัดแย้งสูงจะตรวจเชิงลึกเพิ่มเติม
- หลักการสำคัญ: ให้ความสำคัญกับพื้นผิวการรันมากกว่า README หากเอกสารขัดกับโค้ด จะตัดสินตามการทำงานจริงไม่ใช่เอกสาร
- กล่าวคือ การตรวจนี้ใกล้เคียงกับการวินิจฉัยเชิงโครงสร้างมากกว่าการทำ benchmark ด้าน reproducibility
4. การจัดระดับด้วยคะแนน
- T0: ยังสร้างความเชื่อถือไม่ได้ แม้จะรันได้ก็ยากจะมองว่าเป็นระบบที่เชื่อถือได้
- T1: มีโครงสร้างบางส่วน แต่ยังขาดความน่าเชื่อถือ ใช้ได้ในระดับสำรวจหรืออ้างอิง
- T2: มีความคืบหน้าที่มีนัยสำคัญ แต่ยังไม่พอจะนำไปสู่ supervised pilot
- T3: เกณฑ์ขั้นต่ำที่สามารถพิจารณา supervised pilot ได้
- T4: ระดับที่สามารถพิจารณาเชื่อมต่อกับสภาพแวดล้อมที่มีความรับผิดชอบต่อผลลัพธ์สูงกว่าได้
- รายงานนี้กำหนด T3 เป็นเส้นขั้นต่ำของ supervised pilot และ T4 เป็นเส้นขั้นต่ำสำหรับการเชื่อมต่อกับสภาพแวดล้อมที่มีความรับผิดชอบต่อผลลัพธ์สูงกว่า
5. ผลลัพธ์
- ผลลัพธ์รายรีโพ
- AI-Scientist — 48 คะแนน, T1
- Biomni — 17 คะแนน, T0
- BioAgents — 30 คะแนน, T0
- BioClaw — 29 คะแนน, T0
- CellAgent — 15 คะแนน, T0
- ClawBio — 63 คะแนน, T2
- claude-scientific-skills — 24 คะแนน, T0
- LabClaw — 20 คะแนน, T0
- SciAgent-Skills — 32 คะแนน, T0
- OpenClaw-Medical-Skills — 22 คะแนน, T0
- ความหมายของผลลัพธ์
- 8 จาก 10 ยังสร้างความเชื่อถือไม่ได้
- 1 โครงการมีโครงสร้างบางส่วน แต่ยังไม่เพียงพอ
- 1 โครงการทำได้ดีที่สุด แต่ก็ยังไม่ถึงเส้นขั้นต่ำของ pilot
- ไม่มีโครงการใดได้ T3 ขึ้นไป นั่นคือไม่มีรีโพใดผ่านเกณฑ์ขั้นต่ำสำหรับ supervised pilot
6. ปัญหาเชิงรูปแบบที่เกิดซ้ำ
- คำอ้างเกินจริง
- การตรวจสอบอ่อนแอ
- ขาดการติดตามย้อนกลับ
- ขอบเขตของความล้มเหลวอ่อนแอ
- README ไม่สอดคล้องกับความเป็นจริงในการรัน
- ขาด governance
- reproducibility ต่ำ
- ขอบเขตเรื่องไลเซนส์ ความรับผิดชอบ และการดำเนินงานไม่ชัดเจน
- แม้จะพูดถึงขอบเขตใกล้เคียงทางคลินิก แต่โครงสร้างความรับผิดชอบกลับอ่อนแอ
- CI เน้นการตรวจไวยากรณ์และรูปแบบมากกว่าการตรวจสอบทางวิทยาศาสตร์
- พบกรณีที่ mockup และ placeholder ดูเหมือนเป็นฟังก์ชันจริง
- แม้การออกแบบในเครื่องโลคัลจะดูดี แต่ค่าเริ่มต้นสำหรับการ deploy มักเสี่ยงซ้ำแล้วซ้ำอีก
7. ข้อสรุปสุดท้าย
- รายงานนี้ไม่ได้บอกว่าโอเพนซอร์ส Bio-AI ทั้งหมด “ไร้ประโยชน์”
- ประเด็นสำคัญคือ สิ่งที่ดูมีความสามารถ กับสิ่งที่เชื่อถือได้ เป็นคนละเรื่องกัน
- คอขวดไม่ได้อยู่ที่ความสามารถของโมเดลเท่านั้น แต่การขาดการตรวจสอบ การติดตาม ความรับผิดชอบ และ governance เป็นปัญหาที่ใหญ่กว่า
- กล่าวให้ชัดขึ้นคือ Bio-AI จะกลายเป็นระบบที่เชื่อถือได้ก็ต่อเมื่อปรับปรุงโครงสร้างให้สามารถทำซ้ำคำอ้างและผลลัพธ์ได้อย่างชัดเจน มีขอบเขตที่แน่นอน และเปิดให้สถาบันตรวจทานได้
8. สรุปหนึ่งบรรทัด
- ปัญหาของ Bio-AI ไม่ใช่เรื่องขาดความสามารถเท่านั้น แต่ปัญหาใหญ่ที่สุดคือการขาดการตรวจสอบและ governance
ยังไม่มีความคิดเห็น