ocap - เครื่องมือบันทึกประสิทธิภาพสูงที่บันทึกทุกอย่างบนเดสก์ท็อป
(github.com/open-world-agents)นี่คือ ocap (Omnimodal CAPture) เครื่องมือบันทึกโอเพนซอร์สที่สร้างขึ้นมาเพื่อเก็บข้อมูลเดสก์ท็อปสำหรับการฝึก AI agent แต่ก็สามารถใช้งานแบบอเนกประสงค์ได้ด้วย
เครื่องมือบันทึกแบบเดิมอย่าง OBS มักเก็บได้แค่วิดีโอ หรือไม่สามารถบันทึกข้อมูลหลายประเภทแบบซิงก์กันได้ สำหรับการฝึก AI จำเป็นต้องใช้ข้อมูลที่ ซิงก์กัน ตั้งแต่ "ผู้ใช้กดคีย์อะไร เมื่อไร ขยับเมาส์ไปที่ไหน และหน้าต่างไหนกำลัง active อยู่" จึงสร้างเครื่องมือนี้ขึ้นมาเพื่อแก้ปัญหานี้
คุณสมบัติ:
- บันทึกวิดีโอหน้าจอ + เสียง + อีเวนต์คีย์บอร์ด/เมาส์ + อีเวนต์หน้าต่าง โดยซิงก์กันในระดับนาโนวินาที
- ฮาร์ดแวร์เร่งการเข้ารหัส (H265/HEVC, NVIDIA GPU)
- เริ่ม/หยุดการบันทึกด้วยคำสั่งเดียว:
ocap my-recording→ Ctrl+C - ลอจิกหลักอยู่ในไฟล์ Python ไฟล์เดียว (~400 บรรทัด) จึงปรับแต่งได้ง่าย
- โครงสร้างบน GStreamer ทำให้ขยายไปยัง Linux/macOS ได้
- เอาต์พุต: .mkv (วิดีโอ) + .mcap (event log, ฟอร์แมต MCAP ที่ผ่านการพิสูจน์แล้วในงาน robotics)
การติดตั้ง:
conda install open-world-agents::gstreamer-bundle
pip install ocap
หรือดาวน์โหลด zip จากหน้ารีลีสแล้วรัน run.bat ได้เลย
เดิมทีพัฒนาขึ้นสำหรับโครงการวิจัย D2E ที่ฝึก Embodied AI ด้วยข้อมูลเดสก์ท็อป (https://worv-ai.github.io/d2e/) แต่เพราะสามารถใช้เป็นเครื่องมือบันทึกเดสก์ท็อปแบบทั่วไปได้ จึงแยกออกมาเป็นแพ็กเกจต่างหาก
ขณะนี้รองรับเฉพาะสภาพแวดล้อม Windows + NVIDIA GPU เท่านั้น ส่วนการรองรับ AMD/Intel GPU หรือระบบปฏิบัติการอื่น ออกแบบไว้ให้เปลี่ยนแค่ GStreamer pipeline ก็รองรับได้
GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/
ยังไม่มีความคิดเห็น