7 คะแนน โดย milkclouds00 2026-02-20 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

นี่คือ ocap (Omnimodal CAPture) เครื่องมือบันทึกโอเพนซอร์สที่สร้างขึ้นมาเพื่อเก็บข้อมูลเดสก์ท็อปสำหรับการฝึก AI agent แต่ก็สามารถใช้งานแบบอเนกประสงค์ได้ด้วย

เครื่องมือบันทึกแบบเดิมอย่าง OBS มักเก็บได้แค่วิดีโอ หรือไม่สามารถบันทึกข้อมูลหลายประเภทแบบซิงก์กันได้ สำหรับการฝึก AI จำเป็นต้องใช้ข้อมูลที่ ซิงก์กัน ตั้งแต่ "ผู้ใช้กดคีย์อะไร เมื่อไร ขยับเมาส์ไปที่ไหน และหน้าต่างไหนกำลัง active อยู่" จึงสร้างเครื่องมือนี้ขึ้นมาเพื่อแก้ปัญหานี้

คุณสมบัติ:

  • บันทึกวิดีโอหน้าจอ + เสียง + อีเวนต์คีย์บอร์ด/เมาส์ + อีเวนต์หน้าต่าง โดยซิงก์กันในระดับนาโนวินาที
  • ฮาร์ดแวร์เร่งการเข้ารหัส (H265/HEVC, NVIDIA GPU)
  • เริ่ม/หยุดการบันทึกด้วยคำสั่งเดียว: ocap my-recording → Ctrl+C
  • ลอจิกหลักอยู่ในไฟล์ Python ไฟล์เดียว (~400 บรรทัด) จึงปรับแต่งได้ง่าย
  • โครงสร้างบน GStreamer ทำให้ขยายไปยัง Linux/macOS ได้
  • เอาต์พุต: .mkv (วิดีโอ) + .mcap (event log, ฟอร์แมต MCAP ที่ผ่านการพิสูจน์แล้วในงาน robotics)

การติดตั้ง:

conda install open-world-agents::gstreamer-bundle  
pip install ocap  

หรือดาวน์โหลด zip จากหน้ารีลีสแล้วรัน run.bat ได้เลย

เดิมทีพัฒนาขึ้นสำหรับโครงการวิจัย D2E ที่ฝึก Embodied AI ด้วยข้อมูลเดสก์ท็อป (https://worv-ai.github.io/d2e/) แต่เพราะสามารถใช้เป็นเครื่องมือบันทึกเดสก์ท็อปแบบทั่วไปได้ จึงแยกออกมาเป็นแพ็กเกจต่างหาก

ขณะนี้รองรับเฉพาะสภาพแวดล้อม Windows + NVIDIA GPU เท่านั้น ส่วนการรองรับ AMD/Intel GPU หรือระบบปฏิบัติการอื่น ออกแบบไว้ให้เปลี่ยนแค่ GStreamer pipeline ก็รองรับได้

GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น