VibeFrame - วิดีโอ CLI แบบอิงสตอรีบอร์ดสำหรับเอเจนต์เขียนโค้ด
(github.com/vericontext)สวัสดีครับ
ช่วงนี้ผมกำลังทดลองอยู่ว่าจะใช้เอเจนต์เขียนโค้ดอย่าง Codex / Claude Code / Cursor ทำงานวิดีโอได้ไกลแค่ไหน และกำลังสร้าง CLI ชื่อ VibeFrame ขึ้นมาครับ
ผมรู้สึกว่าเครื่องมือวิดีโอแบบเดิมส่วนใหญ่มักเก็บสถานะไว้ใน UI ทำให้เอเจนต์จัดการได้ยาก เลยกำลังทำมันในแนวทางที่ทำให้โปรเจ็กต์วิดีโอถูกจัดการได้คล้ายโปรเจ็กต์โค้ดมากที่สุด
โฟลว์พื้นฐานเป็นแบบนี้ครับ
- STORYBOARD.md: ฉาก, เสียงบรรยาย, จังหวะเวลา, cue สำหรับสร้างภาพ/วิดีโอ
- DESIGN.md: โทน, เลย์เอาต์, ไทโปกราฟี, ทิศทางของโมชั่น
- vibe build: สร้าง asset + scene composition
- vibe render: เรนเดอร์ MP4
- vibe inspect: ตรวจสอบผลลัพธ์การเรนเดอร์
เวลาใช้งานจริงจะประมาณนี้ครับ
curl -fsSL https://vibeframe.ai/install.sh | bash
vibe setup --scope project
vibe init launch --from brief.md
# ให้ Codex / Claude Code / Cursor ฯลฯ
# อัปเดต STORYBOARD.md และ DESIGN.md จากข้อมูลที่ค้นคว้ามา
vibe build launch --dry-run
vibe build launch
vibe render launch
vibe inspect render launch --cheap
ฝั่ง scene composition ได้รับอิทธิพลจากแนวคิดของ Hyperframes ค่อนข้างมาก โดยมองฉากวิดีโอเป็น HTML/CSS/JS composition บนไทม์ไลน์ แล้วจับภาพจากเบราว์เซอร์แบบ deterministic เพื่อนำมาเรนเดอร์เป็น MP4
VibeFrame จะใกล้เคียงกับการวาง project layer ที่เอเจนต์เขียนโค้ดจัดการได้ง่ายไว้ด้านบนของสิ่งนั้น โดยใช้ STORYBOARD.md / DESIGN.md เป็น source of truth แล้วเสริม agentic workflow อย่างการสร้างภาพ/วิดีโอ/เสียงบรรยาย/ดนตรีแบบ multi-provider, การ edit/remix บนฐาน FFmpeg, เอาต์พุต JSON, dry-run, config ระดับโปรเจ็กต์, และ inspect report
ในเดโมครั้งนี้ หลังจาก vibe setup --scope project แล้วทำแค่ vibe init launch ผมให้เอเจนต์เขียนโค้ดไปค้นคว้าหัวข้อหนึ่งและอัปเดต STORYBOARD.md / DESIGN.md จากนั้นจึงบิลด์ไปจนได้ MP4 สุดท้าย รวมถึง cue สำหรับสร้างภาพด้วย และได้อัดขั้นตอนนั้นไว้ครับ
วิดีโอแสดงกระบวนการเต็ม:
https://t.co/YD0SYyODcQ
ตอนนี้ยังอยู่ในช่วงเริ่มต้น เลยอยากได้ฟีดแบ็กเป็นพิเศษในเรื่องด้านล่างครับ
- แนวทางที่ใช้ STORYBOARD.md + DESIGN.md เป็น agent interface สำหรับงานวิดีโอดูเป็นธรรมชาติหรือไม่
- การแยก workflow lane เป็น build / generate / edit-remix ทั้งสามแบบ เข้าใจง่ายหรือไม่
- CLI surface กว้างเกินไปหรือเปล่า หรือกลับกันคือดูเหมือนยังขาดฟีเจอร์อะไรอยู่ไหม
นี่เป็นความพยายามที่จะย้ายงานตัดต่อวิดีโอจาก GUI มาเป็น agentic CLI เลยอยากฟังความเห็นจากคนที่เคยเจอปัญหาคล้ายกันครับ
ยังไม่มีความคิดเห็น