bigset - ถ้ามีข้อมูลทั้งหมดในโลกจะเป็นอย่างไร?
(github.com/tinyfish-io)- เครื่องมือโอเพนซอร์สที่สร้างชุดข้อมูลแบบมีโครงสร้างจาก ประโยคภาษาธรรมชาติหนึ่งประโยค บนเว็บแบบสด และ อัปเดตอัตโนมัติ ตามรอบที่ตั้งไว้
- ตัวอย่าง: "รายชื่อบริษัท YC ที่กำลังเปิดรับวิศวกรอยู่ในขณะนี้ พร้อมรอบการลงทุน ที่ตั้ง และจำนวนตำแหน่งงานที่เปิดเผยต่อสาธารณะ"
- อนุมานสคีมาอัตโนมัติ จากประโยคอินพุต — กำหนดทั้งชื่อคอลัมน์ ชนิดข้อมูล คีย์หลัก และแม้กระทั่งตำแหน่งที่จะหาได้บนเว็บ
- เอเจนต์อัตโนมัติจะสำรวจเว็บแบบสด และส่งคืนเป็นตารางหลังจาก ตรวจสอบเทียบกับแหล่งที่มาจริง และลบข้อมูลซ้ำ
- เมื่อเอเจนต์ orchestrator ค้นพบเอนทิตี เอเจนต์ย่อยจะกระจายทำงานแบบขนานเพื่อสำรวจและตรวจสอบแต่ละเอนทิตี
- ผลลัพธ์ดาวน์โหลดได้เป็น CSV / XLSX และสำรวจผ่าน UI ได้
- เมื่อตั้งค่า รอบการอัปเดต (30 นาที, 6 ชั่วโมง, 12 ชั่วโมง, รายวัน, รายสัปดาห์) เอเจนต์จะรันใหม่ตามกำหนดเพื่ออัปเดตชุดข้อมูลอย่างต่อเนื่อง
- ไม่ว่าจะเป็นคนหรือ AI agent ปฏิสัมพันธ์ทั้งหมดกับเว็บสุดท้ายแล้วล้วนจบลงที่ข้อมูล (ราคา บริษัท การจ้างงาน งานวิจัย ความพร้อมใช้งาน สต็อก ฯลฯ)
- ข้อมูลเหล่านี้กระจายอยู่ตามหลายหน้า และช่วยจัดการกับ การเก็บข้อมูลข้ามหมวดหมู่ ที่เครื่องมือ scraping/search API/LeadGen แบบเดิมทำไม่ได้
— ไม่จำเป็นต้องทำหรือรวมงานค้นหา/ดึงข้อมูล/ออกแบบสคีมา/ลบข้อมูลซ้ำ/ตรวจสอบ/cron job ด้วยตัวเองทุกครั้ง
- ข้อมูลเหล่านี้กระจายอยู่ตามหลายหน้า และช่วยจัดการกับ การเก็บข้อมูลข้ามหมวดหมู่ ที่เครื่องมือ scraping/search API/LeadGen แบบเดิมทำไม่ได้
- สร้างและส่งออกชุดข้อมูลผ่านเทอร์มินัล CLI ได้เช่นกัน
bigset create "..." --rows 30 --wait --csv
- อย่างไรก็ตาม ยังอยู่ในช่วงทดลอง ดังนั้นการอนุมานสคีมายังไม่สมบูรณ์แบบเสมอไป เหมาะกับข้อมูลสาธารณะเท่านั้น
- เทคโนโลยีสแตก
- ฟรอนต์เอนด์: Next.js 16, React 19, Tailwind 4
- แบ็กเอนด์: Fastify, TypeScript (agent runner)
- การยืนยันตัวตน: local auth (development), Clerk (cloud)
- ฐานข้อมูล: Convex (self-hosted)
- การเก็บข้อมูล: TinyFish API (Search, Fetch, Browser)
- การ orchestration ของ AI: เวิร์กโฟลว์ Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (อนุมานสคีมา + populate agent)
- มุมมองตาราง: TanStack Table + virtualization ด้วย react-window
- การส่งออก: CSV (ในตัว) + XLSX (SheetJS, dynamic import)
- การวิเคราะห์: PostHog — event, session replay, error tracking (เลือกใช้ได้)
- ไลเซนส์ AGPL-3.0
ยังไม่มีความคิดเห็น