22 คะแนน โดย xguru 2024-05-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เอนจิน NL-to-SQL ที่สามารถคิวรีข้อมูลเชิงโครงสร้างด้วยภาษาธรรมชาติ
  • เปลี่ยนโค้ดเบสทั้งหมดเป็นโอเพนซอร์ส: รวมทั้งคอร์เอนจิน ไคลเอนต์ (การยืนยันตัวตน/RBAC) เป็นต้น
  • จากนี้ใครก็สามารถสร้างโซลูชัน text-to-SQL ภายในผลิตภัณฑ์ของตนเองได้
  • Core NL-to-SQL engine ของ Dataherald เป็นเอเจนต์ที่ขับเคลื่อนด้วย LLM ซึ่งใช้การให้เหตุผลแบบ CoT (Chain of Thought) และเครื่องมือหลากหลายเพื่อสร้าง SQL ที่มีความแม่นยำสูงจากพรอมป์ต์ของผู้ใช้ที่ได้รับ
  • รวมทั้งหมด 4 บริการ
    • เอนจิน: เอเจนต์ LLM, เวกเตอร์สโตร์ และตัวเชื่อมต่อฐานข้อมูล
    • คอนโซลผู้ดูแลระบบ: ฟรอนต์เอนด์ NextJS สำหรับตั้งค่าเอนจินและจัดการ Observability
    • แบ็กเอนด์สำหรับองค์กร: ครอบคอร์เอนจินเพื่อเพิ่มการยืนยันตัวตน/แคช/API เป็นต้น
    • Slack bot: เพิ่ม Dataherald เข้าไปในเวิร์กโฟลว์ของ Slack

1 ความคิดเห็น

 
xguru 2024-05-26

Dataherald - เอนจินแปลงภาษาธรรมชาติเป็น SQL
เคยมีการแชร์ไว้เมื่อ 8 เดือนก่อน ตอนนี้เปิดซอร์สทั้งระบบแล้ว

ความเห็นจาก Hacker News

  • เครื่องมือนี้ดูยอดเยี่ยมมาก เครื่องมืออื่น ๆ ทำงานได้ดีกับคิวรีง่าย ๆ แต่มีปัญหากับสคีมาที่ซับซ้อนและการ join อยากรู้ว่า DataHerald แก้ปัญหานี้ได้หรือไม่
  • ปีที่แล้วได้โอเพนซอร์สผลิตภัณฑ์ text-to-SQL ไป การสร้างธุรกิจแบบนี้ยากมาก การทำโอเพนซอร์สและเชื่อมกับเครื่องมือแจกจ่ายฟรีอย่าง Snowflake/PowerBI ดูสมเหตุสมผลกว่า
  • สงสัยว่าทำไมถึงตัดสินใจโอเพนซอร์สผลิตภัณฑ์ทั้งหมด กำลังเปลี่ยนไปใช้โมเดล open core หรือไม่ ถ้าแชร์เหตุผลได้จะขอบคุณมาก
  • ขอบคุณสำหรับการมีส่วนร่วมครั้งสำคัญ ในตอนนี้หลายบริษัทกำลัง "สนทนา" กับข้อมูลของตนอยู่ หลายทีมก็น่าจะกำลังทำงานคล้ายกัน
  • นี่เป็นหนึ่งในผู้ช่วยวิเคราะห์ AI ที่ฟีเจอร์ครบมาก ขอชื่นชมที่นำไปโอเพนซอร์ส มีตัวอย่างความสำเร็จอย่าง Metabase, Airbyte และ dbt
  • สงสัยว่าเครื่องมือนี้สร้างมาสำหรับใคร เว็บไซต์บอกว่าสามารถตอบคำถามเกี่ยวกับข้อมูลได้โดยไม่ต้องผ่านนักวิเคราะห์ แต่จริง ๆ แล้วนักวิเคราะห์คือผู้เชี่ยวชาญด้านโมเดลและข้อมูล คลังข้อมูลอาจมีปัญหาได้หลากหลาย ไม่แน่ใจว่า LLM จะจัดการเรื่องนี้ได้อย่างสม่ำเสมอหรือไม่
  • เหตุผลที่เครื่องมือนี้อาจทำงานได้ดีกว่า LLM ทั่วไป คือสามารถฝึกโดยใช้โครงสร้างฐานข้อมูลได้ แต่โครงสร้างฐานข้อมูลอาจเปลี่ยนบ่อยจนอาจต้องฝึกใหม่ สงสัยว่าหลังแก้ PR แล้วจะมีการฝึกใหม่อัตโนมัติหรือไม่
  • สงสัยว่าเครื่องมือนี้ทำการ join ที่ซับซ้อนได้หรือไม่ เพราะหา example บนเว็บไซต์ไม่เจอ
  • ไม่เข้าใจว่าทำไมการใช้ระบบ NLP+ORM ถึงดีกว่า แม้จะต้องใช้ไวยากรณ์ที่กำหนดตายตัว แต่ก็ได้ความแม่นยำ 100%
  • เมื่อไม่นานมานี้ได้ลองทำต้นแบบ NL-to-SQL ปัญหาคือจะป้องกันไม่ให้ความผิดพลาดหรือผู้ไม่หวังดีส่งผลกระทบต่อฐานข้อมูลได้อย่างไร ถ้าอยากคุยเรื่องแง่มุมอื่นที่เกี่ยวข้องก็ติดต่อมาได้