Dataherald - เอนจิน natural language-to-SQL เปลี่ยนเป็นโอเพนซอร์สทั้งหมด

xguru · 2024-05-26T10:03:02+09:00

เอนจิน NL-to-SQL ที่สามารถคิวรีข้อมูลเชิงโครงสร้างด้วยภาษาธรรมชาติ เปลี่ยนโค้ดเบสทั้งหมดเป็นโอเพนซอร์ส: รวมทั้งคอร์เอนจิน ไคลเอนต์ (การยืนยันตัวตน/RBAC) เป็นต้น จากนี้ใครก็สามารถสร้างโซลูชัน text-to-SQL ภายในผลิตภัณฑ์ของตนเองได้ Core NL-to-SQL engine ของ Dataherald เป็นเอเจนต์ที่ขับเคลื่อนด้วย LLM ซึ่งใช้การให้เหตุผลแบบ CoT (Chain of Thought) และเครื่องมือหลากหลายเพื่อสร้าง SQL ที่มีความแม่นยำสูงจากพรอมป์ต์ของผู้ใช้ที่ได้รับ รวมทั้งหมด 4 บริการ เอนจิน: เอเจนต์ LLM, เวกเตอร์สโตร์ และตัวเชื่อมต่อฐานข้อมูล คอนโซลผู้ดูแลระบบ: ฟรอนต์เอนด์ NextJS สำหรับตั้งค่าเอนจินและจัดการ Observability แบ็กเอนด์สำหรับองค์กร: ครอบคอร์เอนจินเพื่อเพิ่มการยืนยันตัวตน/แคช/API เป็นต้น Slack bot: เพิ่ม Dataherald เข้าไปในเวิร์กโฟลว์ของ Slack

(github.com/Dataherald)

22 คะแนน โดย xguru 2024-05-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เอนจิน NL-to-SQL ที่สามารถคิวรีข้อมูลเชิงโครงสร้างด้วยภาษาธรรมชาติ
เปลี่ยนโค้ดเบสทั้งหมดเป็นโอเพนซอร์ส: รวมทั้งคอร์เอนจิน ไคลเอนต์ (การยืนยันตัวตน/RBAC) เป็นต้น
จากนี้ใครก็สามารถสร้างโซลูชัน text-to-SQL ภายในผลิตภัณฑ์ของตนเองได้
Core NL-to-SQL engine ของ Dataherald เป็นเอเจนต์ที่ขับเคลื่อนด้วย LLM ซึ่งใช้การให้เหตุผลแบบ CoT (Chain of Thought) และเครื่องมือหลากหลายเพื่อสร้าง SQL ที่มีความแม่นยำสูงจากพรอมป์ต์ของผู้ใช้ที่ได้รับ
รวมทั้งหมด 4 บริการ
- เอนจิน: เอเจนต์ LLM, เวกเตอร์สโตร์ และตัวเชื่อมต่อฐานข้อมูล
- คอนโซลผู้ดูแลระบบ: ฟรอนต์เอนด์ NextJS สำหรับตั้งค่าเอนจินและจัดการ Observability
- แบ็กเอนด์สำหรับองค์กร: ครอบคอร์เอนจินเพื่อเพิ่มการยืนยันตัวตน/แคช/API เป็นต้น
- Slack bot: เพิ่ม Dataherald เข้าไปในเวิร์กโฟลว์ของ Slack

1 ความคิดเห็น

xguru 2024-05-26

Dataherald - เอนจินแปลงภาษาธรรมชาติเป็น SQL
เคยมีการแชร์ไว้เมื่อ 8 เดือนก่อน ตอนนี้เปิดซอร์สทั้งระบบแล้ว

ความเห็นจาก Hacker News

เครื่องมือนี้ดูยอดเยี่ยมมาก เครื่องมืออื่น ๆ ทำงานได้ดีกับคิวรีง่าย ๆ แต่มีปัญหากับสคีมาที่ซับซ้อนและการ join อยากรู้ว่า DataHerald แก้ปัญหานี้ได้หรือไม่
ปีที่แล้วได้โอเพนซอร์สผลิตภัณฑ์ text-to-SQL ไป การสร้างธุรกิจแบบนี้ยากมาก การทำโอเพนซอร์สและเชื่อมกับเครื่องมือแจกจ่ายฟรีอย่าง Snowflake/PowerBI ดูสมเหตุสมผลกว่า
สงสัยว่าทำไมถึงตัดสินใจโอเพนซอร์สผลิตภัณฑ์ทั้งหมด กำลังเปลี่ยนไปใช้โมเดล open core หรือไม่ ถ้าแชร์เหตุผลได้จะขอบคุณมาก
ขอบคุณสำหรับการมีส่วนร่วมครั้งสำคัญ ในตอนนี้หลายบริษัทกำลัง "สนทนา" กับข้อมูลของตนอยู่ หลายทีมก็น่าจะกำลังทำงานคล้ายกัน
นี่เป็นหนึ่งในผู้ช่วยวิเคราะห์ AI ที่ฟีเจอร์ครบมาก ขอชื่นชมที่นำไปโอเพนซอร์ส มีตัวอย่างความสำเร็จอย่าง Metabase, Airbyte และ dbt
สงสัยว่าเครื่องมือนี้สร้างมาสำหรับใคร เว็บไซต์บอกว่าสามารถตอบคำถามเกี่ยวกับข้อมูลได้โดยไม่ต้องผ่านนักวิเคราะห์ แต่จริง ๆ แล้วนักวิเคราะห์คือผู้เชี่ยวชาญด้านโมเดลและข้อมูล คลังข้อมูลอาจมีปัญหาได้หลากหลาย ไม่แน่ใจว่า LLM จะจัดการเรื่องนี้ได้อย่างสม่ำเสมอหรือไม่
เหตุผลที่เครื่องมือนี้อาจทำงานได้ดีกว่า LLM ทั่วไป คือสามารถฝึกโดยใช้โครงสร้างฐานข้อมูลได้ แต่โครงสร้างฐานข้อมูลอาจเปลี่ยนบ่อยจนอาจต้องฝึกใหม่ สงสัยว่าหลังแก้ PR แล้วจะมีการฝึกใหม่อัตโนมัติหรือไม่
สงสัยว่าเครื่องมือนี้ทำการ join ที่ซับซ้อนได้หรือไม่ เพราะหา example บนเว็บไซต์ไม่เจอ
ไม่เข้าใจว่าทำไมการใช้ระบบ NLP+ORM ถึงดีกว่า แม้จะต้องใช้ไวยากรณ์ที่กำหนดตายตัว แต่ก็ได้ความแม่นยำ 100%
เมื่อไม่นานมานี้ได้ลองทำต้นแบบ NL-to-SQL ปัญหาคือจะป้องกันไม่ให้ความผิดพลาดหรือผู้ไม่หวังดีส่งผลกระทบต่อฐานข้อมูลได้อย่างไร ถ้าอยากคุยเรื่องแง่มุมอื่นที่เกี่ยวข้องก็ติดต่อมาได้

Dataherald - เอนจิน natural language-to-SQL เปลี่ยนเป็นโอเพนซอร์สทั้งหมด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News