12 คะแนน โดย xguru 2021-07-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • พัฒนาบนพื้นฐาน Rust + Tantivy (โอเพนซอร์สที่คล้ายกับ Apache Lucene ซึ่งพัฒนาด้วย Rust และรองรับตัวตัดคำภาษาเกาหลี)

  • ออกแบบมาให้เหมาะกับการทำดัชนีชุดข้อมูลขนาดใหญ่

→ แยก Compute และ Storage ออกจากกัน: ทำให้ค้นหาข้อมูลในสตอเรจอย่าง S3 ได้

→ จัดการ search cluster ได้ง่าย: เพิ่ม/ลบอินสแตนซ์ได้ภายในไม่กี่วินาที

  • ฟีเจอร์ที่รองรับ

→ CLI แบบเรียบง่ายสำหรับจัดการดัชนีและคลัสเตอร์

→ ดัชนีแบบ local/remote

→ อินสแตนซ์แบบ stateless

→ ใช้งานได้กับ object storage ใดก็ได้ที่รองรับ Byte Range query

→ การค้นหาแบบ Full Text (รวมถึง Phrase Query)

→ รองรับ time partitioning ในตัว

→ รองรับ Boolean query

→ รองรับชนิดข้อมูล text, i64, f64, date, bytes, composite types object, array

1 ความคิดเห็น

 
xguru 2021-07-21

วิธีที่พวกเขาทำให้มีประสิทธิภาพด้านต้นทุนนั้นอธิบายไว้ในบทความแนะนำบนบล็อกนี้

ตอนที่เคยแนะนำ " Bayard - เซิร์ฟเวอร์ค้นหาและทำดัชนีแบบฟูลเท็กซ์ที่พัฒนาด้วย Rust https://th.news.hada.io/topic?id=841 " ตอนนั้น Tantivy ยังไม่มี Korean tokenizer แต่ตอนนี้เพิ่มเข้ามาแล้วนะครับ

https://github.com/lindera-morphology/lindera-ko-dic-builder

ตัวตัดคำภาษาเกาหลี