9 คะแนน โดย mrchypark 2022-04-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

elbird คือแพ็กเกจที่เป็นเป้าหมายสุดท้ายของ kiwigo ที่ผมเคยเผยแพร่ไว้ก่อนหน้านี้เป็นการส่วนตัว

ใน R ตอนนี้มีแพ็กเกจวิเคราะห์หน่วยคำอยู่หลายตัว โดยหลัก ๆ แบ่งเป็น KoNLP (อิงกับ java, ปัจจุบัน * ถูกถอดออกจาก cran แล้ว) และ RcppMecab (อิงกับ mecab, เร็ว, ไม่กู้คืนข้อความต้นฉบับ) รวมถึงยังมีแพ็กเกจอื่นอีกบางตัว

ในช่วงที่ KoNLP เป็นตัวเลือกหลัก ทั้งปัญหาความยากในการติดตั้ง jdk และสถานะที่ตอนนี้ไม่มีอยู่บน cran แล้ว ทำให้ผมพยายามผลักดันแพ็กเกจวิเคราะห์หน่วยคำตัวใหม่ที่ติดตั้งง่ายและมีการดูแลรักษาต่อเนื่องให้ขึ้นบน cran

ระหว่างนั้นผมได้รู้จัก kiwi ซึ่งกำลังพัฒนาอยู่ด้วย cpp ที่มีความสามารถด้านการพกพาสูง

หลังจากเวลาผ่านไปนาน ในที่สุดก็สามารถสร้างแพ็กเกจ R ที่ห่อความสามารถของ cpp และลงทะเบียนบน cran ได้สำเร็จ

ขณะนี้มีการลงทะเบียนเวอร์ชัน 0.1.1 แล้ว และมีแผนอัปเดตเป็น 0.1.2 ในเร็ว ๆ นี้
ฟังก์ชันที่มีอยู่ตอนนี้อยู่ในระดับที่ใช้งานพื้นฐานได้ และตั้งใจว่าจะทำฟังก์ชันทั้งหมดของ kiwi ให้ครบก่อน จากนั้นจึงค่อยทำงานปรับให้ตรงกับเวอร์ชันของ kiwi

ใน readme มีตัวอย่างโค้ดการใช้งานพื้นฐาน และได้คำนึงถึงฟังก์ชันสำหรับใช้งานร่วมกับ tidytext ซึ่งเป็นแพ็กเกจวิเคราะห์ข้อความที่มีชื่อเสียงใน ecosystem ของ R

ขอฝากติดตามกันด้วย

* cran: คลังแพ็กเกจอย่างเป็นทางการของ R ที่เป็นคลังแบบมีการจัดการ โดยผ่านการทดสอบอัตโนมัติและการตรวจสอบจากผู้ดูแล และใช้นโยบาย evergreen (หากทดสอบไม่ผ่านจะถูกยกเลิกการลงทะเบียน) จึงจำเป็นต้องมีการดูแลอย่างต่อเนื่อง

1 ความคิดเห็น

 
mrchypark 2022-04-03

ผมยังมีประสบการณ์ด้านการพัฒนาและคอมไพล์ C++ ไม่มากนัก จึงต้องการความช่วยเหลือในเรื่องนี้พอสมควร
หากมีท่านใดสามารถให้คำแนะนำได้ รบกวนดูที่แท็บ Issues ด้วยครับ