Stanza - ไลบรารี NLP แบบโอเพนซอร์สสำหรับ Python
(stanfordnlp.github.io)-
ชุดเครื่องมือประมวลผลภาษาธรรมชาติแบบไม่ยึดติดกับภาษา รองรับ 66 ภาษา รวมถึงภาษาเกาหลี
-
พัฒนาบนพื้นฐานของ PyTorch
-
ไปป์ไลน์โครงข่ายประสาทเทียมแบบครบถ้วนสำหรับการวิเคราะห์ข้อความ
การตัดคำ, การขยาย multi-word token (MWT), การทำ lemmatization
การแท็กชนิดคำ (POS) และมอร์โฟโลยี, การวิเคราะห์ dependency, การรู้จำชื่อเฉพาะ
-
พัฒนาและเผยแพร่โดย Stanford NLP Group
→ มีอินเทอร์เฟซที่สามารถเชื่อมต่อกับ CoreNLP Java ที่เคยเผยแพร่มาก่อนได้ด้วย
2 ความคิดเห็น
ดูเหมือนว่า NER (การรู้จำเอนทิตีที่มีชื่อ) จะรองรับจำนวนภาษาค่อนข้างน้อย น่าเสียดายครับ
ไม่มีภาษาเกาหลี และระบุว่ารองรับ 8 ภาษา ได้แก่ อาหรับ จีน เยอรมัน อังกฤษ ฝรั่งเศส ดัตช์ และสเปน
โมเดลภาษาเกาหลีมีสองตัว
ดูเหมือนว่าจะนำ Kaist และ GSD ซึ่งมีจำนวนโทเคนมากในบรรดาที่ลงทะเบียนไว้ใน Universal Dependencies (UD) https://universaldependencies.org/ มาใช้
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html