Stanza - ไลบรารี NLP แบบโอเพนซอร์สสำหรับ Python

xguru · 2020-03-25T16:05:16+09:00

ชุดเครื่องมือประมวลผลภาษาธรรมชาติแบบไม่ยึดติดกับภาษา รองรับ 66 ภาษา รวมถึงภาษาเกาหลี พัฒนาบนพื้นฐานของ PyTorch ไปป์ไลน์โครงข่ายประสาทเทียมแบบครบถ้วนสำหรับการวิเคราะห์ข้อความ การตัดคำ, การขยาย multi-word token (MWT), การทำ lemmatization การแท็กชนิดคำ (POS) และมอร์โฟโลยี, การวิเคราะห์ dependency, การรู้จำชื่อเฉพาะ พัฒนาและเผยแพร่โดย Stanford NLP Group → มีอินเทอร์เฟซที่สามารถเชื่อมต่อกับ CoreNLP Java ที่เคยเผยแพร่มาก่อนได้ด้วย

(stanfordnlp.github.io)

7 คะแนน โดย xguru 2020-03-25 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ชุดเครื่องมือประมวลผลภาษาธรรมชาติแบบไม่ยึดติดกับภาษา รองรับ 66 ภาษา รวมถึงภาษาเกาหลี
พัฒนาบนพื้นฐานของ PyTorch
ไปป์ไลน์โครงข่ายประสาทเทียมแบบครบถ้วนสำหรับการวิเคราะห์ข้อความ

การตัดคำ, การขยาย multi-word token (MWT), การทำ lemmatization
โฆษณา

การแท็กชนิดคำ (POS) และมอร์โฟโลยี, การวิเคราะห์ dependency, การรู้จำชื่อเฉพาะ
พัฒนาและเผยแพร่โดย Stanford NLP Group

→ มีอินเทอร์เฟซที่สามารถเชื่อมต่อกับ CoreNLP Java ที่เคยเผยแพร่มาก่อนได้ด้วย

2 ความคิดเห็น

sftblw 2020-03-25

ดูเหมือนว่า NER (การรู้จำเอนทิตีที่มีชื่อ) จะรองรับจำนวนภาษาค่อนข้างน้อย น่าเสียดายครับ

ไม่มีภาษาเกาหลี และระบุว่ารองรับ 8 ภาษา ได้แก่ อาหรับ จีน เยอรมัน อังกฤษ ฝรั่งเศส ดัตช์ และสเปน

xguru 2020-03-25

โมเดลภาษาเกาหลีมีสองตัว

ดูเหมือนว่าจะนำ Kaist และ GSD ซึ่งมีจำนวนโทเคนมากในบรรดาที่ลงทะเบียนไว้ใน Universal Dependencies (UD) https://universaldependencies.org/ มาใช้

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - ไลบรารี NLP แบบโอเพนซอร์สสำหรับ Python

บทความที่เกี่ยวข้อง

2 ความคิดเห็น