7 คะแนน โดย xguru 2020-03-25 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ชุดเครื่องมือประมวลผลภาษาธรรมชาติแบบไม่ยึดติดกับภาษา รองรับ 66 ภาษา รวมถึงภาษาเกาหลี

  • พัฒนาบนพื้นฐานของ PyTorch

  • ไปป์ไลน์โครงข่ายประสาทเทียมแบบครบถ้วนสำหรับการวิเคราะห์ข้อความ

    การตัดคำ, การขยาย multi-word token (MWT), การทำ lemmatization

    การแท็กชนิดคำ (POS) และมอร์โฟโลยี, การวิเคราะห์ dependency, การรู้จำชื่อเฉพาะ

  • พัฒนาและเผยแพร่โดย Stanford NLP Group

    → มีอินเทอร์เฟซที่สามารถเชื่อมต่อกับ CoreNLP Java ที่เคยเผยแพร่มาก่อนได้ด้วย

2 ความคิดเห็น

 
sftblw 2020-03-25

ดูเหมือนว่า NER (การรู้จำเอนทิตีที่มีชื่อ) จะรองรับจำนวนภาษาค่อนข้างน้อย น่าเสียดายครับ

ไม่มีภาษาเกาหลี และระบุว่ารองรับ 8 ภาษา ได้แก่ อาหรับ จีน เยอรมัน อังกฤษ ฝรั่งเศส ดัตช์ และสเปน

 
xguru 2020-03-25

โมเดลภาษาเกาหลีมีสองตัว

ดูเหมือนว่าจะนำ Kaist และ GSD ซึ่งมีจำนวนโทเคนมากในบรรดาที่ลงทะเบียนไว้ใน Universal Dependencies (UD) https://universaldependencies.org/ มาใช้

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html