IBM และ NASA สร้างโมเดลภาษาสำหรับยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์

  • IBM และ NASA เริ่มความร่วมมือครั้งใหม่เพื่อสร้างโมเดลภาษาที่มีประสิทธิภาพจากวรรณกรรมทางวิทยาศาสตร์
  • โมเดลเหล่านี้ซึ่งอิงสถาปัตยกรรม Transformer สามารถนำไปใช้กับแอปพลิเคชันที่หลากหลาย เช่น การจัดหมวดหมู่ การดึงเอนทิตี การตอบคำถาม และการค้นคืนข้อมูล
  • โมเดลสามารถตอบสนองได้อย่างรวดเร็วพร้อมทำผลงานได้ดีในหลายสาขา และเปิดซอร์สบน Hugging Face เพื่อประโยชน์ของชุมชนวิทยาศาสตร์และวิชาการ

โมเดลภาษาที่อิง Transformer

  • โมเดลภาษาที่อิง Transformer เช่น BERT, RoBERTa รวมถึงตระกูลโมเดล Slate และ Granite ของ IBM มีความสำคัญอย่างมากต่องานทำความเข้าใจภาษาธรรมชาติ
  • โมเดลเหล่านี้อาศัยความเข้าใจเชิงสถิติเกี่ยวกับการทำงานของภาษา และเรียนรู้ผ่านงาน masked language modeling ที่ฟื้นคำที่ถูกปิดบังเพื่อสร้างประโยคขึ้นใหม่
  • tokenizer ซึ่งแยกคำออกเป็นหน่วยที่โมเดลสามารถใช้ได้ มีบทบาทสำคัญต่อการเรียนรู้คำศัพท์จำนวนมหาศาล

tokenizer และข้อมูลฝึกที่เฉพาะทางสำหรับสายวิทยาศาสตร์

  • IBM และ NASA ฝึกโมเดลด้วยข้อมูล 60,000 ล้านโทเค็นจากคอร์ปัสข้อมูลด้านดาราศาสตร์ฟิสิกส์ วิทยาศาสตร์ดาวเคราะห์ วิทยาศาสตร์โลก ฟิสิกส์สุริยะ รวมถึงข้อมูลวิทยาศาสตร์ชีวภาพและกายภาพ
  • tokenizer ที่พัฒนาขึ้นแบบเฉพาะทางนี้แตกต่างจาก tokenizer ทั่วไป โดยสามารถรู้จำคำศัพท์ทางวิทยาศาสตร์ เช่น "axes" และ "polycrystalline" ได้
  • ในโทเค็น 50,000 รายการที่โมเดลประมวลผล มากกว่าครึ่งเป็นโทเค็นเฉพาะเมื่อเทียบกับโมเดล RoBERTa ของ Hugging Face

การปรับปรุงประสิทธิภาพ

  • โมเดล IBM-NASA ที่เรียนรู้ด้วยคำศัพท์เฉพาะโดเมนทำได้ดีกว่าโมเดล RoBERTa แบบเปิด 5% บน BLURB benchmark ซึ่งเป็นเกณฑ์วัดยอดนิยมสำหรับประเมินงานชีวการแพทย์
  • ยังแสดงการปรับปรุงคะแนน F1 2.4% บน benchmark ภายในสำหรับการตอบคำถามทางวิทยาศาสตร์ และดีขึ้น 5.5% ในการทดสอบการรู้จำเอนทิตีด้านวิทยาศาสตร์โลกภายใน

โมเดล encoder และการค้นคืนข้อมูล

  • โมเดล encoder ที่ฝึกแล้วสามารถนำไป fine-tune ต่อสำหรับงานภาษาที่ไม่ใช่เชิงสร้างข้อความจำนวนมาก และสามารถสร้าง embedding ที่อุดมด้วยข้อมูลสำหรับการค้นหาเอกสารได้

ผลลัพธ์ความสำเร็จของโมเดล

  • โมเดลเหล่านี้ใช้คู่ข้อความประมาณ 268 ล้านคู่ และแสดงประสิทธิภาพโดดเด่นในการค้นหาข้อความตอนที่เกี่ยวข้องจากชุดทดสอบคำถามราว 400 ข้อที่ NASA คัดสรรไว้
  • การปรับปรุงอย่างมีนัยสำคัญของโมเดลเกิดขึ้นจากข้อมูลฝึกเฉพาะทาง, tokenizer ที่ปรับแต่งเอง และระเบียบวิธีการฝึก

เปิดซอร์สบน Hugging Face

  • ตามพันธสัญญาของ IBM และ NASA ต่อ AI ที่โปร่งใส โมเดลทั้งสองพร้อมใช้งานบน Hugging Face
  • โมเดล encoder สามารถนำไป fine-tune เพิ่มเติมสำหรับแอปพลิเคชันด้านอวกาศ ส่วนโมเดลค้นคืนสามารถใช้กับแอปพลิเคชันค้นคืนข้อมูลสำหรับ RAG ได้

ความเห็นของ GN⁺

  • ความร่วมมือนี้น่าจะช่วยยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์ได้อย่างมาก โดยเฉพาะการพัฒนาโมเดลภาษาที่เข้าใจและประมวลผลศัพท์เฉพาะในสายวิทยาศาสตร์ ซึ่งจะมีประโยชน์มากสำหรับนักวิจัย
  • การเปิดซอร์สโมเดลช่วยเปิดโอกาสให้นักวิจัยและนักพัฒนาหลากหลายกลุ่มสามารถใช้งานและปรับปรุงได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมการทำให้การวิจัย AI เข้าถึงได้กว้างขึ้น
  • อย่างไรก็ตาม การใช้ประโยชน์จากโมเดลขั้นสูงเหล่านี้อย่างมีประสิทธิภาพอาจต้องใช้ทรัพยากรคอมพิวต์ที่เพียงพอและความเชี่ยวชาญด้านการสร้างแบบจำลอง AI ซึ่งอาจเป็นอุปสรรคต่อการเข้าถึงสำหรับนักวิจัยหรือองค์กรบางแห่ง
  • สิ่งที่ควรพิจารณาเมื่อนำเทคโนโลยีนี้ไปใช้ ได้แก่ ความซับซ้อนของโมเดล ปริมาณข้อมูลที่ต้องใช้ในการฝึก และสมรรถนะของฮาร์ดแวร์ที่รองรับได้ ประโยชน์ที่ได้จากการเลือกใช้โมเดลนี้คือความเข้าใจวรรณกรรมทางวิทยาศาสตร์ที่ลึกขึ้นและการค้นคืนข้อมูลที่รวดเร็วขึ้น แต่ก็ต้องแลกกับต้นทุนและทรัพยากรที่ต้อง投入

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น