IBM และ NASA พัฒนาโมเดลภาษาสำหรับยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์

(research.ibm.com)

4 คะแนน โดย GN⁺ 2024-03-15 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

IBM และ NASA สร้างโมเดลภาษาสำหรับยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์

IBM และ NASA เริ่มความร่วมมือครั้งใหม่เพื่อสร้างโมเดลภาษาที่มีประสิทธิภาพจากวรรณกรรมทางวิทยาศาสตร์
โมเดลเหล่านี้ซึ่งอิงสถาปัตยกรรม Transformer สามารถนำไปใช้กับแอปพลิเคชันที่หลากหลาย เช่น การจัดหมวดหมู่ การดึงเอนทิตี การตอบคำถาม และการค้นคืนข้อมูล
โมเดลสามารถตอบสนองได้อย่างรวดเร็วพร้อมทำผลงานได้ดีในหลายสาขา และเปิดซอร์สบน Hugging Face เพื่อประโยชน์ของชุมชนวิทยาศาสตร์และวิชาการ

โมเดลภาษาที่อิง Transformer

โมเดลภาษาที่อิง Transformer เช่น BERT, RoBERTa รวมถึงตระกูลโมเดล Slate และ Granite ของ IBM มีความสำคัญอย่างมากต่องานทำความเข้าใจภาษาธรรมชาติ
โมเดลเหล่านี้อาศัยความเข้าใจเชิงสถิติเกี่ยวกับการทำงานของภาษา และเรียนรู้ผ่านงาน masked language modeling ที่ฟื้นคำที่ถูกปิดบังเพื่อสร้างประโยคขึ้นใหม่
tokenizer ซึ่งแยกคำออกเป็นหน่วยที่โมเดลสามารถใช้ได้ มีบทบาทสำคัญต่อการเรียนรู้คำศัพท์จำนวนมหาศาล

tokenizer และข้อมูลฝึกที่เฉพาะทางสำหรับสายวิทยาศาสตร์

IBM และ NASA ฝึกโมเดลด้วยข้อมูล 60,000 ล้านโทเค็นจากคอร์ปัสข้อมูลด้านดาราศาสตร์ฟิสิกส์ วิทยาศาสตร์ดาวเคราะห์ วิทยาศาสตร์โลก ฟิสิกส์สุริยะ รวมถึงข้อมูลวิทยาศาสตร์ชีวภาพและกายภาพ
tokenizer ที่พัฒนาขึ้นแบบเฉพาะทางนี้แตกต่างจาก tokenizer ทั่วไป โดยสามารถรู้จำคำศัพท์ทางวิทยาศาสตร์ เช่น "axes" และ "polycrystalline" ได้
ในโทเค็น 50,000 รายการที่โมเดลประมวลผล มากกว่าครึ่งเป็นโทเค็นเฉพาะเมื่อเทียบกับโมเดล RoBERTa ของ Hugging Face

การปรับปรุงประสิทธิภาพ

โมเดล IBM-NASA ที่เรียนรู้ด้วยคำศัพท์เฉพาะโดเมนทำได้ดีกว่าโมเดล RoBERTa แบบเปิด 5% บน BLURB benchmark ซึ่งเป็นเกณฑ์วัดยอดนิยมสำหรับประเมินงานชีวการแพทย์
ยังแสดงการปรับปรุงคะแนน F1 2.4% บน benchmark ภายในสำหรับการตอบคำถามทางวิทยาศาสตร์ และดีขึ้น 5.5% ในการทดสอบการรู้จำเอนทิตีด้านวิทยาศาสตร์โลกภายใน

โมเดล encoder และการค้นคืนข้อมูล

โมเดล encoder ที่ฝึกแล้วสามารถนำไป fine-tune ต่อสำหรับงานภาษาที่ไม่ใช่เชิงสร้างข้อความจำนวนมาก และสามารถสร้าง embedding ที่อุดมด้วยข้อมูลสำหรับการค้นหาเอกสารได้

ผลลัพธ์ความสำเร็จของโมเดล

โมเดลเหล่านี้ใช้คู่ข้อความประมาณ 268 ล้านคู่ และแสดงประสิทธิภาพโดดเด่นในการค้นหาข้อความตอนที่เกี่ยวข้องจากชุดทดสอบคำถามราว 400 ข้อที่ NASA คัดสรรไว้
การปรับปรุงอย่างมีนัยสำคัญของโมเดลเกิดขึ้นจากข้อมูลฝึกเฉพาะทาง, tokenizer ที่ปรับแต่งเอง และระเบียบวิธีการฝึก

เปิดซอร์สบน Hugging Face

ตามพันธสัญญาของ IBM และ NASA ต่อ AI ที่โปร่งใส โมเดลทั้งสองพร้อมใช้งานบน Hugging Face
โมเดล encoder สามารถนำไป fine-tune เพิ่มเติมสำหรับแอปพลิเคชันด้านอวกาศ ส่วนโมเดลค้นคืนสามารถใช้กับแอปพลิเคชันค้นคืนข้อมูลสำหรับ RAG ได้

ความเห็นของ GN⁺

ความร่วมมือนี้น่าจะช่วยยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์ได้อย่างมาก โดยเฉพาะการพัฒนาโมเดลภาษาที่เข้าใจและประมวลผลศัพท์เฉพาะในสายวิทยาศาสตร์ ซึ่งจะมีประโยชน์มากสำหรับนักวิจัย
การเปิดซอร์สโมเดลช่วยเปิดโอกาสให้นักวิจัยและนักพัฒนาหลากหลายกลุ่มสามารถใช้งานและปรับปรุงได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมการทำให้การวิจัย AI เข้าถึงได้กว้างขึ้น
อย่างไรก็ตาม การใช้ประโยชน์จากโมเดลขั้นสูงเหล่านี้อย่างมีประสิทธิภาพอาจต้องใช้ทรัพยากรคอมพิวต์ที่เพียงพอและความเชี่ยวชาญด้านการสร้างแบบจำลอง AI ซึ่งอาจเป็นอุปสรรคต่อการเข้าถึงสำหรับนักวิจัยหรือองค์กรบางแห่ง
สิ่งที่ควรพิจารณาเมื่อนำเทคโนโลยีนี้ไปใช้ ได้แก่ ความซับซ้อนของโมเดล ปริมาณข้อมูลที่ต้องใช้ในการฝึก และสมรรถนะของฮาร์ดแวร์ที่รองรับได้ ประโยชน์ที่ได้จากการเลือกใช้โมเดลนี้คือความเข้าใจวรรณกรรมทางวิทยาศาสตร์ที่ลึกขึ้นและการค้นคืนข้อมูลที่รวดเร็วขึ้น แต่ก็ต้องแลกกับต้นทุนและทรัพยากรที่ต้อง投入

IBM และ NASA พัฒนาโมเดลภาษาสำหรับยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์

IBM และ NASA สร้างโมเดลภาษาสำหรับยกระดับการเข้าถึงองค์ความรู้ทางวิทยาศาสตร์

โมเดลภาษาที่อิง Transformer

tokenizer และข้อมูลฝึกที่เฉพาะทางสำหรับสายวิทยาศาสตร์

การปรับปรุงประสิทธิภาพ

โมเดล encoder และการค้นคืนข้อมูล

ผลลัพธ์ความสำเร็จของโมเดล

เปิดซอร์สบน Hugging Face

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น