The Pile: ชุดข้อมูลข้อความที่หลากหลายขนาด 800GB สำหรับการทำ language modeling
- The Pile เป็นชุดข้อมูลโอเพนซอร์สสำหรับการทำ language modeling ที่หลากหลาย ขนาด 825 GiB สร้างขึ้นจากการรวมชุดข้อมูลขนาดเล็กคุณภาพสูง 22 ชุด
- ชุดข้อมูลนี้โฮสต์โดยองค์กรชื่อ Eye และถูกบีบอัดด้วย zstandard ในรูปแบบข้อมูล jsonlines
- หากมีโมเดลใดใช้หรือประเมินผลด้วย The Pile ผู้พัฒนาขอให้แจ้งให้ทราบ
เหตุผลที่ใช้ The Pile เป็นชุดข้อมูลฝึก
- งานวิจัยล่าสุดระบุว่า โดยเฉพาะสำหรับโมเดลขนาดใหญ่ ความหลากหลายของแหล่งข้อมูลช่วยเพิ่มความรู้ข้ามโดเมนโดยทั่วไปและความสามารถในการทำ generalization กับงานปลายทาง
- จากผลการประเมิน โมเดลที่ฝึกด้วย The Pile แสดงการปรับปรุงในระดับปานกลางบนเบนช์มาร์ก language modeling แบบดั้งเดิม และมีการปรับปรุงอย่างมากบน Pile BPB
เหตุผลที่ใช้ The Pile เป็นเบนช์มาร์ก
- การจะได้คะแนนที่ดีบน Pile BPB (bits per byte) โมเดลต้องสามารถเข้าใจโดเมนที่หลากหลาย เช่น หนังสือ รีโพซิทอรีบน GitHub หน้าเว็บ บันทึกแชต การแพทย์ ฟิสิกส์ คณิตศาสตร์ วิทยาการคอมพิวเตอร์ และบทความปรัชญา
- Pile BPB เป็นตัวชี้วัดที่ใช้วัดความรู้เกี่ยวกับโลกและความสามารถในการให้เหตุผลในโดเมนเหล่านี้ และเป็นเบนช์มาร์กที่แข็งแกร่งสำหรับความสามารถทั่วไปในการทำ text modeling ข้ามโดเมนของโมเดลภาษาขนาดใหญ่
การอ้างอิง
- หากใช้ The Pile หรือองค์ประกอบของมัน ขอให้ใช้อ้างอิงดังต่อไปนี้
@article{pile,
title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
ลีดเดอร์บอร์ด
- ลีดเดอร์บอร์ดแสดงความเป็นไปได้ของการซ้ำกับชุดทดสอบ และ Zero-shot หมายความว่าองค์ประกอบทั้งหมดของ Pile ไม่ได้รวมอยู่ในข้อมูลฝึก
- GPT-3 (Zero-Shot)* และ GPT-2 (Zero-Shot)* ถูกจัดอันดับโดย OpenAI เมื่อวันที่ 1 มกราคม 2021 โดยมีค่า Test BPB เท่ากับ 0.7177 และ 1.225 ตามลำดับ
- โค้ดสำหรับการประเมินจัดทำโดย EleutherAI 2021
ความเห็นของ GN⁺
- ชุดข้อมูล The Pile สะท้อนผลวิจัยล่าสุดที่ชี้ให้เห็นว่าความหลากหลายของข้อมูลมีความสำคัญต่อการฝึกและการทำ benchmarking ของโมเดลภาษา ซึ่งช่วยให้โมเดลสามารถเข้าใจและประมวลผลข้อความจากโลกจริงที่หลากหลายได้
- ขนาดและความหลากหลายของชุดข้อมูลช่วยให้โมเดลเรียนรู้ความรู้ได้กว้างขึ้น และมีความสามารถในการ generalization ที่ดีขึ้น ซึ่งถือเป็นความก้าวหน้าสำคัญโดยเฉพาะในด้านปัญญาประดิษฐ์
- อย่างไรก็ตาม การใช้ชุดข้อมูลขนาดใหญ่เช่นนี้อย่างมีประสิทธิภาพต้องใช้ทรัพยากรคอมพิวต์จำนวนมาก ซึ่งก่อให้เกิดประเด็นที่ต้องพิจารณาทั้งด้านต้นทุนและผลกระทบต่อสิ่งแวดล้อม
- โครงการอื่นที่ให้ความสามารถคล้ายกัน ได้แก่ โมเดลภาษาขนาดใหญ่อย่าง GPT-3 ของ OpenAI ซึ่งก็เรียนรู้จากแหล่งข้อมูลที่หลากหลายเช่นกัน
- ก่อนใช้งาน The Pile ควรทำความเข้าใจแหล่งที่มาและคุณภาพของข้อมูล รวมถึงเนื้อหาที่โมเดลจะเรียนรู้ให้เพียงพอ ประโยชน์ของการเลือกชุดข้อมูลนี้คือการช่วยให้โมเดลได้รับความรู้ที่หลากหลาย แต่ก็ควรคำนึงถึงต้นทุนในการประมวลผลและการจัดเก็บข้อมูลด้วย
ยังไม่มีความคิดเห็น