- จัดหมวดหมู่ชุดข้อมูล SafeDocs ทั้งหมดโดยใช้ LLMs, โมเดล embedding, XGBoost และ Linear Regressors
- ระหว่างกระบวนการจัดหมวดหมู่ได้ทำการทดลองที่หลากหลายและเปรียบเทียบประสิทธิภาพ พร้อมประเมินผลของหลายโมเดล
บทนำ
- Common Crawl(CC) เป็นเว็บอาร์ไคฟ์ที่เก็บถาวรอินเทอร์เน็ต โดยมุ่งเน้นการอนุรักษ์อินเทอร์เน็ตเพื่อให้นักวิทยาศาสตร์และนักวิจัยใช้งาน
- CC ไม่ได้เก็บไฟล์ PDF ทั้งหมดไว้ แต่เก็บเพียง 1MB แรกเท่านั้น ขณะที่ SafeDocs จะดึงไฟล์ PDF เหล่านี้กลับมาจาก CC อีกครั้งเพื่อเก็บรักษา PDF ต้นฉบับ
- ชุดข้อมูล SafeDocs ประกอบด้วยไฟล์ PDF ราว 8.4 ล้านไฟล์ และมีขนาด 8TB เมื่อแตกไฟล์
- จึงได้ลองจัดหมวดหมู่ PDF เหล่านี้
การสร้างชุดข้อมูล
- อธิบายกระบวนการจัดหมวดหมู่ไฟล์ PDF ด้วยป้ายกำกับที่หลากหลาย
- ได้แรงบันดาลใจจากบล็อกเทคนิคของ FineWeb ในการสร้างชุดย่อยของเนื้อหาด้านการศึกษา จากนั้นใช้ LLM สร้างป้ายกำกับ แล้วฝึกโมเดลขนาดเล็กที่สามารถเรียนรู้ป้ายกำกับเหล่านั้นได้
- สร้างป้ายกำกับ 100k รายการ และปรับสมดุลของป้ายกำกับที่ไม่เท่ากันจนได้ชุดใหม่ 59k รายการ
การฝึกโมเดล
ไอเดีย 1: โมเดล embedding
- ใช้โมเดล embedding เพื่อแปลงข้อมูลอย่างข้อความ รูปภาพ และวิดีโอ ให้เป็นเวกเตอร์ในปริภูมิ n มิติ
- เพิ่มประสิทธิภาพการจัดหมวดหมู่ผ่านการ finetuning
- จากการทดสอบหลายโมเดล พบว่าโมเดล
Alibaba-large-gte-1.5 ให้ผลดีที่สุด โดยทำ accuracy ได้ 59.14%
ไอเดีย 2: XGBoost
- XGBoost เป็นโมเดลที่มีประสิทธิภาพสูงมากกับข้อมูลแบบตาราง โดยแก้ปัญหาการจัดหมวดหมู่ผ่านการฝึกตัวจำแนกแบบไบนารีอย่างง่ายหลายตัว
- วิธีนี้ทำ accuracy ได้ 83.97%
ไอเดีย 3: TFIDF
- TFIDF เป็นวิธีคำนวณว่าคำบางคำมีความสำคัญในเอกสารมากเพียงใด และใช้เทคนิค NLP พื้นฐานในการฝึกโมเดล
- ทำ accuracy ได้ 67.52%
ไอเดีย 4: กลับไปใช้ดีปเลิร์นนิง
- ตั้งเป้าหมายใช้ตัวจำแนกแบบดีปเลิร์นนิงให้ได้ accuracy อย่างน้อย 70%
- หลังสร้างป้ายกำกับเพิ่มและทดลองด้วยโมเดล
gte-large ก็ทำ accuracy ได้ 69.22%
ผลการทดลอง
- สุดท้ายโมเดล XGBoost embedding ทำ accuracy สูงสุดที่ 85.26%
- เมื่อเปรียบเทียบประสิทธิภาพของหลายโมเดล พบว่า XGBoost ให้ผลดีที่สุด
การจัดหมวดหมู่คอร์ปัสทั้งหมด
- ใช้โมเดลที่สร้างขึ้นเพื่อจัดหมวดหมู่ข้อมูล PDF ทั้งหมด และทำภาพแสดงผลของผลลัพธ์
- ใช้ PCA และ UMAP เพื่อแสดงผลการจัดหมวดหมู่ในเชิงภาพ
บทสรุป
- แม้ประสิทธิภาพของโมเดลดีปเลิร์นนิงจะไม่ถึงระดับที่คาดหวัง แต่โดยรวมก็ถือว่าบรรลุผลที่มีนัยสำคัญ
- คาดว่าจะมีชุดข้อมูลขนาดใหญ่ที่ใช้ข้อมูลเชิงผสมอย่าง PDF ปรากฏเพิ่มขึ้นเรื่อย ๆ
- มีการเปิดเผยชุดข้อมูลและโค้ด เพื่อเปิดโอกาสให้ผู้อื่นสร้างผลลัพธ์ที่ดียิ่งขึ้น
ความเห็นของ GN⁺
- โปรเจกต์นี้เป็นตัวอย่างที่ดีของการทดลองหลายแนวทางกับปัญหาการจัดหมวดหมู่ในชุดข้อมูลขนาดใหญ่
- แสดงให้เห็นว่าเทคนิคแมชชีนเลิร์นนิงแบบดั้งเดิมอย่าง XGBoost ยังสามารถมีประสิทธิภาพสูงมากได้
- เป็นไปได้ว่าการจะยกระดับประสิทธิภาพของโมเดลดีปเลิร์นนิงให้สูงขึ้น จำเป็นต้องใช้ข้อมูลและทรัพยากร GPU มากกว่านี้
- ยังจำเป็นต้องมีการวิจัยและการทดลองเพิ่มเติมเกี่ยวกับวิธีจัดการข้อมูลเชิงผสมอย่าง PDF
- โปรเจกต์นี้อาจเป็นแหล่งอ้างอิงที่มีประโยชน์อย่างมากสำหรับผู้ที่สนใจงานวิจัยและการพัฒนา
ยังไม่มีความคิดเห็น