• จัดหมวดหมู่ชุดข้อมูล SafeDocs ทั้งหมดโดยใช้ LLMs, โมเดล embedding, XGBoost และ Linear Regressors
  • ระหว่างกระบวนการจัดหมวดหมู่ได้ทำการทดลองที่หลากหลายและเปรียบเทียบประสิทธิภาพ พร้อมประเมินผลของหลายโมเดล

บทนำ

  • Common Crawl(CC) เป็นเว็บอาร์ไคฟ์ที่เก็บถาวรอินเทอร์เน็ต โดยมุ่งเน้นการอนุรักษ์อินเทอร์เน็ตเพื่อให้นักวิทยาศาสตร์และนักวิจัยใช้งาน
  • CC ไม่ได้เก็บไฟล์ PDF ทั้งหมดไว้ แต่เก็บเพียง 1MB แรกเท่านั้น ขณะที่ SafeDocs จะดึงไฟล์ PDF เหล่านี้กลับมาจาก CC อีกครั้งเพื่อเก็บรักษา PDF ต้นฉบับ
  • ชุดข้อมูล SafeDocs ประกอบด้วยไฟล์ PDF ราว 8.4 ล้านไฟล์ และมีขนาด 8TB เมื่อแตกไฟล์
  • จึงได้ลองจัดหมวดหมู่ PDF เหล่านี้

การสร้างชุดข้อมูล

  • อธิบายกระบวนการจัดหมวดหมู่ไฟล์ PDF ด้วยป้ายกำกับที่หลากหลาย
  • ได้แรงบันดาลใจจากบล็อกเทคนิคของ FineWeb ในการสร้างชุดย่อยของเนื้อหาด้านการศึกษา จากนั้นใช้ LLM สร้างป้ายกำกับ แล้วฝึกโมเดลขนาดเล็กที่สามารถเรียนรู้ป้ายกำกับเหล่านั้นได้
  • สร้างป้ายกำกับ 100k รายการ และปรับสมดุลของป้ายกำกับที่ไม่เท่ากันจนได้ชุดใหม่ 59k รายการ

การฝึกโมเดล

ไอเดีย 1: โมเดล embedding

  • ใช้โมเดล embedding เพื่อแปลงข้อมูลอย่างข้อความ รูปภาพ และวิดีโอ ให้เป็นเวกเตอร์ในปริภูมิ n มิติ
  • เพิ่มประสิทธิภาพการจัดหมวดหมู่ผ่านการ finetuning
  • จากการทดสอบหลายโมเดล พบว่าโมเดล Alibaba-large-gte-1.5 ให้ผลดีที่สุด โดยทำ accuracy ได้ 59.14%

ไอเดีย 2: XGBoost

  • XGBoost เป็นโมเดลที่มีประสิทธิภาพสูงมากกับข้อมูลแบบตาราง โดยแก้ปัญหาการจัดหมวดหมู่ผ่านการฝึกตัวจำแนกแบบไบนารีอย่างง่ายหลายตัว
  • วิธีนี้ทำ accuracy ได้ 83.97%

ไอเดีย 3: TFIDF

  • TFIDF เป็นวิธีคำนวณว่าคำบางคำมีความสำคัญในเอกสารมากเพียงใด และใช้เทคนิค NLP พื้นฐานในการฝึกโมเดล
  • ทำ accuracy ได้ 67.52%

ไอเดีย 4: กลับไปใช้ดีปเลิร์นนิง

  • ตั้งเป้าหมายใช้ตัวจำแนกแบบดีปเลิร์นนิงให้ได้ accuracy อย่างน้อย 70%
  • หลังสร้างป้ายกำกับเพิ่มและทดลองด้วยโมเดล gte-large ก็ทำ accuracy ได้ 69.22%

ผลการทดลอง

  • สุดท้ายโมเดล XGBoost embedding ทำ accuracy สูงสุดที่ 85.26%
  • เมื่อเปรียบเทียบประสิทธิภาพของหลายโมเดล พบว่า XGBoost ให้ผลดีที่สุด

การจัดหมวดหมู่คอร์ปัสทั้งหมด

  • ใช้โมเดลที่สร้างขึ้นเพื่อจัดหมวดหมู่ข้อมูล PDF ทั้งหมด และทำภาพแสดงผลของผลลัพธ์
  • ใช้ PCA และ UMAP เพื่อแสดงผลการจัดหมวดหมู่ในเชิงภาพ

บทสรุป

  • แม้ประสิทธิภาพของโมเดลดีปเลิร์นนิงจะไม่ถึงระดับที่คาดหวัง แต่โดยรวมก็ถือว่าบรรลุผลที่มีนัยสำคัญ
  • คาดว่าจะมีชุดข้อมูลขนาดใหญ่ที่ใช้ข้อมูลเชิงผสมอย่าง PDF ปรากฏเพิ่มขึ้นเรื่อย ๆ
  • มีการเปิดเผยชุดข้อมูลและโค้ด เพื่อเปิดโอกาสให้ผู้อื่นสร้างผลลัพธ์ที่ดียิ่งขึ้น

ความเห็นของ GN⁺

  • โปรเจกต์นี้เป็นตัวอย่างที่ดีของการทดลองหลายแนวทางกับปัญหาการจัดหมวดหมู่ในชุดข้อมูลขนาดใหญ่
  • แสดงให้เห็นว่าเทคนิคแมชชีนเลิร์นนิงแบบดั้งเดิมอย่าง XGBoost ยังสามารถมีประสิทธิภาพสูงมากได้
  • เป็นไปได้ว่าการจะยกระดับประสิทธิภาพของโมเดลดีปเลิร์นนิงให้สูงขึ้น จำเป็นต้องใช้ข้อมูลและทรัพยากร GPU มากกว่านี้
  • ยังจำเป็นต้องมีการวิจัยและการทดลองเพิ่มเติมเกี่ยวกับวิธีจัดการข้อมูลเชิงผสมอย่าง PDF
  • โปรเจกต์นี้อาจเป็นแหล่งอ้างอิงที่มีประโยชน์อย่างมากสำหรับผู้ที่สนใจงานวิจัยและการพัฒนา

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น