The Pile ชุดข้อมูลโอเพนซอร์สสำหรับการทำโมเดลภาษา ขนาด 825GiB (2020)

(pile.eleuther.ai)

1 คะแนน โดย GN⁺ 2024-03-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อความหลากหลายของแหล่งที่มาข้อมูลมีความสำคัญมากขึ้นในการฝึกโมเดลภาษาขนาดใหญ่ The Pile จึงถูกเผยแพร่เป็นชุดฝึกแบบเปิดขนาด 825GiB ที่รวมชุดข้อมูลคุณภาพสูง 22 ชุดเข้าด้วยกัน
แนวคิดหลักในการออกแบบคือการผสานแหล่งข้อมูลหลายประเภท เช่น หนังสือ โค้ด หน้าเว็บ บันทึกแชต และบทความวิชาการ เพื่อเพิ่ม การทำให้เป็นทั่วไปข้ามโดเมน
โมเดลที่ฝึกด้วย The Pile แสดงให้เห็นการปรับปรุงระดับปานกลางบน benchmark การทำโมเดลภาษาแบบเดิม และมีการปรับปรุงอย่างมีนัยสำคัญบน Pile BPB
Pile BPB ใช้ตรวจสอบความสามารถในการทำโมเดลข้อความที่กว้างกว่าประสิทธิภาพบนคลังข้อความเดี่ยว เพราะต้องจัดการข้อความจากหลายโดเมนร่วมกัน
leaderboard ระบุความเป็นไปได้ของการซ้ำซ้อนกับชุดทดสอบด้วย * และ Zero-shot หมายความว่าองค์ประกอบทั้งหมดของ The Pile ไม่ได้รวมอยู่ในข้อมูลฝึก

องค์ประกอบและการเผยแพร่ของ The Pile

The Pile เป็นชุดข้อมูลโอเพนซอร์สสำหรับการทำโมเดลภาษาที่หลากหลาย ขนาด 825GiB
สร้างขึ้นโดยรวมชุดข้อมูลย่อยคุณภาพสูง 22 ชุดเข้าด้วยกัน
ไฟล์ดาวน์โหลดโฮสต์อยู่ที่ the Eye
หากมีโมเดลที่ใช้ The Pile หรือประเมินผลด้วย The Pile สามารถ แจ้ง EleutherAI ได้
หากใช้ The Pile หรือองค์ประกอบของชุดข้อมูลนี้ ต้องอ้างอิงบทความต่อไปนี้
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

บทบาทในฐานะชุดฝึกและ benchmark

โดยเฉพาะใน โมเดลขนาดใหญ่ ความหลากหลายของแหล่งข้อมูลช่วยปรับปรุงความรู้ข้ามโดเมนทั่วไปและความสามารถในการทำให้เป็นทั่วไปกับงานปลายทาง
จากผลการประเมิน โมเดลที่ฝึกด้วย The Pile แสดงการปรับปรุงระดับปานกลางบน benchmark การทำโมเดลภาษาแบบดั้งเดิม และบันทึกการปรับปรุงอย่างมีนัยสำคัญบน Pile BPB
Pile BPB (bits per byte) เป็น benchmark ที่ต้องอาศัยความเข้าใจข้อความจากหลายโดเมน
- โดเมนเป้าหมายประกอบด้วยหนังสือ, repository บน GitHub, หน้าเว็บ และบันทึกแชต
- รวมถึงบทความด้านการแพทย์ ฟิสิกส์ คณิตศาสตร์ วิทยาการคอมพิวเตอร์ และปรัชญา
benchmark นี้ต้องการทั้งความรู้โลกตามแต่ละโดเมนและความสามารถในการให้เหตุผล จึงถูกใช้เพื่อประเมินความสามารถในการทำโมเดลข้อความข้ามโดเมนของโมเดลภาษาขนาดใหญ่
ตัวอย่าง leaderboard รวมรายการ ณ วันที่ 1 มกราคม 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * แสดงถึงความเป็นไปได้ของการซ้ำซ้อนกับชุดทดสอบ
- Zero-shot หมายความว่าองค์ประกอบทั้งหมดของ The Pile ไม่ได้รวมอยู่ในข้อมูลฝึก

1 ความคิดเห็น

GN⁺ 2024-03-09

ความคิดเห็นจาก Hacker News

ตอนที่มีการกังวลในปี 2020 ว่า Books3 ถูกรวมอยู่ใน The Pile นั้น Stella Biderman ซึ่งตอนนั้นเป็นหัวหน้าของ Eleuther ตอบไว้แบบนี้:
ในข้อมูลมี 1) วัตถุดิบต้นทางที่มีอยู่บนโลกและถูกอัปโหลดออนไลน์ 2) ข้อมูลรายชุดที่ผ่านการคัดและแปรรูปจากวัตถุดิบเหล่านั้นเพื่อใช้ทำ language modeling และ 3) The Pile ซึ่งเป็นการนำข้อมูลรายชุดมารวมกันขนาดใหญ่พร้อมน้ำหนักถ่วงด้วย
Eleuther เป็นผู้สร้างและเผยแพร่ข้อ 2 และ 3 โดยข้อ 2 เปิดไว้ให้คนอื่นนำไปถ่วงน้ำหนักใหม่หรือจัดองค์ประกอบใหม่ได้ และอธิบายว่าคนส่วนใหญ่คงจะดาวน์โหลดข้อ 3 ไปใช้ตรง ๆ
อีกทั้งยังบอกว่าข้อ 2 และ 3 แม้จะมีข้อมูลที่มีลิขสิทธิ์รวมอยู่ด้วย ก็ถือเป็น fair use ตามมาตรฐานสหรัฐฯ จึงไม่ใช่การละเมิดลิขสิทธิ์ และแม้การดาวน์โหลด Maroon 5 จากเว็บไซต์เพื่อนำมาสร้างชุดข้อมูลแบบข้อ 2 อาจเป็นการละเมิดในบางกรณี แต่การใช้งานของพวกเขาไม่ใช่การละเมิด
- การบอกว่า “2 และ 3 เป็น fair use จึงไม่ละเมิดลิขสิทธิ์” นั้น ไม่มีใครรู้ได้จนกว่าจะไปสู้กันในศาล
  fair use ไม่ได้เกิดขึ้นเพราะประกาศเอาเอง คล้ายกับ Michael Scott จาก The Office ที่ตะโกนว่า “ฉันขอประกาศล้มละลาย!”
  ศาลจะพิจารณาจาก 1) วัตถุประสงค์และลักษณะของการใช้ 2) ลักษณะของงานที่มีลิขสิทธิ์ 3) ปริมาณและความสำคัญของส่วนที่นำไปใช้ และ 4) ผลกระทบต่อตลาดหรือมูลค่าในอนาคต ซึ่งนี่ก็เป็นเหตุผลเดียวกับที่ OpenAI กำลังสู้คดีกับ New York Times
  สรุปภาพรวมได้ดีพอสมควรที่ https://copyright.columbia.edu/basics/fair-use.html
- ถ้าในชุดข้อมูลหมายเลข 2 มี งานฉบับเต็ม ที่เจ้าของลิขสิทธิ์ไม่อนุญาตให้เผยแพร่ เช่น หนังสือทั้งเล่มอยู่ด้วย ก็ไม่เข้าใจว่าคำกล่าวนั้นจะเป็นจริงได้อย่างไร
  เว้นแต่ว่า “การประมวลผลเพื่อทำ language modeling” จะหมายถึงกระบวนการที่ย้อนกลับไม่ได้โดยสิ้นเชิง
- ไม่รู้คำตอบสุดท้ายของประเด็นลิขสิทธิ์คืออะไร แต่ในปี 2024 ก็อยากให้มีท่าทีต่อ แรงงานมนุษย์ ที่เข้าไปอยู่ในโมเดลดีกว่าการใช้สำนวนแบบถูกกระทำอย่าง “ข้อมูลมีอยู่บนโลก” หรือ “ข้อมูลถูกรวบรวมเป็นชุดข้อมูล”
- มีการเผยแพร่งานโดยไม่ได้รับอนุญาตจากผู้เขียน ใช้มันในทางที่แข่งขันกับผู้เขียน AI จำนวนมากทำเงินจากสิ่งนี้ และบางส่วนก็สร้างข้อความต้นฉบับกลับมาแบบตรงตัว
  ชุดข้อมูลแบบนี้ดูเหมือนจะสอบตกใน การพิจารณา 4 ปัจจัย ของกฎหมายลิขสิทธิ์เกือบทั้งหมด และแม้แต่คนทั่วไปที่ไม่ใช่ผู้เชี่ยวชาญซึ่งได้รับการอธิบายเรื่อง LLM ก็ยังเข้าใจว่าเป็นการที่บริษัท AI ขโมยผลงานของคนอื่น
  มีบทความที่สรุปประเด็นกฎหมายที่เกี่ยวข้อง ชุดข้อมูลแต่ละตัวรวมถึง The Pile ทางเลือกที่ถูกกฎหมาย และข้อเสนอแก้กฎหมายลิขสิทธิ์แบบสมดุลไว้ที่นี่: http://gethisword.com/tech/exploringai/
  ตอนนี้อย่างน้อยก็ควรมี 3 กฎนี้ใช้ได้ทันทีในสักประเทศหนึ่ง: งานที่เข้าถึงได้โดยชอบด้วยกฎหมายควรนำไปใช้ฝึก AI ได้, การจำกัดการฝึก การเก็บเงินเพิ่ม หรือการห้ามดาวน์โหลดควรผิดกฎหมาย, และควรสามารถคัดลอกหรือแปลงงานที่เข้าถึงได้เพื่อฝึกใช้ส่วนตัวได้; อีกทั้งงานบนเว็บที่เผยแพร่ฟรีก็ควรสามารถถูกคัดลอก แชร์ ประมวลผล และรวมชุดเพื่อการฝึก AI ได้โดยไม่ขึ้นกับเงื่อนไขใด ๆ
  ลิขสิทธิ์ของผลลัพธ์จาก AI ควรยึดตามหลักกฎหมายเดิมเกี่ยวกับ AI และงานผสม และถ้าผลลัพธ์นั้นมีลิขสิทธิ์ได้ ผู้ใช้ก็ควรมีสถานะเดียวกับการพึ่งพางานเดิมแล้วเผยแพร่ด้วยตนเอง ทั้งนี้ชุดข้อมูลฝึกก็ควรถูกเปิดเผยด้วยเพื่อให้ตรวจสอบเรื่องนี้ได้
- บอกว่าการ scrape Libgen แล้วดาวน์โหลดคอนเทนต์มีลิขสิทธิ์มาทำการเผยแพร่ซ้ำไม่ผิดกฎหมายงั้นหรือ?
  ฟังดูน่าสงสัยมาก การ seed หนังที่โหลดมาจากที่ไหนสักแห่งบนอินเทอร์เน็ตผ่าน torrent ไม่ใช่ “fair use” และ The Pile ไม่ได้มีแค่โค้ดสำหรับแปลงข้อมูล แต่มี ตัวข้อมูลที่ถูกเผยแพร่ซ้ำจริง ๆ อยู่ด้วย
  ถ้าตรรกะนี้ใช้ได้ ก็แปลว่าสามารถรัน Libgen mirror ได้อย่างถูกกฎหมายด้วย
จะดูได้จากที่ไหนว่าเนื้อหาที่แจกจ่ายในชุดข้อมูลนี้มี การคงข้อความใบอนุญาต และการให้เครดิต/ระบุผู้สร้างครบถ้วนหรือไม่?
รวมมาทั้งหมดไหม? ตรวจสอบได้ไหมว่าทุกรายการที่รวมอยู่ทำตามข้อกำหนดครบหรือเปล่า?
ฉันเปิดรับต่อข้อถกเถียงที่ว่าตัว generator ที่สร้างจากโมเดลซึ่งกินข้อมูลมีลิขสิทธิ์เข้าไป อาจหลีกเลี่ยงภาระลิขสิทธิ์ในผลลัพธ์ได้ แต่ตัวชุดข้อมูลเองก็น่าจะยังถูกผูกกับลิขสิทธิ์ของคอนเทนต์ข้างในอยู่ไม่ใช่หรือ?
- ในชุดข้อมูลนี้มี Books3 ซึ่งเกือบเท่ากับทั้งดัมป์ของ Bibliotik ทร็กเกอร์ torrent สำหรับอีบุ๊กเถื่อนโดยเฉพาะ
  แค่เอารายชื่อผู้เขียนดัง ๆ หรือสำนักพิมพ์ดัง ๆ มาแปะบนกำแพงแล้วปาเป้า โอกาสสูงว่าชื่อที่โดนจะมีสิทธิ์ในข้อมูลบางส่วนของชุดนี้
  ดูเหมือนพอแปะคำว่า “เพื่อการวิจัย AI” แล้วจะทำอะไรก็ได้ ราวกับว่าถ้ามีโดเมน .ai ก็อัปโหลด Blu-ray rip ได้ไม่มีปัญหา
- มันคือการขโมย เพราะพวกเขาคิดว่าการสร้างของเล่นของตัวเองสำคัญกว่าสิทธิที่คนอื่นมีเหนือผลลัพธ์จากแรงงานของตน
เหลือเชื่อจริง ๆ ที่ผู้คนแชร์และรีโพสต์งานที่มีลิขสิทธิ์บนอินเทอร์เน็ต ช็อกมาก
ว่าแต่ถ้ามี RedPajama 30T กับ The Pile ก็ “all you need” แล้วหรือ? ;)
- สำหรับ pretraining ภายหลังเพื่อรองรับงาน natural language processing เฉพาะทางบางอย่างก็น่าจะเพียงพอ
  ถ้าจะให้ได้ผลลัพธ์ที่น่าสนใจ ต้องสร้าง instruction dataset จากจุดนี้ขึ้นมา และมันต้องครอบคลุมงานที่หลากหลาย
  ไม่ใช่ตัวข้อความที่เขียนสมบูรณ์เองที่ทำให้ LLM แสดงความรู้และการให้เหตุผลออกมา แต่เป็น instruction dataset ขนาดใหญ่และหลากหลายต่างหากที่ทำแบบนั้นได้
- มีการถกเถียงเรื่องลิขสิทธิ์มากเกินไป จึงมีโครงการที่กำลังพยายามสร้าง The Pile v2 ซึ่งจะรวมเฉพาะข้อมูลที่ใช้ไลเซนส์แบบอนุญาตกว้างเท่านั้น
Books3 ที่อยู่ในบทความ The Pile คือชุดข้อมูลที่ผู้เขียนกำลังโดนฟ้องกันอยู่นั่นใช่ไหม? ตัวที่มีเนื้อหายอดนิยมและมีลิขสิทธิ์อยู่เป็นจำนวนมากนั่นน่ะ?
- ใช่ ตามบทความที่ลิงก์ไว้ Books3 เป็นชุดข้อมูลหนังสือที่ได้มาจากสำเนาคอนเทนต์ของ private tracker Bibliotik ซึ่ง Shawn Presser เผยแพร่
  บทความระบุว่า Bibliotik มีทั้งนิยายและสารคดีปะปนกัน มีขนาดใหญ่กว่า BookCorpus2 ซึ่งเป็นชุดข้อมูลหนังสือที่ใหญ่รองลงมาอยู่เกือบหนึ่งลำดับขนาด และถูกรวมไว้เพราะหนังสือมีคุณค่าสำหรับงานวิจัยด้านการทำโมเดลบริบทระยะยาวและการเล่าเรื่องอย่างสม่ำเสมอ
- ถ้าจะใช้เป็นจุดเริ่มต้นในการดูคดีความทางกฎหมายต่าง ๆ รายการนี้ก็ดูใช้ได้อยู่ ไม่แน่ใจว่าอัปเดตบ่อยแค่ไหนไปถึงคดี Silverman และคดีอื่น ๆ
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- น่าจะใช่ ดู https://www.wired.com/story/battle-over-books3/
- พวกเขาอ้างว่าข้อมูลของตัวเองไม่ได้มาจากแหล่งที่มีลิขสิทธิ์ หรือไม่อยู่ภายใต้ลิขสิทธิ์อย่างนั้นหรือ?
แม้ Books3 จะได้รับความสนใจมาก แต่ส่วนประกอบใหญ่อีกตัวหนึ่งของชุดข้อมูลนี้คือ OpenWebText2 ที่ชื่อชวนให้เข้าใจผิด
มันคือการ scrape เว็บไซต์บุคคลที่สามตลอด 15 ปี ซึ่งถูกลิงก์จากโพสต์ Reddit ที่ได้คำแนะนำจำนวนมาก และในนั้นก็มีงานเขียนของฉันอยู่บางส่วน
- พักเรื่องความเกี่ยวข้องและผลกระทบไว้ก่อน การอ้างสิทธิ์ทางศีลธรรมเหนือคอนเทนต์ที่คุณเอาไปเผยแพร่บนอินเทอร์เน็ตสาธารณะในเว็บไซต์ที่ไม่ได้จำกัดการเข้าถึงนั้น เป็นสิ่งที่ทำความเข้าใจได้ยาก
  มันก็เหมือนการออกอากาศทางวิทยุหรือเอาสิ่งพิมพ์ไปส่งไว้หน้าบ้านคนสุ่มนับล้าน
  มีวิธีสร้างกรรมสิทธิ์ในทรัพย์สินทางปัญญาและคุ้มครองข้อมูลด้วยลิขสิทธิ์อยู่ แต่ Tumblr fanfic, คอมเมนต์ YouTube และการสนทนาใน HN ไม่ใช่ช่องทางอย่างเป็นทางการในการรับรองลิขสิทธิ์
  สิ่งที่โพสต์บนเว็บไซต์ซึ่ง scrape ได้อย่างถูกกฎหมายอาจเข้าข่าย fair use
  ข้อมูลที่เก็บมาจากเว็บไซต์สาธารณะนั้น โดยส่วนตัวแล้วคุณจะเอาไปทำอะไรก็ได้ และยังสามารถสร้าง HN LLM ที่ยอดเยี่ยมจากชุดข้อมูลที่ scrape มาเพื่อใช้ส่วนตัวได้ด้วย
  เมื่อคำนึงถึงคำพิพากษาในช่วงหลัง แม้แต่โมเดลที่ฝึกจากงานเขียนทั้งโลกก็อาจให้บริการผ่าน API และใช้งานเชิงพาณิชย์ได้ ตราบใดที่มีความพยายามโดยสุจริตในการเคารพลิขสิทธิ์และป้องกันการสร้างซ้ำต้นฉบับ
  แต่ถ้าคุณขายหรือแจกจ่ายตัวโมเดลเอง ก็จะเข้าสู่ขอบเขตทางกฎหมายอีกแบบหนึ่ง
  เดิมทีอินเทอร์เน็ตก็ถูกออกแบบมาให้ทำงานแบบนั้น และถ้าคุณไม่อยากให้เข้าถึงได้ ก็ควรใช้การยืนยันตัวตน การตั้งค่าเครือข่าย หรือระบบควบคุมการเข้าถึง
  ถ้าไม่มีสิ่งเหล่านั้นแล้วนำไปโพสต์บนเว็บสาธารณะ ก็ควรมองว่าคุณได้สละสิทธิ์ส่วนใหญ่ในการอ้างความคุ้มครองแบบ fair use ในวงกว้างไปแล้ว และทันทีที่คุณมีเซิร์ฟเวอร์กับโดเมน ก็เท่ากับเชื้อเชิญคนทั้งโลกโดยนัยให้เข้ามาดาวน์โหลด
  สิ่งที่รู้สึกว่าถูกนำไปใช้ผิดใน OpenWebText2 ก็โดยพื้นฐานแล้วเกิดจากการโพสต์ลงบนเว็บไซต์สาธารณะและสูญเสียอำนาจควบคุมการใช้งานภายหลังไปเอง และมันก็ถูก scrape อย่างเป็นธรรม
- ถ้าคุณบอกชื่อโดเมนมา ฉันจะลองตรวจดูใน LLM หลัก ๆ ว่ามีการลอกหรือไม่
  คิดว่าไม่น่ามีโมเดลไหนสร้างข้อความจากงานเขียนของคุณได้แม้แต่ประโยคเดียว
ตอนนี้ยังหาดาวน์โหลดได้จากที่ไหนอยู่ไหม? ฉันพยายามโหลดเมื่อไม่กี่เดือนก่อน แต่ลิงก์ดาวน์โหลดเป็น 404 แล้ว และดูเหมือนตอนนี้ก็ยังเป็นแบบนั้น
- การแจกจ่ายส่วนใหญ่ทำผ่าน ลิงก์ทอร์เรนต์·แม่เหล็ก และการแลกฮาร์ดไดรฟ์กันโดยตรง
  ถ้าไม่รู้จักคนที่มีอยู่แล้ว ก็ลองหาจาก public tracker ได้
  แต่ควรรู้ไว้ว่ามีคอนเทนต์ที่มีลิขสิทธิ์รวมอยู่ด้วย ดังนั้นการแจกจ่ายจึงเข้าข่ายการละเมิดลิขสิทธิ์
- ไม่แน่ใจว่าโพสต์ magnet link ไว้ตรงนี้จะโอเคไหม
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile เป็นข่าวเก่าแล้ว และมีการแนะนำให้ไปดูชุดข้อมูลที่ใหม่กว่านี้อย่าง the-stack-v2
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile มีแหล่งข้อมูลที่คัดสรรมาแล้วจำนวนมาก และแนวโน้มช่วงหลังคือการนำแหล่งข้อมูลแบบคัดสรรมารวมกับ เว็บครอลที่ผ่านการกรอง
  เช่น การนำ Common Crawl มาประมวลผลอย่างเข้มข้นแล้วผสมเข้าไป ซึ่ง dolma ที่คนอื่นพูดถึง หรือ the-stack-v2 สำหรับโมเดลโค้ด ก็เป็นตัวอย่างของแนวทางนี้
ชื่อนี้เท่มาก ทำให้นึกถึง “Pile” ดั้งเดิมของ Manhattan Project
ฉันอ่านเจอใน “The Making of the Atomic Bomb” (1986) และคิดว่าน่าจะมีอยู่ในหนังเรื่องล่าสุดด้วย
- จริง ๆ แทบไม่มีเลย เท่าที่จำได้มีแค่ฉากที่เอ่ยถึงสั้น ๆ มาก
  หนังให้ความรู้สึกเหมือนร้อยเรียงเกร็ดเรื่องเล่าต่าง ๆ เพื่อสร้างสารที่ค่อนข้างทื่อในตอนท้าย
  ถ้ามองเป็นเรื่องแต่งมากกว่าการจำลองความจริงก็ถือว่าเป็นหนังที่โอเค แต่ฉันว่าไปอ่านหนังสือดีกว่า
  โดยเฉพาะถ้าคุณสนใจ Fermi ฉันแนะนำ “The Last Man Who Knew Everything” ของ David Schwartz
The Pile ค่อนข้างเก่าแล้ว อันนี้เป็นเวอร์ชันอัปเดตหรือเปล่า?
- ไม่ใช่
  ที่เกี่ยวข้องกันคือชุดข้อมูล the-stack v2 เพิ่งถูกเผยแพร่ออกมาเมื่อไม่นานนี้
  มีการไล่สำรวจชุดข้อมูลกราฟ Software Heritage 2023-09-06 เพื่อรวบรวมไฟล์ที่ไม่ซ้ำกัน 3.28 พันล้านไฟล์จากคลังเก็บ GitHub 104.2 ล้านแห่ง และยังรวบรวมเมทาดาทาระดับคลังเก็บเพิ่มเติมจากข้อมูล GitHub Archive จนถึง 2023-09-14 ด้วย
  ขนาดรวมแบบไม่บีบอัดคือ 67.53TB และในไปป์ไลน์การประมวลผลล่วงหน้าได้ทำการลบข้อมูลซ้ำแบบประมาณต่อจากการลบข้อมูลซ้ำแบบตรงกันเป๊ะ
  หลังลบข้อมูลซ้ำแล้ว เมื่อวัดตามขนาดและจำนวนโทเค็น v1 อยู่ที่ 2.9TB·200B และ v2 อยู่ที่ 32.1TB·900B
  ดูเหมือนว่าอีกไม่นานจะมี โมเดลเขียนโค้ด แบบเปิดที่ทรงพลังพอสมควรออกมา และโมเดลที่อยากลองทดสอบคือ dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF และ starcoder2-15b-instruct-iMat.GGUF
  ชุดข้อมูล: https://huggingface.co/datasets/bigcode/the-stack-v2
  GGUF quantization: https://huggingface.co/dranger003
สตูดิโอ Hollywood รายใหญ่จ่ายเงินจำนวนมากให้หลาย บริษัทความปลอดภัยไซเบอร์ เพื่อตามหาเนื้อหาละเมิดลิขสิทธิ์แล้วส่งหนังสือแจ้งให้ยุติการละเมิดลิขสิทธิ์ไปยังบริษัทโฮสติ้ง
หากนักเขียนและศิลปินรวมตัวกันในรูปแบบอย่างการรวมข้อมูล พวกเขาก็อาจทำแบบเดียวกับสตูดิโอได้
ถ้ากฎหมายลิขสิทธิ์มีอำนาจบังคับใช้อย่างแท้จริง องค์กรลักษณะนั้นก็น่าจะสามารถส่งคำขอทางกฎหมายไปยังที่ที่โฮสต์เนื้อหาเพื่อเรียกร้องให้ลบออกได้

The Pile ชุดข้อมูลโอเพนซอร์สสำหรับการทำโมเดลภาษา ขนาด 825GiB (2020)

องค์ประกอบและการเผยแพร่ของ The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

บทบาทในฐานะชุดฝึกและ benchmark

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News