• เราได้ลองแปลอัตโนมัติบทความเกี่ยวกับงานวิจัย ML ที่ DAIR.AI เผยแพร่ทุกสัปดาห์

  • เมื่อดูงานวิจัยที่ส่งเข้ามาในสัปดาห์นี้ จะเห็นว่าส่วนใหญ่มุ่งเน้นไปที่โมเดลภาษาขนาดใหญ่รุ่นถัดไป (Large Language Models, LLMs) และสาขาการประยุกต์ใช้งานของมัน โดยเฉพาะงานอย่าง "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" และ "Naturalized Execution Tuning (NExT)" ซึ่งกล่าวถึงความก้าวหน้าและวิธีการเพิ่มประสิทธิภาพของ LLMs ตลอดจนการใช้งานรูปแบบใหม่ ๆ ซึ่งสะท้อนให้เห็นว่าความสำคัญและศักยภาพในการประยุกต์ใช้ของ LLMs ในแวดวงปัญญาประดิษฐ์กำลังเพิ่มสูงขึ้นในช่วงหลังมานี้

  • เหตุผลที่ความก้าวหน้าของ LLMs มีความสำคัญ ก็เพราะโมเดลเหล่านี้แสดงประสิทธิภาพที่ยอดเยี่ยมไม่เพียงในงานประมวลผลภาษาธรรมชาติ (Natural Language Processing, NLP) เท่านั้น แต่ยังรวมถึงงานมัลติโหมด (Task) หลากหลายประเภทด้วย ตัวอย่างเช่น งานวิจัย "Make Your LLM Fully Utilize the Context" สำรวจวิธีที่ LLMs จะใช้บริบทที่มีอยู่ให้ได้สูงสุด เพื่อดึงและตีความข้อมูลได้อย่างแม่นยำยิ่งขึ้น นอกจากนี้ "Graph Machine Learning in the Era of LLMs" ยังเป็นงานวิจัยว่าการเรียนรู้จากข้อมูลแบบกราฟจะได้รับการยกระดับผ่าน LLMs ได้อย่างไร ซึ่งช่วยอย่างมากต่อการทำความเข้าใจความสัมพันธ์และรูปแบบที่ซับซ้อน

  • แนวโน้มเช่นนี้บ่งชี้ว่าบทบาทของ LLMs ในวงการปัญญาประดิษฐ์ไม่ได้หยุดอยู่แค่การทำความเข้าใจและการสร้างภาษาเท่านั้น แต่กำลังขยายไปสู่การแก้ปัญหาและการประยุกต์ใช้ในวงกว้างมากขึ้น ซึ่งมองได้ว่าเป็นส่วนหนึ่งของความพยายามของนักวิจัยในการสำรวจแง่มุมที่หลากหลายของปัญญาประดิษฐ์ โดยเฉพาะเพื่อพัฒนาโมเดลที่สามารถเข้าใจและใช้ภาษาของมนุษย์ได้ดียิ่งขึ้น อีกทั้งแนวโน้มงานวิจัยเช่นนี้ยังสนับสนุนมุมมองที่ว่าในอนาคต การนำ LLMs ไปใช้ในหลากหลายสาขาจะเพิ่มขึ้นต่อไป

[IMG] [2024/04/22 ~ 04/28] งานวิจัย ML เด่นประจำสัปดาห์ (Top ML Papers of the Week)|1028x618


รายงานทางเทคนิค Phi-3: โมเดลภาษาที่มีความสามารถสูงซึ่งทำงานได้ในเครื่องบนโทรศัพท์ของคุณ / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

แนะนำงานวิจัย

phi-3-mini ซึ่งเป็นโมเดลภาษาตัวใหม่ขนาด 3.8B พารามิเตอร์ที่ฝึกด้วยโทเคน 3.3 ล้านล้านรายการ มีรายงานว่าสามารถแข่งขันกับ Mixtral 8x7B และ GPT-3.5 ได้ โดยมีความยาวคอนเท็กซ์เริ่มต้น 4K และยังมีเวอร์ชันขยายเป็น 128K (phi-mini-128K) รวมถึงใช้การผสานข้อมูลเว็บที่ผ่านการคัดกรองอย่างเข้มงวดกับข้อมูลสังเคราะห์เพื่อฝึกโมเดล 3.8B และยังรายงานผลของโมเดล 7B และ 14B (phi-3-small และ phi-3-medium) ที่ฝึกด้วยโทเคน 4.8T ด้วย

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

บทคัดย่อ(Abstract)

ขอแนะนำ phi-3-mini โมเดลภาษาขนาด 3.8 พันล้านพารามิเตอร์ที่ฝึกด้วยโทเคน 3.3 ล้านล้านรายการ ประสิทธิภาพโดยรวมที่วัดจากทั้งเบนช์มาร์กเชิงวิชาการและการทดสอบภายในอยู่ในระดับทัดเทียมกับโมเดลอย่าง Mixtral 8x7B และ GPT-3.5 (เช่น phi-3-mini ทำได้ 69% บน MMLU และ 8.38 บน MT-bench) แม้จะมีขนาดเล็กพอสำหรับนำไปใช้งานบนโทรศัพท์ได้ก็ตาม นวัตกรรมนี้อยู่ที่ชุดข้อมูลฝึกทั้งหมด ซึ่งเป็นเวอร์ชันที่ขยายขนาดมาจากชุดข้อมูลที่ใช้กับ phi-2 และประกอบด้วยข้อมูลเว็บที่ผ่านการคัดกรองอย่างเข้มงวดกับข้อมูลสังเคราะห์ โมเดลนี้ยังได้รับการปรับให้สอดคล้องมากขึ้นในด้านความทนทาน ความปลอดภัย และรูปแบบแชต นอกจากนี้ เรายังนำเสนอผลเบื้องต้นของการขยายพารามิเตอร์ด้วยโมเดล 7B และ 14B ที่ฝึกด้วยโทเคน 4.8T ซึ่งมีชื่อว่า phi-3-small และ phi-3-medium โดยทั้งสองโมเดลมีความสามารถสูงกว่า phi-3-mini อย่างชัดเจน (เช่น ได้ 75% และ 78% บน MMLU ตามลำดับ และ 8.7 กับ 8.9 บน MT-bench)

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

ลิงก์งานวิจัย

https://arxiv.org/abs/2404.14219

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM: ตระกูลโมเดลภาษาที่มีประสิทธิภาพพร้อมเฟรมเวิร์กการฝึกและการอนุมานแบบโอเพนซอร์ส / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

แนะนำงานวิจัย

เป็นโมเดลภาษาแบบเปิดตัวใหม่ที่ใช้กลยุทธ์การขยายแบบรายชั้นเพื่อจัดสรรพารามิเตอร์อย่างมีประสิทธิภาพและเพิ่มทั้งประสิทธิภาพและความแม่นยำ มีหลายขนาด เช่น 270M, 450M, 1.1B และ 3B และให้ความแม่นยำดีขึ้น 2.36% เมื่อเทียบกับ OLMo ขณะที่ต้องใช้โทเคนสำหรับ pre-training น้อยลง 2 เท่า

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

บทคัดย่อ(Abstract)

ความสามารถในการทำซ้ำและความโปร่งใสของโมเดลภาษาขนาดใหญ่มีความสำคัญอย่างยิ่งต่อการผลักดันงานวิจัยแบบเปิด การรับรองความน่าเชื่อถือของผลลัพธ์ และการเปิดโอกาสให้ตรวจสอบอคติของข้อมูลและโมเดล รวมถึงความเสี่ยงที่อาจเกิดขึ้นได้ เพื่อจุดประสงค์นี้ เราจึงเปิดตัว OpenELM ซึ่งเป็นโมเดลภาษาแบบเปิดรุ่นล้ำสมัย OpenELM ใช้กลยุทธ์การสเกลแบบรายชั้นเพื่อจัดสรรพารามิเตอร์ภายในแต่ละชั้นของโมเดลทรานส์ฟอร์เมอร์อย่างมีประสิทธิภาพ ส่งผลให้ความแม่นยำสูงขึ้น ตัวอย่างเช่น ภายใต้งบประมาณพารามิเตอร์ราว 1 พันล้านตัว OpenELM มีความแม่นยำดีกว่า OLMo 2.36% ขณะเดียวกันก็ต้องใช้โทเค็นสำหรับการพรีเทรนน้อยลง $2\times$ ต่างจากแนวทางก่อนหน้าที่ให้เพียงน้ำหนักโมเดลและโค้ดสำหรับ inference และพรีเทรนบนชุดข้อมูลแบบปิด รีลีสครั้งนี้ประกอบด้วยเฟรมเวิร์กครบชุดสำหรับการฝึกและประเมินผลโมเดลภาษาบนชุดข้อมูลที่เปิดให้ใช้งานสาธารณะ รวมถึงบันทึกการฝึก เช็กพอยต์หลายชุด และการตั้งค่าสำหรับพรีเทรน นอกจากนี้ เรายังเผยแพร่โค้ดสำหรับแปลงโมเดลไปยังไลบรารี MLX เพื่อใช้ทำ inference และ fine-tuning บนอุปกรณ์ Apple อีกด้วย รีลีสที่ครอบคลุมนี้มีเป้าหมายเพื่อเสริมพลังและเสริมความแข็งแกร่งให้กับชุมชนนักวิจัยแบบเปิด พร้อมปูทางสู่งานวิจัยแบบเปิดในอนาคต ซอร์สโค้ดพร้อมน้ำหนักโมเดลที่พรีเทรนไว้และสูตรการฝึก สามารถดูได้ที่ \url{https://github.com/apple/corenet} นอกจากนี้ ยังสามารถดูโมเดลได้บน HuggingFace ที่: \url{https://huggingface.co/apple/OpenELM}.

ความสามารถในการทำซ้ำและความโปร่งใสของโมเดลภาษาขนาดใหญ่มีความสำคัญอย่างยิ่งต่อการผลักดันงานวิจัยแบบเปิด การรับรองความน่าเชื่อถือของผลลัพธ์ และการเปิดโอกาสให้ตรวจสอบอคติของข้อมูลและโมเดล รวมถึงความเสี่ยงที่อาจเกิดขึ้นได้ เพื่อจุดประสงค์นี้ เราจึงเปิดตัว OpenELM ซึ่งเป็นโมเดลภาษาแบบเปิดรุ่นล้ำสมัย OpenELM ใช้กลยุทธ์การสเกลแบบรายชั้นเพื่อจัดสรรพารามิเตอร์ภายในแต่ละชั้นของโมเดลทรานส์ฟอร์เมอร์อย่างมีประสิทธิภาพ ส่งผลให้ความแม่นยำสูงขึ้น ตัวอย่างเช่น ภายใต้งบประมาณพารามิเตอร์ราว 1 พันล้านตัว OpenELM มีความแม่นยำดีกว่า OLMo 2.36% ขณะเดียวกันก็ต้องใช้โทเค็นสำหรับการพรีเทรนน้อยลง $2\times$ ต่างจากแนวทางก่อนหน้าที่ให้เพียงน้ำหนักโมเดลและโค้ดสำหรับ inference และพรีเทรนบนชุดข้อมูลแบบปิด รีลีสครั้งนี้ประกอบด้วยเฟรมเวิร์กครบชุดสำหรับการฝึกและประเมินผลโมเดลภาษาบนชุดข้อมูลที่เปิดให้ใช้งานสาธารณะ รวมถึงบันทึกการฝึก เช็กพอยต์หลายชุด และการตั้งค่าสำหรับพรีเทรน นอกจากนี้ เรายังเผยแพร่โค้ดสำหรับแปลงโมเดลไปยังไลบรารี MLX เพื่อใช้ทำ inference และ fine-tuning บนอุปกรณ์ Apple อีกด้วย รีลีสที่ครอบคลุมนี้มีเป้าหมายเพื่อเสริมพลังและเสริมความแข็งแกร่งให้กับชุมชนนักวิจัยแบบเปิด พร้อมปูทางสู่งานวิจัยแบบเปิดในอนาคต ซอร์สโค้ดพร้อมน้ำหนักโมเดลที่พรีเทรนไว้และสูตรการฝึก สามารถดูได้ที่ \url{https://github.com/apple/corenet} นอกจากนี้ ยังสามารถดูโมเดลได้บน HuggingFace ที่: \url{https://huggingface.co/apple/OpenELM}.

ลิงก์บทความ

https://arxiv.org/abs/2404.14619

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

แนะนำบทความ

เป็น LLM โอเพนซอร์ส (ไลเซนส์ Apache 2.0) ที่ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์แบบไฮบริด Dense-MoE ที่มีเอกลักษณ์ โดยอ้างว่าทำผลงานได้เทียบเท่า Llama3 70B ในตัวชี้วัดระดับองค์กร เช่น การเขียนโค้ด (HumanEval+ และ MBPP+), SQL (Spider) และการทำตามคำสั่ง (IFEval) ใช้งบคอมพิวต์น้อยกว่า Llama3 70B ถึง 17 เท่า และใช้คอมพิวต์สำหรับการฝึกรวมมูลค่าราวไม่ถึง 2 ล้านดอลลาร์ (น้อยกว่า 3K GPU-weeks)

LLM โอเพนซอร์ส (ไลเซนส์ Apache 2.0) ที่ใช้สถาปัตยกรรมทรานส์ฟอร์เมอร์แบบไฮบริด Dense-MoE ที่มีเอกลักษณ์ ทำผลงานได้เทียบเท่า Llama3 70B ในตัวชี้วัดระดับองค์กร เช่น การเขียนโค้ด (HumanEval+ & MBPP+), SQL (Spider) และการทำตามคำสั่ง (IFEval) และอ้างว่าใช้งบคอมพิวต์น้อยกว่า Llama 3 70B ถึง 17 เท่า โดยคอมพิวต์สำหรับการฝึกมีมูลค่าราวไม่ถึง $2 million (น้อยกว่า 3K GPU weeks)

ลิงก์บทความ

https://snowflake.com/blog/…

อ่านเพิ่มเติม

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


ทำให้ LLM ของคุณใช้คอนเท็กซ์ได้อย่างเต็มที่ / Make Your LLM Fully Utilize the Context

แนะนำบทความ

นำเสนอแนวทางเพื่อเอาชนะปัญหา lost-in-the-middle ที่พบบ่อยใน LLM โดยใช้กระบวนการฝึกแบบ "information-intensive" อย่างชัดเจนกับ Mistral-7B เพื่อให้ LLM ใช้ประโยชน์จากบริบทได้อย่างเต็มที่ โมเดลนี้ใช้ 1) ชุดข้อมูลสังเคราะห์ที่ต้องอาศัยการรับรู้ข้อมูลอย่างละเอียดในเซกเมนต์สั้น ๆ (∼128 โทเค็น) ภายในคอนเท็กซ์ยาวที่สังเคราะห์ขึ้น (4K-32K โทเค็น) และ 2) การผสานและให้เหตุผลจากข้อมูลของเซกเมนต์สั้นสองส่วนขึ้นไป โมเดลผลลัพธ์ FILM-7B (Fill-in-the-Middle) แสดงให้เห็นว่าสามารถดึงข้อมูลจากตำแหน่งต่าง ๆ ภายในหน้าต่างคอนเท็กซ์ 32K ได้อย่างเสถียร

นำเสนอแนวทางเพื่อเอาชนะปัญหา lost-in-the-middle ที่พบบ่อยใน LLM โดยใช้กระบวนการฝึกแบบ "information-intensive" อย่างชัดเจนกับ Mistral-7B เพื่อให้ LLM ใช้ประโยชน์จากบริบทได้อย่างเต็มที่ โดยอาศัยชุดข้อมูลสังเคราะห์ที่คำตอบต้องใช้ 1) การรับรู้ข้อมูลอย่างละเอียดในเซกเมนต์สั้น (∼128 โทเค็น) ภายในคอนเท็กซ์ยาวที่สังเคราะห์ขึ้น (4K−32K โทเค็น) และ 2) การผสานและให้เหตุผลจากข้อมูลของเซกเมนต์สั้นสองส่วนขึ้นไป โมเดลผลลัพธ์ FILM-7B (Fill-in-the-Middle) แสดงให้เห็นว่าสามารถดึงข้อมูลจากตำแหน่งต่าง ๆ ภายในหน้าต่างคอนเท็กซ์ 32K ได้อย่างเสถียร

บทคัดย่อ(Abstract)

แม้ว่า large language model (LLM) สมัยใหม่จำนวนมากจะสามารถประมวลผลอินพุตที่ยาวได้ แต่ก็ยังคงมีปัญหาในการใช้ข้อมูลภายในบริบทยาวได้อย่างเต็มที่ ซึ่งเป็นปัญหาที่รู้จักกันในชื่อ lost-in-the-middle เราตั้งสมมติฐานว่าปัญหานี้เกิดจากการกำกับดูแลอย่างชัดเจนระหว่างการฝึก long-context ที่ไม่เพียงพอ จนไม่สามารถเน้นย้ำได้ว่าทุกตำแหน่งในบริบทยาวอาจมีข้อมูลสำคัญอยู่ได้ จากแนวคิดนี้ งานวิจัยนี้นำเสนอการฝึกแบบ information-intensive (IN2) ซึ่งเป็นวิธีแก้แบบขับเคลื่อนด้วยข้อมูลล้วน ๆ เพื่อเอาชนะปัญหา lost-in-the-middle โดยเฉพาะอย่างยิ่ง การฝึก IN2 ใช้ชุดข้อมูลคำถาม-คำตอบแบบ long-context ที่สังเคราะห์ขึ้น ซึ่งการหาคำตอบจำเป็นต้องอาศัย (1) การรับรู้ข้อมูลอย่างละเอียดในเซกเมนต์สั้น ๆ (~128 โทเค็น) ภายใน long context ที่สังเคราะห์ขึ้น (4K-32K โทเค็น) และ (2) การผสานข้อมูลและให้เหตุผลจากเซกเมนต์สั้นตั้งแต่สองส่วนขึ้นไป เมื่อนำการฝึกแบบ information-intensive นี้ไปใช้กับ Mistral-7B จึงได้เป็น FILM-7B (FILl-in-the-Middle) เพื่อประเมินความสามารถของ FILM-7B ในการใช้ long context อย่างรอบด้าน ผู้วิจัยได้ออกแบบงาน probing 3 รูปแบบที่ครอบคลุมทั้งรูปแบบคอนเท็กซ์ที่หลากหลาย (เอกสาร, โค้ด และ structured-data context) และรูปแบบการดึงข้อมูล (ดึงไปข้างหน้า, ย้อนกลับ และดึงแบบสองทิศทาง) ผลการ probing แสดงให้เห็นว่า FILM-7B สามารถดึงข้อมูลจากตำแหน่งต่าง ๆ ภายในหน้าต่างคอนเท็กซ์ 32K ได้อย่างเสถียร นอกจากงาน probing เหล่านี้แล้ว FILM-7B ยังช่วยเพิ่มประสิทธิภาพอย่างมากในงาน long-context จริง (เช่น คะแนน F1 บน NarrativeQA จาก 23.5->26.9) ขณะเดียวกันก็ยังรักษาประสิทธิภาพที่ใกล้เคียงเดิมในงาน short-context (เช่น accuracy บน MMLU จาก 59.3->59.2) ลิงก์ GitHub: https://github.com/microsoft/FILM.

แม้ว่า large language model (LLMs) ร่วมสมัยจำนวนมากจะสามารถประมวลผลอินพุตที่ยาวได้ แต่ก็ยังคงมีปัญหาในการใช้ข้อมูลภายในบริบทยาวได้อย่างเต็มที่ ซึ่งเป็นความท้าทายที่เรียกว่า lost-in-the-middle เราตั้งสมมติฐานว่าปัญหานี้มีต้นตอมาจากการกำกับดูแลอย่างชัดเจนระหว่างการฝึก long-context ที่ไม่เพียงพอ ซึ่งไม่สามารถเน้นได้ว่าตำแหน่งใด ๆ ในบริบทยาวอาจเก็บข้อมูลสำคัญไว้ได้ จากสัญชาตญาณนี้ งานวิจัยของเรานำเสนอการฝึกแบบ information-intensive (IN2) ซึ่งเป็นวิธีแก้แบบขับเคลื่อนด้วยข้อมูลล้วน ๆ เพื่อเอาชนะปัญหา lost-in-the-middle โดยเฉพาะ การฝึก IN2 ใช้ชุดข้อมูลคำถาม-คำตอบแบบ long-context ที่สังเคราะห์ขึ้น ซึ่งคำตอบจำเป็นต้องอาศัย (1) การรับรู้ข้อมูลอย่างละเอียดในเซกเมนต์สั้น (~128 โทเค็น) ภายใน long context ที่สังเคราะห์ขึ้น (4K-32K โทเค็น) และ (2) การผสานข้อมูลและการให้เหตุผลจากเซกเมนต์สั้นตั้งแต่สองส่วนขึ้นไป เมื่อนำการฝึกแบบ information-intensive นี้ไปใช้กับ Mistral-7B เราจึงนำเสนอ FILM-7B (FILl-in-the-Middle) เพื่อประเมินความสามารถของ FILM-7B ในการใช้ long context อย่างละเอียดถี่ถ้วน เราได้ออกแบบงาน probing 3 รูปแบบที่ครอบคลุมทั้งสไตล์คอนเท็กซ์ที่หลากหลาย (เอกสาร, โค้ด และ structured-data context) และรูปแบบการดึงข้อมูล (ดึงไปข้างหน้า, ย้อนกลับ และดึงแบบสองทิศทาง) ผลการ probing แสดงให้เห็นว่า FILM-7B สามารถดึงข้อมูลจากตำแหน่งต่าง ๆ ภายในหน้าต่างคอนเท็กซ์ 32K ได้อย่างทนทาน นอกเหนือจากงาน probing เหล่านี้แล้ว FILM-7B ยังปรับปรุงประสิทธิภาพในงาน long-context จริงได้อย่างมีนัยสำคัญ (เช่น คะแนน F1 บน NarrativeQA จาก 23.5->26.9) ขณะเดียวกันก็ยังคงรักษาประสิทธิภาพที่ใกล้เคียงกันในงาน short-context (เช่น accuracy บน MMLU จาก 59.3->59.2) Github Link: https://github.com/microsoft/FILM.

ลิงก์งานวิจัย

https://arxiv.org/abs/2404.16811

อ่านเพิ่มเติม

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

แนะนำงานวิจัย

ชุดข้อมูลเว็บขนาดใหญ่สำหรับการฝึก language model ที่มี 15 ล้านล้านโทเค็น โดยมีเป้าหมายเพื่อปรับปรุงคุณภาพของข้อมูลผ่านการกรองและลบข้อมูลซ้ำของ CommonCrawl ระหว่างปี 2013 ถึง 2024

ชุดข้อมูลเว็บขนาดใหญ่ที่มี 15 ล้านล้านโทเค็นสำหรับการฝึก language models โดยกรองและลบข้อมูลซ้ำจาก CommonCrawl ระหว่างปี 2013 ถึง 2024 และมีเป้าหมายเพื่อปรับปรุงคุณภาพของข้อมูล

ลิงก์งานวิจัย

https://huggingface.co/datasets/HuggingFaceFW/fineweb

อ่านเพิ่มเติม

https://x.com/gui_penedo/status/1781953413938557276


เครื่องมือตัดต่อยีนด้วย AI / AI-powered Gene Editors

แนะนำงานวิจัย

ระบบ AI ที่ขับเคลื่อนด้วย LLM ซึ่งฝึกจากความหลากหลายทางชีววิทยาในวงกว้าง สามารถบรรลุการแก้ไขจีโนมมนุษย์อย่างแม่นยำผ่านการออกแบบเครื่องมือตัดต่อยีนที่ตั้งโปรแกรมได้

บรรลุการแก้ไขจีโนมมนุษย์อย่างแม่นยำด้วยการออกแบบเครื่องมือตัดต่อยีนที่ตั้งโปรแกรมได้ โดยใช้ระบบ AI ที่ขับเคลื่อนด้วย LLM ซึ่งฝึกจากความหลากหลายทางชีววิทยาในสเกลใหญ่

ลิงก์งานวิจัย

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

อ่านเพิ่มเติม

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler: ตัวแทนเว็บที่เข้าใจแบบค่อยเป็นค่อยไปสำหรับการสร้างเว็บครอว์เลอร์ / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

แนะนำงานวิจัย

ผสาน LLM เข้ากับครอว์เลอร์เพื่อช่วยให้ครอว์เลอร์รับมือกับสภาพแวดล้อมเว็บที่หลากหลายและเปลี่ยนแปลงอยู่เสมอได้อย่างมีประสิทธิภาพมากขึ้น โดยเว็บครอว์เลอร์เอเจนต์ใช้โครงสร้างลำดับชั้นของ HTML เพื่อทำความเข้าใจแบบค่อยเป็นค่อยไป ใช้งานแบบ top-down และ step-back และใช้โครงสร้าง DOM tree เพื่อสร้างครอว์เลอร์ที่สมบูรณ์และพร้อมรัน

ผสาน LLMs เข้ากับ crawlers โดยมีเป้าหมายเพื่อช่วยให้ crawlers รับมือกับสภาพแวดล้อมเว็บที่หลากหลายและเปลี่ยนแปลงอยู่เสมอได้อย่างมีประสิทธิภาพมากขึ้น; เว็บครอว์เลอร์เอเจนต์ใช้ประโยชน์จากโครงสร้างลำดับชั้นของ HTML เพื่อทำความเข้าใจแบบค่อยเป็นค่อยไป; ใช้งาน top-down และ step-back และใช้โครงสร้าง DOM tree เพื่อสร้างครอว์เลอร์ที่สมบูรณ์และพร้อมใช้งาน

บทคัดย่องานวิจัย (Abstract)

ระบบอัตโนมัติบนเว็บเป็นเทคนิคสำคัญสำหรับการจัดการงานเว็บที่ซับซ้อน โดยทำให้การกระทำทั่วไปบนเว็บเป็นอัตโนมัติ เพิ่มประสิทธิภาพการดำเนินงาน และลดความจำเป็นในการแทรกแซงด้วยมนุษย์ วิธีการแบบดั้งเดิม เช่น wrapper มีข้อจำกัดด้านความสามารถในการปรับตัวและการขยายขนาดเมื่อต้องเผชิญกับเว็บไซต์ใหม่ ในทางกลับกัน generative agent ที่ขับเคลื่อนด้วย large language model (LLM) กลับมีประสิทธิภาพและการนำกลับมาใช้ซ้ำที่ไม่ดีในสถานการณ์แบบ open-world งานวิจัยนี้นำเสนองานคร้าง crawler สำหรับเว็บเพจข้อมูลเฉพาะทาง และพาราไดม์ของการผสาน LLM เข้ากับ crawler ซึ่งช่วยให้ crawler รับมือกับสภาพแวดล้อมเว็บที่หลากหลายและเปลี่ยนแปลงอยู่ตลอดได้อย่างมีประสิทธิภาพมากขึ้น โดยเสนอ AutoCrawler ซึ่งเป็นเฟรมเวิร์กสองขั้นตอนที่ใช้ประโยชน์จากโครงสร้างลำดับชั้นของ HTML เพื่อการทำความเข้าใจแบบค่อยเป็นค่อยไป ผ่านการทำงานแบบ top-down และ step-back AutoCrawler สามารถเรียนรู้จากการกระทำที่ผิดพลาดและค่อย ๆ ตัดแต่ง HTML อย่างต่อเนื่องเพื่อสร้างการกระทำที่ดีขึ้น เราทำการทดลองอย่างครอบคลุมกับ LLM หลายตัวและแสดงให้เห็นถึงประสิทธิผลของเฟรมเวิร์กนี้ ทรัพยากรของงานวิจัยนี้สามารถดูได้ที่ \url{https://github.com/EZ-hwh/AutoCrawler}

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}

ลิงก์งานวิจัย

https://arxiv.org/abs/2404.12753

อ่านเพิ่มเติม

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


กราฟแมชชีนเลิร์นนิงในยุคของ large language model (LLM) / Graph Machine Learning in the Era of Large Language Models (LLMs)

แนะนำงานวิจัย

นำเสนอภาพรวมอย่างครอบคลุมของความก้าวหน้าล่าสุดของ Graph ML ในยุคของ LLM ครอบคลุมทั้งพัฒนาการล่าสุดของ Graph ML วิธีที่ LLM ช่วยเสริมความสามารถของฟีเจอร์กราฟ และวิธีจัดการกับปัญหาอย่าง OOD และความไม่เป็นเนื้อเดียวกันของกราฟ

Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.

บทคัดย่อ (Abstract)

กราฟมีบทบาทสำคัญในการแทนความสัมพันธ์ที่ซับซ้อนในหลากหลายโดเมน เช่น โซเชียลเน็ตเวิร์ก กราฟความรู้ และการค้นพบโมเลกุล พร้อมกับการมาถึงของดีปเลิร์นนิง Graph Neural Networks (GNNs) ได้กลายเป็นรากฐานสำคัญของ Graph Machine Learning (Graph ML) ซึ่งช่วยให้การแทนและการประมวลผลโครงสร้างกราฟทำได้สะดวกยิ่งขึ้น ช่วงหลังมานี้ LLM ได้แสดงความสามารถที่ไม่เคยมีมาก่อนในงานด้านภาษา และถูกนำไปใช้อย่างกว้างขวางในแอปพลิเคชันหลากหลายประเภท เช่น คอมพิวเตอร์วิทัศน์และระบบแนะนำ ความสำเร็จอันโดดเด่นนี้ยังจุดประกายความสนใจในการนำ LLM มาประยุกต์ใช้กับโดเมนกราฟด้วย มีความพยายามเพิ่มขึ้นอย่างต่อเนื่องในการสำรวจศักยภาพของ LLM ในการยกระดับความสามารถด้านการทำให้ทั่วไป การถ่ายโอน และ few-shot learning ของ Graph ML ขณะเดียวกัน กราฟ โดยเฉพาะกราฟความรู้ อุดมไปด้วยความรู้เชิงข้อเท็จจริงที่น่าเชื่อถือ ซึ่งสามารถนำมาใช้เพื่อเสริมความสามารถในการให้เหตุผลของ LLM และอาจช่วยบรรเทาข้อจำกัดต่าง ๆ เช่น อาการหลอนข้อมูลหรือการขาดความสามารถในการอธิบายได้ เมื่อพิจารณาจากความก้าวหน้าอย่างรวดเร็วของทิศทางการวิจัยนี้ จึงจำเป็นต้องมีการทบทวนอย่างเป็นระบบที่สรุปความก้าวหน้าล่าสุดของ Graph ML ในยุคของ LLM เพื่อมอบความเข้าใจเชิงลึกแก่ทั้งนักวิจัยและผู้ปฏิบัติงาน ดังนั้น ในบทความสำรวจนี้ ผู้เขียนเริ่มจากการทบทวนพัฒนาการล่าสุดของ Graph ML จากนั้นจึงสำรวจว่า LLM สามารถถูกนำมาใช้เพื่อยกระดับคุณภาพของฟีเจอร์กราฟ ลดการพึ่งพาข้อมูลที่มีการติดป้ายกำกับ และรับมือกับความท้าทายอย่างความไม่เป็นเนื้อเดียวกันของกราฟและการทำให้ทั่วไปนอกการกระจาย (OOD) ได้อย่างไร หลังจากนั้น ผู้เขียนเจาะลึกว่ากราฟสามารถเสริม LLM ได้อย่างไร โดยเน้นถึงความสามารถของกราฟในการยกระดับการ pre-training และการอนุมานของ LLM นอกจากนี้ ยังสำรวจกรณีการใช้งานที่หลากหลายและอภิปรายถึงทิศทางในอนาคตที่เป็นไปได้ของสาขาที่มีอนาคตไกลนี้

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

ลิงก์บทความ

https://arxiv.org/abs/2404.14928

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1783171591020392886


แบบสำรวจว่าด้วยการวิวัฒน์ตนเองของโมเดลภาษาขนาดใหญ่ / A Survey on Self-Evolution of Large Language Models

แนะนำบทความ

ให้ภาพรวมแบบสำรวจที่ครอบคลุมเกี่ยวกับแนวทางการวิวัฒน์ตนเองใน LLM

Provides a comprehensive survey on self-evolution approaches in LLMs.

บทคัดย่อ (Abstract)

โมเดลภาษาขนาดใหญ่ (LLM) มีความก้าวหน้าอย่างมากในหลากหลายสาขาและแอปพลิเคชันเอเจนต์อัจฉริยะ อย่างไรก็ตาม LLM ในปัจจุบันที่เรียนรู้จากการกำกับดูแลของมนุษย์หรือโมเดลภายนอกนั้นมีต้นทุนสูง และอาจเผชิญข้อจำกัดด้านประสิทธิภาพเมื่อความซับซ้อนและความหลากหลายของงานเพิ่มขึ้น เพื่อแก้ปัญหานี้ แนวทางการวิวัฒน์ด้วยตนเองที่ทำให้ LLM สามารถได้รับ ปรับปรุง และเรียนรู้จากประสบการณ์ที่โมเดลสร้างขึ้นเองโดยอัตโนมัติกำลังเติบโตอย่างรวดเร็ว กระบวนทัศน์การฝึกแบบใหม่นี้ซึ่งได้รับแรงบันดาลใจจากกระบวนการเรียนรู้จากประสบการณ์ของมนุษย์ มอบศักยภาพในการขยาย LLM ไปสู่ภาวะอภิปัญญา ในบทความนี้ เรานำเสนอการสำรวจอย่างครอบคลุมเกี่ยวกับแนวทางการวิวัฒน์ด้วยตนเองของ LLM โดยเริ่มจากการเสนอกรอบแนวคิดสำหรับการวิวัฒน์ด้วยตนเอง และอธิบายกระบวนการวิวัฒน์ในรูปของวงจรวนซ้ำที่ประกอบด้วย 4 ระยะ ได้แก่ การได้มาซึ่งประสบการณ์ การปรับปรุงประสบการณ์ การอัปเดต และการประเมินผล ประการที่สอง เราจำแนกเป้าหมายของการวิวัฒน์ของ LLM และเอเจนต์ที่อิงบน LLM จากนั้นสรุปวรรณกรรม พร้อมนำเสนออนุกรมวิธานและข้อสังเกตเชิงลึกสำหรับแต่ละโมดูล สุดท้าย เราชี้ให้เห็นความท้าทายที่มีอยู่และเสนอทิศทางในอนาคตเพื่อปรับปรุงกรอบการวิวัฒน์ด้วยตนเอง โดยมอบข้อสังเกตสำคัญให้นักวิจัยเพื่อเร่งการพัฒนา LLM ที่วิวัฒน์ได้ด้วยตนเอง

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

ลิงก์งานวิจัย

https://arxiv.org/abs/2404.14387

อ่านเพิ่มเติม

https://x.com/omarsar0/status/1782777977526231440


NExT: สอนให้โมเดลภาษาขนาดใหญ่ให้เหตุผลเกี่ยวกับการทำงานของโค้ด / NExT: Teaching Large Language Models to Reason about Code Execution

แนะนำงานวิจัย

ฝึก LLM ให้มีความสามารถในการตรวจสอบ execution trace ของโปรแกรมและให้เหตุผลเกี่ยวกับพฤติกรรมขณะรันผ่าน chain-of-thought แบบสังเคราะห์ ช่วยเพิ่มอัตราการแก้ไขของโมเดล PaLM 2 บน MBPP และ Human ได้ 26.1% และ 14.3% และยังแสดงให้เห็นว่าสามารถทำให้ทั่วไปกับสถานการณ์ที่ไม่รู้ล่วงหน้าได้

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

บทคัดย่อ (Abstract)

ทักษะพื้นฐานของนักพัฒนาที่เป็นมนุษย์คือความสามารถในการเข้าใจและให้เหตุผลเกี่ยวกับการทำงานของโปรแกรม ตัวอย่างเช่น โปรแกรมเมอร์สามารถจำลองการทำงานของโค้ดในใจเป็นภาษาธรรมชาติเพื่อดีบักและซ่อมแซมโค้ดได้ (หรือที่เรียกว่า rubber duck debugging) อย่างไรก็ตาม โมเดลภาษาขนาดใหญ่ (LLM) สำหรับโค้ดมักถูกฝึกจากรูปแบบข้อความบนพื้นผิวของโปรแกรม จึงอาจขาดความเข้าใจเชิงความหมายเกี่ยวกับวิธีที่โปรแกรมทำงานขณะรัน เพื่อแก้ปัญหานี้ เราเสนอ NExT ซึ่งเป็นวิธีสอนให้ LLM ตรวจสอบ execution trace ของโปรแกรม (สถานะของตัวแปรในบรรทัดที่ถูกดำเนินการ) และให้เหตุผลเกี่ยวกับพฤติกรรมขณะรันผ่านตรรกะแบบ chain-of-thought (CoT) โดยเฉพาะ NExT ใช้การฝึกแบบ self-training เพื่อบูตสแตรปชุดข้อมูลฝึกสังเคราะห์ของเหตุผลเชิงรับรู้การทำงานของโปรแกรม ซึ่งนำไปสู่คำตอบงานที่ถูกต้อง (เช่น โปรแกรมที่แก้ไขแล้ว) โดยไม่ต้องอาศัยการทำ annotation ด้วยมือที่ใช้แรงมาก ผลการทดลองบนงานซ่อมแซมโปรแกรมที่อิงจาก MBPP และ HumanEval แสดงให้เห็นว่า NExT ช่วยเพิ่มอัตราการแก้ไขของโมเดล PaLM 2 แบบสัมบูรณ์ได้ 26.1% และ 14.3% ตามลำดับ พร้อมทั้งปรับปรุงคุณภาพของเหตุผลประกอบอย่างมีนัยสำคัญตามการยืนยันด้วยเมตริกอัตโนมัติและผู้ประเมินมนุษย์ นอกจากนี้ โมเดลของเรายังสามารถทำให้ทั่วไปไปยังสถานการณ์ที่ไม่มี program trace ในช่วงทดสอบได้อีกด้วย

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

ลิงก์งานวิจัย

https://arxiv.org/abs/2404.14662

อ่านเพิ่มเติม

https://x.com/AnsongNi/status/1783311827390070941


ต้นฉบับ

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


บทความนี้สรุปโดยใช้โมเดล GPT จึงอาจมีส่วนที่คลาดเคลื่อนได้ กรุณาอ้างอิงต้นฉบับที่ลิงก์ไว้ด้านล่างของบทความนี้ประกอบด้วย! หากระหว่างอ่านพบเนื้อหาที่ดูแปลกหรือผิดพลาด รบกวนแจ้งในคอมเมนต์ด้วยครับ/ค่ะ

⚠️โฆษณา⚠️: บทความนี้ที่ ชุมชนผู้ใช้ PyTorch เกาหลี เป็นผู้สรุป มีประโยชน์สำหรับคุณไหม? หาก สมัครสมาชิก เราจะส่งบทความสำคัญให้ทางอีเมล! (ค่าเริ่มต้นคือ Weekly แต่ เปลี่ยนเป็น Daily ได้)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น