โจทย์เปิดในงานวิจัย LLM

xguru · 2023-08-22T11:22:02+09:00

รวม 10 โจทย์สำคัญที่ถูกพูดถึงในวงการ LLM พร้อมลิงก์สำหรับศึกษาต่อ การลดและการวัดอาการหลอน (Hallucination) อุปสรรคใหญ่ที่สุดในการนำ LLM มาใช้ในบริษัทคืออาการหลอน การพัฒนาตัวชี้วัดเพื่อบรรเทาและวัดอาการหลอนเป็นหัวข้อวิจัยยอดนิยมที่สตาร์ตอัปจำนวนมากกำลังมุ่งเน้น เคล็ดลับชั่วคราวในการลดอาการหลอน เช่น เพิ่มบริบทในพรอมป์ต์, Chain-Of-Thought, Self-Consistency, และขอให้โมเดลตอบอย่างกระชับ การปรับความยาวของบริบทและการจัดองค์ประกอบบริบทให้เหมาะสม คำถามส่วนใหญ่ต้องการบริบท ตามงานวิจัย SituatedQA คำถามจำนวนมากด้านการค้นคืนข้อมูลให้คำตอบต่างกันตามบริบท (16.5% ของชุดข้อมูล NQ-Open อยู่ในกรณีนี้) ในกรณีใช้งานของบริษัท ตัวเลขนี้น่าจะสูงกว่ามาก (เช่น หากเป็นแชตบอตบริการลูกค้า บริบทก็คือประวัติลูกค้าและข้อมูลเกี่ยวกับผลิตภัณฑ์นั้น) ความยาวบริบทสำคัญเป็นพิเศษกับ RAG (Retrieval Augmented Generation) RAG ทำงานเป็น 2 ขั้นตอน การทำชังก์ (การจัดทำดัชนี): รวบรวมเอกสารทั้งหมดที่จะใช้กับ LLM สร้าง embedding แบ่งเป็นชังก์เพื่อนำเข้า LLM และเก็บ embedding ไว้ใน vector DB การคิวรี: เมื่อผู้ใช้ส่งคิวรีมา LLM จะแปลงคิวรีเป็น embedding แล้วดึงชังก์ที่คล้ายกับ embedding มากที่สุดจาก vector database ยิ่งบริบทยาว ก็ยิ่งใส่ชังก์ได้มาก ถ้าโมเดลเข้าถึงข้อมูลได้มากขึ้น คำตอบก็น่าจะดีขึ้นใช่ไหม? ไม่ได้เป็นเช่นนั้นเสมอไป ปริมาณบริบทที่โมเดลใช้กับความมีประสิทธิภาพในการใช้บริบทเป็นคนละคำถามกัน นอกจากความพยายามในการเพิ่มความยาวบริบทของโมเดลแล้ว ยังมีความพยายามทำให้บริบทมีประสิทธิภาพขึ้นด้วย สิ่งนี้เรียกว่า prompt engineering หรือ prompt construction ตัวอย่างเช่น งานวิจัยล่าสุดชี้ว่าโมเดลเข้าใจข้อมูลที่ต้นหรือท้ายบริบทได้ดีกว่าตรงกลาง การผสานข้อมูลหลายรูปแบบ (Modalities) Multimodality ทรงพลังมาก แต่ยังถูกประเมินค่าต่ำเกินไป เหตุผลสำคัญ มีกรณีใช้งานที่ต้องจัดการข้อมูลหลากหลาย เช่น การแพทย์ หุ่นยนต์ อีคอมเมิร์ซ ค้าปลีก เกม และความบันเทิง การพยากรณ์ทางการแพทย์ต้องใช้ทั้งข้อความ (บันทึกแพทย์ แบบสอบถาม) และภาพ (CT, X-Ray, MRI) เมทาดาทาของสินค้าอาจมีรูปภาพ วิดีโอ คำอธิบาย และข้อมูลแบบตาราง มัลติโหมดจะช่วยยกระดับประสิทธิภาพของโมเดลอย่างมาก โมเดลที่เข้าใจทั้งข้อความและภาพให้ประสิทธิภาพดีกว่าโมเดลที่เข้าใจเฉพาะข้อความ โมเดลที่อิงข้อความต้องใช้ข้อมูลข้อความมหาศาล จึงมีความกังวลว่าในไม่ช้า ข้อมูลจากอินเทอร์เน็ตที่ใช้ฝึกโมเดลอาจหมดลง หากข้อมูลข้อความเริ่มขาดแคลน ก็จำเป็นต้องใช้ข้อมูลรูปแบบอื่น สิ่งที่น่าคาดหวังเป็นพิเศษคือ ผู้มีความบกพร่องทางการมองเห็นจะสามารถค้นหาอินเทอร์เน็ตและสำรวจโลกจริงผ่านมัลติโหมดได้ ทำให้ LLM เร็วขึ้นและถูกลง ตอนที่ GPT-3.5 ออกมาในเดือนพฤศจิกายน 2022 หลายคนกังวลเรื่อง latency และต้นทุนการใช้งานในโปรดักชัน แต่การวิเคราะห์ด้าน latency/ต้นทุนเปลี่ยนไปมากหลังจากนั้น ไม่ถึงครึ่งปีต่อมา ชุมชนก็พบวิธีสร้างโมเดลที่ใช้หน่วยความจำเพียง 2% ของ GPT-3.5 แต่มีประสิทธิภาพใกล้เคียงมาก แก่นสำคัญคือ ถ้าสร้างของที่ดีพอได้ ผู้คนก็จะหาวิธีทำให้มันเร็วและถูกลงเอง เทคนิครุ่นใหญ่ 4 อย่างสำหรับการปรับแต่ง/บีบอัดโมเดลที่เคยสรุปไว้เมื่อ 4 ปีก่อน Quantization (การควอนไทซ์): วิธีเพิ่มประสิทธิภาพโมเดลที่พบได้บ่อยที่สุด ลดขนาดโมเดลโดยใช้จำนวนบิตน้อยลงในการแทนพารามิเตอร์ จากเดิม floating point 32 บิต เป็น 16 บิต หรือแม้แต่ 4 บิต Knowledge distillation (การกลั่นความรู้): ฝึกโมเดลขนาดเล็ก (นักเรียน) ให้เลียนแบบโมเดลขนาดใหญ่หรือชุดโมเดล (ครู) Low-rank factorization (การแยกตัวประกอบอันดับต่ำ): แทนเทนเซอร์มิติสูงด้วยเทนเซอร์มิติต่ำเพื่อลดจำนวนพารามิเตอร์ เช่น แยกเทนเซอร์ 3x3 เป็นผลคูณของเทนเซอร์ 3x1 และ 1x3 ทำให้เหลือพารามิเตอร์ 6 ตัวแทนที่จะเป็น 9 ตัว Pruning (การตัดแต่ง) ปัจจุบันทั้ง 4 เทคนิคนี้ยังคงเกี่ยวข้องและได้รับความนิยม Alpaca ใช้เทคนิคการกลั่นความรู้ ส่วน QLoRA ใช้การผสมระหว่าง low-rank factorization และ quantization การออกแบบสถาปัตยกรรมโมเดลใหม่ ตั้งแต่ AlexNet ในปี 2012 มีสถาปัตยกรรมมากมาย เช่น LSTM, seq2seq ที่เคยดังแล้วก็เลือนหายไป เมื่อเทียบกันแล้ว Transformer นั้นเหนียวแน่นมาก เปิดตัวในปี 2017 และน่าคิดว่าจะนิยมไปอีกนานแค่ไหน การพัฒนาสถาปัตยกรรมใหม่ที่เหนือกว่า Transformer ไม่ใช่เรื่องง่าย เพราะมันถูกปรับแต่งอย่างหนักมาตลอด 6 ปีที่ผ่านมา สถาปัตยกรรมใหม่ต้องแสดงประสิทธิภาพได้ในระดับที่ผู้คนปัจจุบันสนใจ เดิมที Transformer ถูกออกแบบให้รันได้เร็วบน TPU และภายหลังก็ถูกปรับให้เหมาะกับ GPU ในปี 2021 มีความตื่นเต้นมากในห้องวิจัยของ Chris Ré รอบ ๆ S4 ปัจจุบันก็ยังลงทุนกับสถาปัตยกรรมใหม่อยู่ และล่าสุดได้พัฒนาสถาปัตยกรรม Monarch Mixer ร่วมกับสตาร์ตอัป Together การพัฒนาทางเลือกแทน GPU GPU เป็นฮาร์ดแวร์หลักสำหรับดีปเลิร์นนิงมาตั้งแต่ AlexNet ในปี 2012 หนึ่งในเหตุผลที่ AlexNet มีชื่อเสียงคือเป็นงานวิจัยชิ้นแรกที่ใช้ GPU ฝึกโครงข่ายประสาทได้สำเร็จ ก่อนยุค GPU หากต้องการฝึกโมเดลขนาดระดับ AlexNet จำเป็นต้องใช้ CPU หลายพันตัว เมื่อเทียบกับ CPU หลายพันตัว การมี GPU เพียง 2 ตัวทำให้นักศึกษาปริญญาเอกและนักวิจัยเข้าถึงได้ง่ายกว่ามาก และจุดกระแสการวิจัยดีปเลิร์นนิงอย่างมหาศาล ตลอด 10 ปีที่ผ่านมา บริษัทใหญ่ สตาร์ตอัป และอีกหลายบริษัทพยายามสร้างฮาร์ดแวร์ใหม่สำหรับ AI ตัวที่โดดเด่นที่สุดคือ TPU ของ Google, IPU ของ Graphcore และ Cerebras SambaNova ระดมทุนได้มากกว่า 1 พันล้านดอลลาร์เพื่อพัฒนาชิป AI แบบใหม่ แต่ภายหลัง pivot ไปเป็นแพลตฟอร์ม generative AI ช่วงหนึ่งมีความคาดหวังสูงมากต่อ quantum computing และผู้เล่นหลัก ได้แก่ QPU ของ IBM คอมพิวเตอร์ควอนตัมของ Google ประกาศหมุดหมายสำคัญด้านการลดข้อผิดพลาดควอนตัมใน Nature เมื่อต้นปีนี้ และเข้าถึง quantum virtual machine ได้ผ่าน Google Colab MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory เป็นต้น อีกทิศทางที่น่าสนใจมากคือชิป photonic ชิปในปัจจุบันใช้ไฟฟ้าในการเคลื่อนย้ายข้อมูล จึงกินพลังงานมากและทำให้เกิด latency ชิปโฟโตนิกใช้โฟตอนในการเคลื่อนย้ายข้อมูล และใช้ประโยชน์จากความเร็วแสงเพื่อการประมวลผลที่เร็วและมีประสิทธิภาพกว่า มีสตาร์ตอัปหลายรายในสาขานี้ที่ระดมทุนได้ระดับหลายร้อยล้านดอลลาร์ รวมถึง Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) และ Luminous Computing ($115M) ทำให้เอเจนต์ใช้งานได้จริง เอเจนต์คือ LLM ที่สามารถทำงานอย่างการค้นหาอินเทอร์เน็ต ส่งอีเมล หรือจองนัดหมายได้ เมื่อเทียบกับทิศทางวิจัยอื่นในบทความนี้ นี่อาจนับว่าเป็นสาขาที่ยังอยู่ช่วงเริ่มต้นที่สุด ด้วยความแปลกใหม่และศักยภาพมหาศาล เอเจนต์จึงได้รับความนิยมอย่างคึกคัก ตอนนี้ Auto-GPT เป็น repo ที่ได้รับ GitHub Star สูงเป็นอันดับ 25 GPT-Engineering ก็เป็นอีก repository ยอดนิยม แม้จะน่าตื่นเต้น แต่ก็ยังมีข้อกังขาว่า LLM จะเชื่อถือได้และมีประสิทธิภาพพอให้มอบอำนาจในการลงมือกระทำจริงหรือไม่ สตาร์ตอัปที่น่าจับตาที่สุดในสาขานี้คือ Adept ก่อตั้งโดยผู้ร่วมเขียน Transformer 2 คนและอดีต VP ของ OpenAI และระดมทุนได้เกือบ 500 ล้านดอลลาร์แล้วจนถึงตอนนี้ ปรับปรุงการเรียนรู้ผ่าน Human Preference RLHF, Reinforcement Learning from Human Preference เป็นแนวคิดที่น่าสนใจ แต่ก็ค่อนข้าง hacky จึงไม่น่าแปลกใจหากวันหนึ่งผู้คนจะค้นพบวิธีที่ดีกว่าในการฝึก LLM เพราะ RLHF ยังมีคำถามที่ยังไม่คลี่คลาย เช่น จะนิยามความชอบของมนุษย์ในเชิงคณิตศาสตร์อย่างไร? ปัจจุบันความชอบของมนุษย์ถูกกำหนดผ่านการเปรียบเทียบ ผู้ติดป้ายกำกับโดยมนุษย์ตัดสินเพียงว่าคำตอบ A ดีกว่าคำตอบ B หรือไม่ แต่ไม่ได้คำนึงว่าดีกว่ามากน้อยแค่ไหน แล้วรสนิยมของมนุษย์ล่ะ? Anthropic วัดคุณภาพคำตอบของโมเดลตาม 3 แกน คือ มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย DeepMind พยายามสร้างคำตอบที่ทำให้คนส่วนใหญ่พึงพอใจ เราต้องการ AI ที่สามารถมีจุดยืนได้ หรือเราต้องการ AI แบบกลาง ๆ ที่หลีกเลี่ยงหัวข้ออ่อนไหวซึ่งอาจก่อให้เกิดข้อถกเถียง? เมื่อคำนึงถึงความต่างด้านวัฒนธรรม ศาสนา และแนวคิดทางการเมือง ความชอบของใครจึงจะถือเป็นความชอบแบบ “มนุษย์”? ยังมีความยากลำบากมากในการได้ข้อมูลฝึกที่เป็นตัวแทนของผู้ใช้เป้าหมายทั้งหมดอย่างเพียงพอ ตัวอย่างเช่น ในข้อมูลของ InstructGPT จาก OpenAI ไม่มีผู้ติดป้ายกำกับที่อายุมากกว่า 65 ปี และผู้ติดป้ายกำกับส่วนใหญ่เป็นชาวฟิลิปปินส์และบังกลาเทศ ความพยายามที่ขับเคลื่อนโดยชุมชน แม้มีเจตนาดี แต่อาจนำไปสู่ข้อมูลที่มีอคติได้ ตัวอย่างเช่น ในชุดข้อมูล OpenAssistant มีผู้ตอบแบบสอบถาม 201 คนจาก 222 คน (90.5%) ที่ระบุว่าเป็นเพศชาย การเพิ่มประสิทธิภาพของอินเทอร์เฟซแชต หลังจาก ChatGPT มีการถกเถียงกันมากว่าแชตเป็นอินเทอร์เฟซที่เหมาะกับงานหลากหลายประเภทหรือไม่ นี่ไม่ใช่ประเด็นใหม่ เพราะในเอเชีย แชตถูกใช้เป็นอินเทอร์เฟซของซูเปอร์แอปมาราว 10 ปีแล้ว โดยส่วนตัวชอบอินเทอร์เฟซแชตด้วยเหตุผลเหล่านี้ แชตเป็นอินเทอร์เฟซที่เรียนรู้วิธีใช้งานได้อย่างรวดเร็ว แม้สำหรับคนที่ไม่เคยสัมผัสคอมพิวเตอร์หรืออินเทอร์เน็ตมาก่อน อินเทอร์เฟซแชตเข้าถึงได้ หากมือไม่ว่างก็ใช้เสียงแทนข้อความได้ แชตเป็นอินเทอร์เฟซที่ทรงพลังอย่างไม่น่าเชื่อ ขออะไรก็ได้ และแม้คำตอบจะไม่ดีนัก มันก็ยังให้คำตอบบางอย่างกลับมา แต่ก็ยังมีพื้นที่ที่คิดว่าสามารถพัฒนาอินเทอร์เฟซแชตได้อีก หลายข้อความต่อหนึ่งเทิร์น อินพุตแบบ Multimodal การผสาน generative AI เข้ากับเวิร์กโฟลว์ การแก้ไขและลบข้อความ การสร้าง LLM สำหรับภาษาที่ไม่ใช่อังกฤษ ปัจจุบัน LLM แบบ English-first ยังทำงานได้ไม่ดีนักกับภาษาอื่น ทั้งในด้านประสิทธิภาพ latency และความเร็ว ผู้อ่านบางคนในช่วงแรกของบทความนี้บอกว่าไม่คิดว่าควรนับทิศทางนี้รวมอยู่ด้วย เพราะมันดูใกล้เคียงปัญหาด้าน logistics มากกว่างานวิจัย กล่าวคือ เรารู้อยู่แล้วว่าต้องทำอย่างไร แค่ต้องทุ่มเงินและแรงเพิ่มเท่านั้น แต่นั่นไม่เป็นความจริง ภาษาส่วนใหญ่เป็นภาษาที่มีทรัพยากรต่ำ เมื่อเทียบกับภาษาอังกฤษหรือจีนแล้ว มีข้อมูลคุณภาพสูงน้อยกว่ามาก และการฝึกโมเดลขนาดใหญ่สำหรับภาษาเหล่านี้อาจต้องใช้เทคนิคที่ต่างออกไป คนที่มองโลกในแง่ร้ายกว่านั้นยังบอกว่า ในอนาคตหลายภาษาอาจหายไป และอินเทอร์เน็ตจะกลายเป็นสองโลกที่ประกอบด้วยภาษาอังกฤษกับภาษาจีนกลาง ใครยังจำ Esperanto ได้บ้าง? ผลกระทบของเครื่องมือ AI อย่าง machine translation และแชตบอตต่อการเรียนรู้ภาษายังไม่ชัดเจน มันจะช่วยให้ผู้คนเรียนภาษาใหม่ได้เร็วขึ้น หรือจะทำให้ความจำเป็นในการเรียนภาษาใหม่หายไปโดยสิ้นเชิง?

(huyenchip.com)

30 คะแนน โดย xguru 2023-08-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รวม 10 โจทย์สำคัญที่ถูกพูดถึงในวงการ LLM พร้อมลิงก์สำหรับศึกษาต่อ

การลดและการวัดอาการหลอน (Hallucination)

อุปสรรคใหญ่ที่สุดในการนำ LLM มาใช้ในบริษัทคืออาการหลอน
การพัฒนาตัวชี้วัดเพื่อบรรเทาและวัดอาการหลอนเป็นหัวข้อวิจัยยอดนิยมที่สตาร์ตอัปจำนวนมากกำลังมุ่งเน้น
เคล็ดลับชั่วคราวในการลดอาการหลอน เช่น เพิ่มบริบทในพรอมป์ต์, Chain-Of-Thought, Self-Consistency, และขอให้โมเดลตอบอย่างกระชับ

การปรับความยาวของบริบทและการจัดองค์ประกอบบริบทให้เหมาะสม

คำถามส่วนใหญ่ต้องการบริบท
ตามงานวิจัย SituatedQA คำถามจำนวนมากด้านการค้นคืนข้อมูลให้คำตอบต่างกันตามบริบท (16.5% ของชุดข้อมูล NQ-Open อยู่ในกรณีนี้)
ในกรณีใช้งานของบริษัท ตัวเลขนี้น่าจะสูงกว่ามาก (เช่น หากเป็นแชตบอตบริการลูกค้า บริบทก็คือประวัติลูกค้าและข้อมูลเกี่ยวกับผลิตภัณฑ์นั้น)
ความยาวบริบทสำคัญเป็นพิเศษกับ RAG (Retrieval Augmented Generation)
RAG ทำงานเป็น 2 ขั้นตอน
- การทำชังก์ (การจัดทำดัชนี): รวบรวมเอกสารทั้งหมดที่จะใช้กับ LLM สร้าง embedding แบ่งเป็นชังก์เพื่อนำเข้า LLM และเก็บ embedding ไว้ใน vector DB
- การคิวรี: เมื่อผู้ใช้ส่งคิวรีมา LLM จะแปลงคิวรีเป็น embedding แล้วดึงชังก์ที่คล้ายกับ embedding มากที่สุดจาก vector database
ยิ่งบริบทยาว ก็ยิ่งใส่ชังก์ได้มาก ถ้าโมเดลเข้าถึงข้อมูลได้มากขึ้น คำตอบก็น่าจะดีขึ้นใช่ไหม?
ไม่ได้เป็นเช่นนั้นเสมอไป ปริมาณบริบทที่โมเดลใช้กับความมีประสิทธิภาพในการใช้บริบทเป็นคนละคำถามกัน
นอกจากความพยายามในการเพิ่มความยาวบริบทของโมเดลแล้ว ยังมีความพยายามทำให้บริบทมีประสิทธิภาพขึ้นด้วย
- สิ่งนี้เรียกว่า prompt engineering หรือ prompt construction
- ตัวอย่างเช่น งานวิจัยล่าสุดชี้ว่าโมเดลเข้าใจข้อมูลที่ต้นหรือท้ายบริบทได้ดีกว่าตรงกลาง

การผสานข้อมูลหลายรูปแบบ (Modalities)

Multimodality ทรงพลังมาก แต่ยังถูกประเมินค่าต่ำเกินไป
เหตุผลสำคัญ
- มีกรณีใช้งานที่ต้องจัดการข้อมูลหลากหลาย เช่น การแพทย์ หุ่นยนต์ อีคอมเมิร์ซ ค้าปลีก เกม และความบันเทิง
  - การพยากรณ์ทางการแพทย์ต้องใช้ทั้งข้อความ (บันทึกแพทย์ แบบสอบถาม) และภาพ (CT, X-Ray, MRI)
  - เมทาดาทาของสินค้าอาจมีรูปภาพ วิดีโอ คำอธิบาย และข้อมูลแบบตาราง
- มัลติโหมดจะช่วยยกระดับประสิทธิภาพของโมเดลอย่างมาก
  - โมเดลที่เข้าใจทั้งข้อความและภาพให้ประสิทธิภาพดีกว่าโมเดลที่เข้าใจเฉพาะข้อความ
  - โมเดลที่อิงข้อความต้องใช้ข้อมูลข้อความมหาศาล จึงมีความกังวลว่าในไม่ช้า ข้อมูลจากอินเทอร์เน็ตที่ใช้ฝึกโมเดลอาจหมดลง
  - หากข้อมูลข้อความเริ่มขาดแคลน ก็จำเป็นต้องใช้ข้อมูลรูปแบบอื่น
สิ่งที่น่าคาดหวังเป็นพิเศษคือ ผู้มีความบกพร่องทางการมองเห็นจะสามารถค้นหาอินเทอร์เน็ตและสำรวจโลกจริงผ่านมัลติโหมดได้

ทำให้ LLM เร็วขึ้นและถูกลง

ตอนที่ GPT-3.5 ออกมาในเดือนพฤศจิกายน 2022 หลายคนกังวลเรื่อง latency และต้นทุนการใช้งานในโปรดักชัน
แต่การวิเคราะห์ด้าน latency/ต้นทุนเปลี่ยนไปมากหลังจากนั้น
ไม่ถึงครึ่งปีต่อมา ชุมชนก็พบวิธีสร้างโมเดลที่ใช้หน่วยความจำเพียง 2% ของ GPT-3.5 แต่มีประสิทธิภาพใกล้เคียงมาก
แก่นสำคัญคือ ถ้าสร้างของที่ดีพอได้ ผู้คนก็จะหาวิธีทำให้มันเร็วและถูกลงเอง
เทคนิครุ่นใหญ่ 4 อย่างสำหรับการปรับแต่ง/บีบอัดโมเดลที่เคยสรุปไว้เมื่อ 4 ปีก่อน
- Quantization (การควอนไทซ์): วิธีเพิ่มประสิทธิภาพโมเดลที่พบได้บ่อยที่สุด ลดขนาดโมเดลโดยใช้จำนวนบิตน้อยลงในการแทนพารามิเตอร์ จากเดิม floating point 32 บิต เป็น 16 บิต หรือแม้แต่ 4 บิต
- Knowledge distillation (การกลั่นความรู้): ฝึกโมเดลขนาดเล็ก (นักเรียน) ให้เลียนแบบโมเดลขนาดใหญ่หรือชุดโมเดล (ครู)
- Low-rank factorization (การแยกตัวประกอบอันดับต่ำ): แทนเทนเซอร์มิติสูงด้วยเทนเซอร์มิติต่ำเพื่อลดจำนวนพารามิเตอร์ เช่น แยกเทนเซอร์ 3x3 เป็นผลคูณของเทนเซอร์ 3x1 และ 1x3 ทำให้เหลือพารามิเตอร์ 6 ตัวแทนที่จะเป็น 9 ตัว
- Pruning (การตัดแต่ง)
ปัจจุบันทั้ง 4 เทคนิคนี้ยังคงเกี่ยวข้องและได้รับความนิยม Alpaca ใช้เทคนิคการกลั่นความรู้ ส่วน QLoRA ใช้การผสมระหว่าง low-rank factorization และ quantization

การออกแบบสถาปัตยกรรมโมเดลใหม่

ตั้งแต่ AlexNet ในปี 2012 มีสถาปัตยกรรมมากมาย เช่น LSTM, seq2seq ที่เคยดังแล้วก็เลือนหายไป
เมื่อเทียบกันแล้ว Transformer นั้นเหนียวแน่นมาก เปิดตัวในปี 2017 และน่าคิดว่าจะนิยมไปอีกนานแค่ไหน
การพัฒนาสถาปัตยกรรมใหม่ที่เหนือกว่า Transformer ไม่ใช่เรื่องง่าย เพราะมันถูกปรับแต่งอย่างหนักมาตลอด 6 ปีที่ผ่านมา
สถาปัตยกรรมใหม่ต้องแสดงประสิทธิภาพได้ในระดับที่ผู้คนปัจจุบันสนใจ
- เดิมที Transformer ถูกออกแบบให้รันได้เร็วบน TPU และภายหลังก็ถูกปรับให้เหมาะกับ GPU
ในปี 2021 มีความตื่นเต้นมากในห้องวิจัยของ Chris Ré รอบ ๆ S4
ปัจจุบันก็ยังลงทุนกับสถาปัตยกรรมใหม่อยู่ และล่าสุดได้พัฒนาสถาปัตยกรรม Monarch Mixer ร่วมกับสตาร์ตอัป Together

การพัฒนาทางเลือกแทน GPU

GPU เป็นฮาร์ดแวร์หลักสำหรับดีปเลิร์นนิงมาตั้งแต่ AlexNet ในปี 2012
หนึ่งในเหตุผลที่ AlexNet มีชื่อเสียงคือเป็นงานวิจัยชิ้นแรกที่ใช้ GPU ฝึกโครงข่ายประสาทได้สำเร็จ
ก่อนยุค GPU หากต้องการฝึกโมเดลขนาดระดับ AlexNet จำเป็นต้องใช้ CPU หลายพันตัว
เมื่อเทียบกับ CPU หลายพันตัว การมี GPU เพียง 2 ตัวทำให้นักศึกษาปริญญาเอกและนักวิจัยเข้าถึงได้ง่ายกว่ามาก และจุดกระแสการวิจัยดีปเลิร์นนิงอย่างมหาศาล
ตลอด 10 ปีที่ผ่านมา บริษัทใหญ่ สตาร์ตอัป และอีกหลายบริษัทพยายามสร้างฮาร์ดแวร์ใหม่สำหรับ AI
ตัวที่โดดเด่นที่สุดคือ TPU ของ Google, IPU ของ Graphcore และ Cerebras
SambaNova ระดมทุนได้มากกว่า 1 พันล้านดอลลาร์เพื่อพัฒนาชิป AI แบบใหม่ แต่ภายหลัง pivot ไปเป็นแพลตฟอร์ม generative AI
ช่วงหนึ่งมีความคาดหวังสูงมากต่อ quantum computing และผู้เล่นหลัก ได้แก่
- QPU ของ IBM
- คอมพิวเตอร์ควอนตัมของ Google ประกาศหมุดหมายสำคัญด้านการลดข้อผิดพลาดควอนตัมใน Nature เมื่อต้นปีนี้ และเข้าถึง quantum virtual machine ได้ผ่าน Google Colab
- MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory เป็นต้น
อีกทิศทางที่น่าสนใจมากคือชิป photonic
- ชิปในปัจจุบันใช้ไฟฟ้าในการเคลื่อนย้ายข้อมูล จึงกินพลังงานมากและทำให้เกิด latency
- ชิปโฟโตนิกใช้โฟตอนในการเคลื่อนย้ายข้อมูล และใช้ประโยชน์จากความเร็วแสงเพื่อการประมวลผลที่เร็วและมีประสิทธิภาพกว่า
- มีสตาร์ตอัปหลายรายในสาขานี้ที่ระดมทุนได้ระดับหลายร้อยล้านดอลลาร์ รวมถึง Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) และ Luminous Computing ($115M)

ทำให้เอเจนต์ใช้งานได้จริง

เอเจนต์คือ LLM ที่สามารถทำงานอย่างการค้นหาอินเทอร์เน็ต ส่งอีเมล หรือจองนัดหมายได้
เมื่อเทียบกับทิศทางวิจัยอื่นในบทความนี้ นี่อาจนับว่าเป็นสาขาที่ยังอยู่ช่วงเริ่มต้นที่สุด
ด้วยความแปลกใหม่และศักยภาพมหาศาล เอเจนต์จึงได้รับความนิยมอย่างคึกคัก
ตอนนี้ Auto-GPT เป็น repo ที่ได้รับ GitHub Star สูงเป็นอันดับ 25
GPT-Engineering ก็เป็นอีก repository ยอดนิยม
แม้จะน่าตื่นเต้น แต่ก็ยังมีข้อกังขาว่า LLM จะเชื่อถือได้และมีประสิทธิภาพพอให้มอบอำนาจในการลงมือกระทำจริงหรือไม่
สตาร์ตอัปที่น่าจับตาที่สุดในสาขานี้คือ Adept
- ก่อตั้งโดยผู้ร่วมเขียน Transformer 2 คนและอดีต VP ของ OpenAI และระดมทุนได้เกือบ 500 ล้านดอลลาร์แล้วจนถึงตอนนี้

ปรับปรุงการเรียนรู้ผ่าน Human Preference

RLHF, Reinforcement Learning from Human Preference เป็นแนวคิดที่น่าสนใจ แต่ก็ค่อนข้าง hacky
จึงไม่น่าแปลกใจหากวันหนึ่งผู้คนจะค้นพบวิธีที่ดีกว่าในการฝึก LLM เพราะ RLHF ยังมีคำถามที่ยังไม่คลี่คลาย เช่น
- จะนิยามความชอบของมนุษย์ในเชิงคณิตศาสตร์อย่างไร?
  - ปัจจุบันความชอบของมนุษย์ถูกกำหนดผ่านการเปรียบเทียบ
  - ผู้ติดป้ายกำกับโดยมนุษย์ตัดสินเพียงว่าคำตอบ A ดีกว่าคำตอบ B หรือไม่ แต่ไม่ได้คำนึงว่าดีกว่ามากน้อยแค่ไหน
- แล้วรสนิยมของมนุษย์ล่ะ?
  - Anthropic วัดคุณภาพคำตอบของโมเดลตาม 3 แกน คือ มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย
  - DeepMind พยายามสร้างคำตอบที่ทำให้คนส่วนใหญ่พึงพอใจ
  - เราต้องการ AI ที่สามารถมีจุดยืนได้ หรือเราต้องการ AI แบบกลาง ๆ ที่หลีกเลี่ยงหัวข้ออ่อนไหวซึ่งอาจก่อให้เกิดข้อถกเถียง?
- เมื่อคำนึงถึงความต่างด้านวัฒนธรรม ศาสนา และแนวคิดทางการเมือง ความชอบของใครจึงจะถือเป็นความชอบแบบ “มนุษย์”?
ยังมีความยากลำบากมากในการได้ข้อมูลฝึกที่เป็นตัวแทนของผู้ใช้เป้าหมายทั้งหมดอย่างเพียงพอ
ตัวอย่างเช่น ในข้อมูลของ InstructGPT จาก OpenAI ไม่มีผู้ติดป้ายกำกับที่อายุมากกว่า 65 ปี และผู้ติดป้ายกำกับส่วนใหญ่เป็นชาวฟิลิปปินส์และบังกลาเทศ
ความพยายามที่ขับเคลื่อนโดยชุมชน แม้มีเจตนาดี แต่อาจนำไปสู่ข้อมูลที่มีอคติได้
ตัวอย่างเช่น ในชุดข้อมูล OpenAssistant มีผู้ตอบแบบสอบถาม 201 คนจาก 222 คน (90.5%) ที่ระบุว่าเป็นเพศชาย

การเพิ่มประสิทธิภาพของอินเทอร์เฟซแชต

หลังจาก ChatGPT มีการถกเถียงกันมากว่าแชตเป็นอินเทอร์เฟซที่เหมาะกับงานหลากหลายประเภทหรือไม่
นี่ไม่ใช่ประเด็นใหม่ เพราะในเอเชีย แชตถูกใช้เป็นอินเทอร์เฟซของซูเปอร์แอปมาราว 10 ปีแล้ว
โดยส่วนตัวชอบอินเทอร์เฟซแชตด้วยเหตุผลเหล่านี้
- แชตเป็นอินเทอร์เฟซที่เรียนรู้วิธีใช้งานได้อย่างรวดเร็ว แม้สำหรับคนที่ไม่เคยสัมผัสคอมพิวเตอร์หรืออินเทอร์เน็ตมาก่อน
- อินเทอร์เฟซแชตเข้าถึงได้ หากมือไม่ว่างก็ใช้เสียงแทนข้อความได้
- แชตเป็นอินเทอร์เฟซที่ทรงพลังอย่างไม่น่าเชื่อ ขออะไรก็ได้ และแม้คำตอบจะไม่ดีนัก มันก็ยังให้คำตอบบางอย่างกลับมา
แต่ก็ยังมีพื้นที่ที่คิดว่าสามารถพัฒนาอินเทอร์เฟซแชตได้อีก
- หลายข้อความต่อหนึ่งเทิร์น
- อินพุตแบบ Multimodal
- การผสาน generative AI เข้ากับเวิร์กโฟลว์
- การแก้ไขและลบข้อความ

การสร้าง LLM สำหรับภาษาที่ไม่ใช่อังกฤษ

ปัจจุบัน LLM แบบ English-first ยังทำงานได้ไม่ดีนักกับภาษาอื่น ทั้งในด้านประสิทธิภาพ latency และความเร็ว
ผู้อ่านบางคนในช่วงแรกของบทความนี้บอกว่าไม่คิดว่าควรนับทิศทางนี้รวมอยู่ด้วย
- เพราะมันดูใกล้เคียงปัญหาด้าน logistics มากกว่างานวิจัย กล่าวคือ เรารู้อยู่แล้วว่าต้องทำอย่างไร แค่ต้องทุ่มเงินและแรงเพิ่มเท่านั้น
  แต่นั่นไม่เป็นความจริง ภาษาส่วนใหญ่เป็นภาษาที่มีทรัพยากรต่ำ เมื่อเทียบกับภาษาอังกฤษหรือจีนแล้ว มีข้อมูลคุณภาพสูงน้อยกว่ามาก และการฝึกโมเดลขนาดใหญ่สำหรับภาษาเหล่านี้อาจต้องใช้เทคนิคที่ต่างออกไป
- คนที่มองโลกในแง่ร้ายกว่านั้นยังบอกว่า ในอนาคตหลายภาษาอาจหายไป และอินเทอร์เน็ตจะกลายเป็นสองโลกที่ประกอบด้วยภาษาอังกฤษกับภาษาจีนกลาง ใครยังจำ Esperanto ได้บ้าง?
ผลกระทบของเครื่องมือ AI อย่าง machine translation และแชตบอตต่อการเรียนรู้ภาษายังไม่ชัดเจน
มันจะช่วยให้ผู้คนเรียนภาษาใหม่ได้เร็วขึ้น หรือจะทำให้ความจำเป็นในการเรียนภาษาใหม่หายไปโดยสิ้นเชิง?

1 ความคิดเห็น

joone 2023-08-31

ผู้เขียนบทความนี้คือผู้เขียนหนังสือ Designing Machine Learning Systems ที่ตีพิมพ์โดย O'Reilly นะครับ
ฉบับแปลภาษาเกาหลีตีพิมพ์โดย Hanbit Publishing
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220