- รวม 10 โจทย์สำคัญที่ถูกพูดถึงในวงการ LLM พร้อมลิงก์สำหรับศึกษาต่อ
การลดและการวัดอาการหลอน (Hallucination)
- อุปสรรคใหญ่ที่สุดในการนำ LLM มาใช้ในบริษัทคืออาการหลอน
- การพัฒนาตัวชี้วัดเพื่อบรรเทาและวัดอาการหลอนเป็นหัวข้อวิจัยยอดนิยมที่สตาร์ตอัปจำนวนมากกำลังมุ่งเน้น
- เคล็ดลับชั่วคราวในการลดอาการหลอน เช่น เพิ่มบริบทในพรอมป์ต์, Chain-Of-Thought, Self-Consistency, และขอให้โมเดลตอบอย่างกระชับ
การปรับความยาวของบริบทและการจัดองค์ประกอบบริบทให้เหมาะสม
- คำถามส่วนใหญ่ต้องการบริบท
- ตามงานวิจัย SituatedQA คำถามจำนวนมากด้านการค้นคืนข้อมูลให้คำตอบต่างกันตามบริบท (16.5% ของชุดข้อมูล NQ-Open อยู่ในกรณีนี้)
- ในกรณีใช้งานของบริษัท ตัวเลขนี้น่าจะสูงกว่ามาก (เช่น หากเป็นแชตบอตบริการลูกค้า บริบทก็คือประวัติลูกค้าและข้อมูลเกี่ยวกับผลิตภัณฑ์นั้น)
- ความยาวบริบทสำคัญเป็นพิเศษกับ RAG (Retrieval Augmented Generation)
- RAG ทำงานเป็น 2 ขั้นตอน
- การทำชังก์ (การจัดทำดัชนี): รวบรวมเอกสารทั้งหมดที่จะใช้กับ LLM สร้าง embedding แบ่งเป็นชังก์เพื่อนำเข้า LLM และเก็บ embedding ไว้ใน vector DB
- การคิวรี: เมื่อผู้ใช้ส่งคิวรีมา LLM จะแปลงคิวรีเป็น embedding แล้วดึงชังก์ที่คล้ายกับ embedding มากที่สุดจาก vector database
- ยิ่งบริบทยาว ก็ยิ่งใส่ชังก์ได้มาก ถ้าโมเดลเข้าถึงข้อมูลได้มากขึ้น คำตอบก็น่าจะดีขึ้นใช่ไหม?
- ไม่ได้เป็นเช่นนั้นเสมอไป ปริมาณบริบทที่โมเดลใช้กับความมีประสิทธิภาพในการใช้บริบทเป็นคนละคำถามกัน
- นอกจากความพยายามในการเพิ่มความยาวบริบทของโมเดลแล้ว ยังมีความพยายามทำให้บริบทมีประสิทธิภาพขึ้นด้วย
- สิ่งนี้เรียกว่า prompt engineering หรือ prompt construction
- ตัวอย่างเช่น งานวิจัยล่าสุดชี้ว่าโมเดลเข้าใจข้อมูลที่ต้นหรือท้ายบริบทได้ดีกว่าตรงกลาง
การผสานข้อมูลหลายรูปแบบ (Modalities)
- Multimodality ทรงพลังมาก แต่ยังถูกประเมินค่าต่ำเกินไป
- เหตุผลสำคัญ
- มีกรณีใช้งานที่ต้องจัดการข้อมูลหลากหลาย เช่น การแพทย์ หุ่นยนต์ อีคอมเมิร์ซ ค้าปลีก เกม และความบันเทิง
- การพยากรณ์ทางการแพทย์ต้องใช้ทั้งข้อความ (บันทึกแพทย์ แบบสอบถาม) และภาพ (CT, X-Ray, MRI)
- เมทาดาทาของสินค้าอาจมีรูปภาพ วิดีโอ คำอธิบาย และข้อมูลแบบตาราง
- มัลติโหมดจะช่วยยกระดับประสิทธิภาพของโมเดลอย่างมาก
- โมเดลที่เข้าใจทั้งข้อความและภาพให้ประสิทธิภาพดีกว่าโมเดลที่เข้าใจเฉพาะข้อความ
- โมเดลที่อิงข้อความต้องใช้ข้อมูลข้อความมหาศาล จึงมีความกังวลว่าในไม่ช้า ข้อมูลจากอินเทอร์เน็ตที่ใช้ฝึกโมเดลอาจหมดลง
- หากข้อมูลข้อความเริ่มขาดแคลน ก็จำเป็นต้องใช้ข้อมูลรูปแบบอื่น
- สิ่งที่น่าคาดหวังเป็นพิเศษคือ ผู้มีความบกพร่องทางการมองเห็นจะสามารถค้นหาอินเทอร์เน็ตและสำรวจโลกจริงผ่านมัลติโหมดได้
ทำให้ LLM เร็วขึ้นและถูกลง
- ตอนที่ GPT-3.5 ออกมาในเดือนพฤศจิกายน 2022 หลายคนกังวลเรื่อง latency และต้นทุนการใช้งานในโปรดักชัน
- แต่การวิเคราะห์ด้าน latency/ต้นทุนเปลี่ยนไปมากหลังจากนั้น
- ไม่ถึงครึ่งปีต่อมา ชุมชนก็พบวิธีสร้างโมเดลที่ใช้หน่วยความจำเพียง 2% ของ GPT-3.5 แต่มีประสิทธิภาพใกล้เคียงมาก
- แก่นสำคัญคือ ถ้าสร้างของที่ดีพอได้ ผู้คนก็จะหาวิธีทำให้มันเร็วและถูกลงเอง
- เทคนิครุ่นใหญ่ 4 อย่างสำหรับการปรับแต่ง/บีบอัดโมเดลที่เคยสรุปไว้เมื่อ 4 ปีก่อน
- Quantization (การควอนไทซ์): วิธีเพิ่มประสิทธิภาพโมเดลที่พบได้บ่อยที่สุด ลดขนาดโมเดลโดยใช้จำนวนบิตน้อยลงในการแทนพารามิเตอร์ จากเดิม floating point 32 บิต เป็น 16 บิต หรือแม้แต่ 4 บิต
- Knowledge distillation (การกลั่นความรู้): ฝึกโมเดลขนาดเล็ก (นักเรียน) ให้เลียนแบบโมเดลขนาดใหญ่หรือชุดโมเดล (ครู)
- Low-rank factorization (การแยกตัวประกอบอันดับต่ำ): แทนเทนเซอร์มิติสูงด้วยเทนเซอร์มิติต่ำเพื่อลดจำนวนพารามิเตอร์ เช่น แยกเทนเซอร์ 3x3 เป็นผลคูณของเทนเซอร์ 3x1 และ 1x3 ทำให้เหลือพารามิเตอร์ 6 ตัวแทนที่จะเป็น 9 ตัว
- Pruning (การตัดแต่ง)
- ปัจจุบันทั้ง 4 เทคนิคนี้ยังคงเกี่ยวข้องและได้รับความนิยม Alpaca ใช้เทคนิคการกลั่นความรู้ ส่วน QLoRA ใช้การผสมระหว่าง low-rank factorization และ quantization
การออกแบบสถาปัตยกรรมโมเดลใหม่
- ตั้งแต่ AlexNet ในปี 2012 มีสถาปัตยกรรมมากมาย เช่น LSTM, seq2seq ที่เคยดังแล้วก็เลือนหายไป
- เมื่อเทียบกันแล้ว Transformer นั้นเหนียวแน่นมาก เปิดตัวในปี 2017 และน่าคิดว่าจะนิยมไปอีกนานแค่ไหน
- การพัฒนาสถาปัตยกรรมใหม่ที่เหนือกว่า Transformer ไม่ใช่เรื่องง่าย เพราะมันถูกปรับแต่งอย่างหนักมาตลอด 6 ปีที่ผ่านมา
- สถาปัตยกรรมใหม่ต้องแสดงประสิทธิภาพได้ในระดับที่ผู้คนปัจจุบันสนใจ
- เดิมที Transformer ถูกออกแบบให้รันได้เร็วบน TPU และภายหลังก็ถูกปรับให้เหมาะกับ GPU
- ในปี 2021 มีความตื่นเต้นมากในห้องวิจัยของ Chris Ré รอบ ๆ S4
ปัจจุบันก็ยังลงทุนกับสถาปัตยกรรมใหม่อยู่ และล่าสุดได้พัฒนาสถาปัตยกรรม Monarch Mixer ร่วมกับสตาร์ตอัป Together
การพัฒนาทางเลือกแทน GPU
- GPU เป็นฮาร์ดแวร์หลักสำหรับดีปเลิร์นนิงมาตั้งแต่ AlexNet ในปี 2012
- หนึ่งในเหตุผลที่ AlexNet มีชื่อเสียงคือเป็นงานวิจัยชิ้นแรกที่ใช้ GPU ฝึกโครงข่ายประสาทได้สำเร็จ
ก่อนยุค GPU หากต้องการฝึกโมเดลขนาดระดับ AlexNet จำเป็นต้องใช้ CPU หลายพันตัว
เมื่อเทียบกับ CPU หลายพันตัว การมี GPU เพียง 2 ตัวทำให้นักศึกษาปริญญาเอกและนักวิจัยเข้าถึงได้ง่ายกว่ามาก และจุดกระแสการวิจัยดีปเลิร์นนิงอย่างมหาศาล
- ตลอด 10 ปีที่ผ่านมา บริษัทใหญ่ สตาร์ตอัป และอีกหลายบริษัทพยายามสร้างฮาร์ดแวร์ใหม่สำหรับ AI
- ตัวที่โดดเด่นที่สุดคือ TPU ของ Google, IPU ของ Graphcore และ Cerebras
- SambaNova ระดมทุนได้มากกว่า 1 พันล้านดอลลาร์เพื่อพัฒนาชิป AI แบบใหม่ แต่ภายหลัง pivot ไปเป็นแพลตฟอร์ม generative AI
- ช่วงหนึ่งมีความคาดหวังสูงมากต่อ quantum computing และผู้เล่นหลัก ได้แก่
- QPU ของ IBM
- คอมพิวเตอร์ควอนตัมของ Google ประกาศหมุดหมายสำคัญด้านการลดข้อผิดพลาดควอนตัมใน Nature เมื่อต้นปีนี้ และเข้าถึง quantum virtual machine ได้ผ่าน Google Colab
- MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory เป็นต้น
- อีกทิศทางที่น่าสนใจมากคือชิป photonic
- ชิปในปัจจุบันใช้ไฟฟ้าในการเคลื่อนย้ายข้อมูล จึงกินพลังงานมากและทำให้เกิด latency
- ชิปโฟโตนิกใช้โฟตอนในการเคลื่อนย้ายข้อมูล และใช้ประโยชน์จากความเร็วแสงเพื่อการประมวลผลที่เร็วและมีประสิทธิภาพกว่า
- มีสตาร์ตอัปหลายรายในสาขานี้ที่ระดมทุนได้ระดับหลายร้อยล้านดอลลาร์ รวมถึง Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) และ Luminous Computing ($115M)
ทำให้เอเจนต์ใช้งานได้จริง
- เอเจนต์คือ LLM ที่สามารถทำงานอย่างการค้นหาอินเทอร์เน็ต ส่งอีเมล หรือจองนัดหมายได้
- เมื่อเทียบกับทิศทางวิจัยอื่นในบทความนี้ นี่อาจนับว่าเป็นสาขาที่ยังอยู่ช่วงเริ่มต้นที่สุด
- ด้วยความแปลกใหม่และศักยภาพมหาศาล เอเจนต์จึงได้รับความนิยมอย่างคึกคัก
- ตอนนี้ Auto-GPT เป็น repo ที่ได้รับ GitHub Star สูงเป็นอันดับ 25
- GPT-Engineering ก็เป็นอีก repository ยอดนิยม
- แม้จะน่าตื่นเต้น แต่ก็ยังมีข้อกังขาว่า LLM จะเชื่อถือได้และมีประสิทธิภาพพอให้มอบอำนาจในการลงมือกระทำจริงหรือไม่
- สตาร์ตอัปที่น่าจับตาที่สุดในสาขานี้คือ Adept
- ก่อตั้งโดยผู้ร่วมเขียน Transformer 2 คนและอดีต VP ของ OpenAI และระดมทุนได้เกือบ 500 ล้านดอลลาร์แล้วจนถึงตอนนี้
ปรับปรุงการเรียนรู้ผ่าน Human Preference
- RLHF, Reinforcement Learning from Human Preference เป็นแนวคิดที่น่าสนใจ แต่ก็ค่อนข้าง hacky
จึงไม่น่าแปลกใจหากวันหนึ่งผู้คนจะค้นพบวิธีที่ดีกว่าในการฝึก LLM เพราะ RLHF ยังมีคำถามที่ยังไม่คลี่คลาย เช่น
- จะนิยามความชอบของมนุษย์ในเชิงคณิตศาสตร์อย่างไร?
- ปัจจุบันความชอบของมนุษย์ถูกกำหนดผ่านการเปรียบเทียบ
- ผู้ติดป้ายกำกับโดยมนุษย์ตัดสินเพียงว่าคำตอบ A ดีกว่าคำตอบ B หรือไม่ แต่ไม่ได้คำนึงว่าดีกว่ามากน้อยแค่ไหน
- แล้วรสนิยมของมนุษย์ล่ะ?
- Anthropic วัดคุณภาพคำตอบของโมเดลตาม 3 แกน คือ มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย
- DeepMind พยายามสร้างคำตอบที่ทำให้คนส่วนใหญ่พึงพอใจ
- เราต้องการ AI ที่สามารถมีจุดยืนได้ หรือเราต้องการ AI แบบกลาง ๆ ที่หลีกเลี่ยงหัวข้ออ่อนไหวซึ่งอาจก่อให้เกิดข้อถกเถียง?
- เมื่อคำนึงถึงความต่างด้านวัฒนธรรม ศาสนา และแนวคิดทางการเมือง ความชอบของใครจึงจะถือเป็นความชอบแบบ “มนุษย์”?
- ยังมีความยากลำบากมากในการได้ข้อมูลฝึกที่เป็นตัวแทนของผู้ใช้เป้าหมายทั้งหมดอย่างเพียงพอ
ตัวอย่างเช่น ในข้อมูลของ InstructGPT จาก OpenAI ไม่มีผู้ติดป้ายกำกับที่อายุมากกว่า 65 ปี และผู้ติดป้ายกำกับส่วนใหญ่เป็นชาวฟิลิปปินส์และบังกลาเทศ
- ความพยายามที่ขับเคลื่อนโดยชุมชน แม้มีเจตนาดี แต่อาจนำไปสู่ข้อมูลที่มีอคติได้
ตัวอย่างเช่น ในชุดข้อมูล OpenAssistant มีผู้ตอบแบบสอบถาม 201 คนจาก 222 คน (90.5%) ที่ระบุว่าเป็นเพศชาย
การเพิ่มประสิทธิภาพของอินเทอร์เฟซแชต
- หลังจาก ChatGPT มีการถกเถียงกันมากว่าแชตเป็นอินเทอร์เฟซที่เหมาะกับงานหลากหลายประเภทหรือไม่
- นี่ไม่ใช่ประเด็นใหม่ เพราะในเอเชีย แชตถูกใช้เป็นอินเทอร์เฟซของซูเปอร์แอปมาราว 10 ปีแล้ว
- โดยส่วนตัวชอบอินเทอร์เฟซแชตด้วยเหตุผลเหล่านี้
- แชตเป็นอินเทอร์เฟซที่เรียนรู้วิธีใช้งานได้อย่างรวดเร็ว แม้สำหรับคนที่ไม่เคยสัมผัสคอมพิวเตอร์หรืออินเทอร์เน็ตมาก่อน
- อินเทอร์เฟซแชตเข้าถึงได้ หากมือไม่ว่างก็ใช้เสียงแทนข้อความได้
- แชตเป็นอินเทอร์เฟซที่ทรงพลังอย่างไม่น่าเชื่อ ขออะไรก็ได้ และแม้คำตอบจะไม่ดีนัก มันก็ยังให้คำตอบบางอย่างกลับมา
- แต่ก็ยังมีพื้นที่ที่คิดว่าสามารถพัฒนาอินเทอร์เฟซแชตได้อีก
- หลายข้อความต่อหนึ่งเทิร์น
- อินพุตแบบ Multimodal
- การผสาน generative AI เข้ากับเวิร์กโฟลว์
- การแก้ไขและลบข้อความ
การสร้าง LLM สำหรับภาษาที่ไม่ใช่อังกฤษ
- ปัจจุบัน LLM แบบ English-first ยังทำงานได้ไม่ดีนักกับภาษาอื่น ทั้งในด้านประสิทธิภาพ latency และความเร็ว
- ผู้อ่านบางคนในช่วงแรกของบทความนี้บอกว่าไม่คิดว่าควรนับทิศทางนี้รวมอยู่ด้วย
- เพราะมันดูใกล้เคียงปัญหาด้าน logistics มากกว่างานวิจัย กล่าวคือ เรารู้อยู่แล้วว่าต้องทำอย่างไร แค่ต้องทุ่มเงินและแรงเพิ่มเท่านั้น
แต่นั่นไม่เป็นความจริง ภาษาส่วนใหญ่เป็นภาษาที่มีทรัพยากรต่ำ เมื่อเทียบกับภาษาอังกฤษหรือจีนแล้ว มีข้อมูลคุณภาพสูงน้อยกว่ามาก และการฝึกโมเดลขนาดใหญ่สำหรับภาษาเหล่านี้อาจต้องใช้เทคนิคที่ต่างออกไป
- คนที่มองโลกในแง่ร้ายกว่านั้นยังบอกว่า ในอนาคตหลายภาษาอาจหายไป และอินเทอร์เน็ตจะกลายเป็นสองโลกที่ประกอบด้วยภาษาอังกฤษกับภาษาจีนกลาง ใครยังจำ Esperanto ได้บ้าง?
- ผลกระทบของเครื่องมือ AI อย่าง machine translation และแชตบอตต่อการเรียนรู้ภาษายังไม่ชัดเจน
มันจะช่วยให้ผู้คนเรียนภาษาใหม่ได้เร็วขึ้น หรือจะทำให้ความจำเป็นในการเรียนภาษาใหม่หายไปโดยสิ้นเชิง?
1 ความคิดเห็น
ผู้เขียนบทความนี้คือผู้เขียนหนังสือ Designing Machine Learning Systems ที่ตีพิมพ์โดย O'Reilly นะครับ
ฉบับแปลภาษาเกาหลีตีพิมพ์โดย Hanbit Publishing
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220