30 คะแนน โดย xguru 2023-08-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • รวม 10 โจทย์สำคัญที่ถูกพูดถึงในวงการ LLM พร้อมลิงก์สำหรับศึกษาต่อ

การลดและการวัดอาการหลอน (Hallucination)

  • อุปสรรคใหญ่ที่สุดในการนำ LLM มาใช้ในบริษัทคืออาการหลอน
  • การพัฒนาตัวชี้วัดเพื่อบรรเทาและวัดอาการหลอนเป็นหัวข้อวิจัยยอดนิยมที่สตาร์ตอัปจำนวนมากกำลังมุ่งเน้น
  • เคล็ดลับชั่วคราวในการลดอาการหลอน เช่น เพิ่มบริบทในพรอมป์ต์, Chain-Of-Thought, Self-Consistency, และขอให้โมเดลตอบอย่างกระชับ

การปรับความยาวของบริบทและการจัดองค์ประกอบบริบทให้เหมาะสม

  • คำถามส่วนใหญ่ต้องการบริบท
  • ตามงานวิจัย SituatedQA คำถามจำนวนมากด้านการค้นคืนข้อมูลให้คำตอบต่างกันตามบริบท (16.5% ของชุดข้อมูล NQ-Open อยู่ในกรณีนี้)
  • ในกรณีใช้งานของบริษัท ตัวเลขนี้น่าจะสูงกว่ามาก (เช่น หากเป็นแชตบอตบริการลูกค้า บริบทก็คือประวัติลูกค้าและข้อมูลเกี่ยวกับผลิตภัณฑ์นั้น)
  • ความยาวบริบทสำคัญเป็นพิเศษกับ RAG (Retrieval Augmented Generation)
  • RAG ทำงานเป็น 2 ขั้นตอน
    • การทำชังก์ (การจัดทำดัชนี): รวบรวมเอกสารทั้งหมดที่จะใช้กับ LLM สร้าง embedding แบ่งเป็นชังก์เพื่อนำเข้า LLM และเก็บ embedding ไว้ใน vector DB
    • การคิวรี: เมื่อผู้ใช้ส่งคิวรีมา LLM จะแปลงคิวรีเป็น embedding แล้วดึงชังก์ที่คล้ายกับ embedding มากที่สุดจาก vector database
  • ยิ่งบริบทยาว ก็ยิ่งใส่ชังก์ได้มาก ถ้าโมเดลเข้าถึงข้อมูลได้มากขึ้น คำตอบก็น่าจะดีขึ้นใช่ไหม?
  • ไม่ได้เป็นเช่นนั้นเสมอไป ปริมาณบริบทที่โมเดลใช้กับความมีประสิทธิภาพในการใช้บริบทเป็นคนละคำถามกัน
  • นอกจากความพยายามในการเพิ่มความยาวบริบทของโมเดลแล้ว ยังมีความพยายามทำให้บริบทมีประสิทธิภาพขึ้นด้วย
    • สิ่งนี้เรียกว่า prompt engineering หรือ prompt construction
    • ตัวอย่างเช่น งานวิจัยล่าสุดชี้ว่าโมเดลเข้าใจข้อมูลที่ต้นหรือท้ายบริบทได้ดีกว่าตรงกลาง

การผสานข้อมูลหลายรูปแบบ (Modalities)

  • Multimodality ทรงพลังมาก แต่ยังถูกประเมินค่าต่ำเกินไป
  • เหตุผลสำคัญ
    • มีกรณีใช้งานที่ต้องจัดการข้อมูลหลากหลาย เช่น การแพทย์ หุ่นยนต์ อีคอมเมิร์ซ ค้าปลีก เกม และความบันเทิง
      • การพยากรณ์ทางการแพทย์ต้องใช้ทั้งข้อความ (บันทึกแพทย์ แบบสอบถาม) และภาพ (CT, X-Ray, MRI)
      • เมทาดาทาของสินค้าอาจมีรูปภาพ วิดีโอ คำอธิบาย และข้อมูลแบบตาราง
    • มัลติโหมดจะช่วยยกระดับประสิทธิภาพของโมเดลอย่างมาก
      • โมเดลที่เข้าใจทั้งข้อความและภาพให้ประสิทธิภาพดีกว่าโมเดลที่เข้าใจเฉพาะข้อความ
      • โมเดลที่อิงข้อความต้องใช้ข้อมูลข้อความมหาศาล จึงมีความกังวลว่าในไม่ช้า ข้อมูลจากอินเทอร์เน็ตที่ใช้ฝึกโมเดลอาจหมดลง
      • หากข้อมูลข้อความเริ่มขาดแคลน ก็จำเป็นต้องใช้ข้อมูลรูปแบบอื่น
  • สิ่งที่น่าคาดหวังเป็นพิเศษคือ ผู้มีความบกพร่องทางการมองเห็นจะสามารถค้นหาอินเทอร์เน็ตและสำรวจโลกจริงผ่านมัลติโหมดได้

ทำให้ LLM เร็วขึ้นและถูกลง

  • ตอนที่ GPT-3.5 ออกมาในเดือนพฤศจิกายน 2022 หลายคนกังวลเรื่อง latency และต้นทุนการใช้งานในโปรดักชัน
  • แต่การวิเคราะห์ด้าน latency/ต้นทุนเปลี่ยนไปมากหลังจากนั้น
  • ไม่ถึงครึ่งปีต่อมา ชุมชนก็พบวิธีสร้างโมเดลที่ใช้หน่วยความจำเพียง 2% ของ GPT-3.5 แต่มีประสิทธิภาพใกล้เคียงมาก
  • แก่นสำคัญคือ ถ้าสร้างของที่ดีพอได้ ผู้คนก็จะหาวิธีทำให้มันเร็วและถูกลงเอง
  • เทคนิครุ่นใหญ่ 4 อย่างสำหรับการปรับแต่ง/บีบอัดโมเดลที่เคยสรุปไว้เมื่อ 4 ปีก่อน
    • Quantization (การควอนไทซ์): วิธีเพิ่มประสิทธิภาพโมเดลที่พบได้บ่อยที่สุด ลดขนาดโมเดลโดยใช้จำนวนบิตน้อยลงในการแทนพารามิเตอร์ จากเดิม floating point 32 บิต เป็น 16 บิต หรือแม้แต่ 4 บิต
    • Knowledge distillation (การกลั่นความรู้): ฝึกโมเดลขนาดเล็ก (นักเรียน) ให้เลียนแบบโมเดลขนาดใหญ่หรือชุดโมเดล (ครู)
    • Low-rank factorization (การแยกตัวประกอบอันดับต่ำ): แทนเทนเซอร์มิติสูงด้วยเทนเซอร์มิติต่ำเพื่อลดจำนวนพารามิเตอร์ เช่น แยกเทนเซอร์ 3x3 เป็นผลคูณของเทนเซอร์ 3x1 และ 1x3 ทำให้เหลือพารามิเตอร์ 6 ตัวแทนที่จะเป็น 9 ตัว
    • Pruning (การตัดแต่ง)
  • ปัจจุบันทั้ง 4 เทคนิคนี้ยังคงเกี่ยวข้องและได้รับความนิยม Alpaca ใช้เทคนิคการกลั่นความรู้ ส่วน QLoRA ใช้การผสมระหว่าง low-rank factorization และ quantization

การออกแบบสถาปัตยกรรมโมเดลใหม่

  • ตั้งแต่ AlexNet ในปี 2012 มีสถาปัตยกรรมมากมาย เช่น LSTM, seq2seq ที่เคยดังแล้วก็เลือนหายไป
  • เมื่อเทียบกันแล้ว Transformer นั้นเหนียวแน่นมาก เปิดตัวในปี 2017 และน่าคิดว่าจะนิยมไปอีกนานแค่ไหน
  • การพัฒนาสถาปัตยกรรมใหม่ที่เหนือกว่า Transformer ไม่ใช่เรื่องง่าย เพราะมันถูกปรับแต่งอย่างหนักมาตลอด 6 ปีที่ผ่านมา
  • สถาปัตยกรรมใหม่ต้องแสดงประสิทธิภาพได้ในระดับที่ผู้คนปัจจุบันสนใจ
    • เดิมที Transformer ถูกออกแบบให้รันได้เร็วบน TPU และภายหลังก็ถูกปรับให้เหมาะกับ GPU
  • ในปี 2021 มีความตื่นเต้นมากในห้องวิจัยของ Chris Ré รอบ ๆ S4
    ปัจจุบันก็ยังลงทุนกับสถาปัตยกรรมใหม่อยู่ และล่าสุดได้พัฒนาสถาปัตยกรรม Monarch Mixer ร่วมกับสตาร์ตอัป Together

การพัฒนาทางเลือกแทน GPU

  • GPU เป็นฮาร์ดแวร์หลักสำหรับดีปเลิร์นนิงมาตั้งแต่ AlexNet ในปี 2012
  • หนึ่งในเหตุผลที่ AlexNet มีชื่อเสียงคือเป็นงานวิจัยชิ้นแรกที่ใช้ GPU ฝึกโครงข่ายประสาทได้สำเร็จ
    ก่อนยุค GPU หากต้องการฝึกโมเดลขนาดระดับ AlexNet จำเป็นต้องใช้ CPU หลายพันตัว
    เมื่อเทียบกับ CPU หลายพันตัว การมี GPU เพียง 2 ตัวทำให้นักศึกษาปริญญาเอกและนักวิจัยเข้าถึงได้ง่ายกว่ามาก และจุดกระแสการวิจัยดีปเลิร์นนิงอย่างมหาศาล
  • ตลอด 10 ปีที่ผ่านมา บริษัทใหญ่ สตาร์ตอัป และอีกหลายบริษัทพยายามสร้างฮาร์ดแวร์ใหม่สำหรับ AI
  • ตัวที่โดดเด่นที่สุดคือ TPU ของ Google, IPU ของ Graphcore และ Cerebras
  • SambaNova ระดมทุนได้มากกว่า 1 พันล้านดอลลาร์เพื่อพัฒนาชิป AI แบบใหม่ แต่ภายหลัง pivot ไปเป็นแพลตฟอร์ม generative AI
  • ช่วงหนึ่งมีความคาดหวังสูงมากต่อ quantum computing และผู้เล่นหลัก ได้แก่
    • QPU ของ IBM
    • คอมพิวเตอร์ควอนตัมของ Google ประกาศหมุดหมายสำคัญด้านการลดข้อผิดพลาดควอนตัมใน Nature เมื่อต้นปีนี้ และเข้าถึง quantum virtual machine ได้ผ่าน Google Colab
    • MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory เป็นต้น
  • อีกทิศทางที่น่าสนใจมากคือชิป photonic
    • ชิปในปัจจุบันใช้ไฟฟ้าในการเคลื่อนย้ายข้อมูล จึงกินพลังงานมากและทำให้เกิด latency
    • ชิปโฟโตนิกใช้โฟตอนในการเคลื่อนย้ายข้อมูล และใช้ประโยชน์จากความเร็วแสงเพื่อการประมวลผลที่เร็วและมีประสิทธิภาพกว่า
    • มีสตาร์ตอัปหลายรายในสาขานี้ที่ระดมทุนได้ระดับหลายร้อยล้านดอลลาร์ รวมถึง Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) และ Luminous Computing ($115M)

ทำให้เอเจนต์ใช้งานได้จริง

  • เอเจนต์คือ LLM ที่สามารถทำงานอย่างการค้นหาอินเทอร์เน็ต ส่งอีเมล หรือจองนัดหมายได้
  • เมื่อเทียบกับทิศทางวิจัยอื่นในบทความนี้ นี่อาจนับว่าเป็นสาขาที่ยังอยู่ช่วงเริ่มต้นที่สุด
  • ด้วยความแปลกใหม่และศักยภาพมหาศาล เอเจนต์จึงได้รับความนิยมอย่างคึกคัก
  • ตอนนี้ Auto-GPT เป็น repo ที่ได้รับ GitHub Star สูงเป็นอันดับ 25
  • GPT-Engineering ก็เป็นอีก repository ยอดนิยม
  • แม้จะน่าตื่นเต้น แต่ก็ยังมีข้อกังขาว่า LLM จะเชื่อถือได้และมีประสิทธิภาพพอให้มอบอำนาจในการลงมือกระทำจริงหรือไม่
  • สตาร์ตอัปที่น่าจับตาที่สุดในสาขานี้คือ Adept
    • ก่อตั้งโดยผู้ร่วมเขียน Transformer 2 คนและอดีต VP ของ OpenAI และระดมทุนได้เกือบ 500 ล้านดอลลาร์แล้วจนถึงตอนนี้

ปรับปรุงการเรียนรู้ผ่าน Human Preference

  • RLHF, Reinforcement Learning from Human Preference เป็นแนวคิดที่น่าสนใจ แต่ก็ค่อนข้าง hacky
    จึงไม่น่าแปลกใจหากวันหนึ่งผู้คนจะค้นพบวิธีที่ดีกว่าในการฝึก LLM เพราะ RLHF ยังมีคำถามที่ยังไม่คลี่คลาย เช่น
    • จะนิยามความชอบของมนุษย์ในเชิงคณิตศาสตร์อย่างไร?
      • ปัจจุบันความชอบของมนุษย์ถูกกำหนดผ่านการเปรียบเทียบ
      • ผู้ติดป้ายกำกับโดยมนุษย์ตัดสินเพียงว่าคำตอบ A ดีกว่าคำตอบ B หรือไม่ แต่ไม่ได้คำนึงว่าดีกว่ามากน้อยแค่ไหน
    • แล้วรสนิยมของมนุษย์ล่ะ?
      • Anthropic วัดคุณภาพคำตอบของโมเดลตาม 3 แกน คือ มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย
      • DeepMind พยายามสร้างคำตอบที่ทำให้คนส่วนใหญ่พึงพอใจ
      • เราต้องการ AI ที่สามารถมีจุดยืนได้ หรือเราต้องการ AI แบบกลาง ๆ ที่หลีกเลี่ยงหัวข้ออ่อนไหวซึ่งอาจก่อให้เกิดข้อถกเถียง?
    • เมื่อคำนึงถึงความต่างด้านวัฒนธรรม ศาสนา และแนวคิดทางการเมือง ความชอบของใครจึงจะถือเป็นความชอบแบบ “มนุษย์”?
  • ยังมีความยากลำบากมากในการได้ข้อมูลฝึกที่เป็นตัวแทนของผู้ใช้เป้าหมายทั้งหมดอย่างเพียงพอ
    ตัวอย่างเช่น ในข้อมูลของ InstructGPT จาก OpenAI ไม่มีผู้ติดป้ายกำกับที่อายุมากกว่า 65 ปี และผู้ติดป้ายกำกับส่วนใหญ่เป็นชาวฟิลิปปินส์และบังกลาเทศ
  • ความพยายามที่ขับเคลื่อนโดยชุมชน แม้มีเจตนาดี แต่อาจนำไปสู่ข้อมูลที่มีอคติได้
    ตัวอย่างเช่น ในชุดข้อมูล OpenAssistant มีผู้ตอบแบบสอบถาม 201 คนจาก 222 คน (90.5%) ที่ระบุว่าเป็นเพศชาย

การเพิ่มประสิทธิภาพของอินเทอร์เฟซแชต

  • หลังจาก ChatGPT มีการถกเถียงกันมากว่าแชตเป็นอินเทอร์เฟซที่เหมาะกับงานหลากหลายประเภทหรือไม่
  • นี่ไม่ใช่ประเด็นใหม่ เพราะในเอเชีย แชตถูกใช้เป็นอินเทอร์เฟซของซูเปอร์แอปมาราว 10 ปีแล้ว
  • โดยส่วนตัวชอบอินเทอร์เฟซแชตด้วยเหตุผลเหล่านี้
    • แชตเป็นอินเทอร์เฟซที่เรียนรู้วิธีใช้งานได้อย่างรวดเร็ว แม้สำหรับคนที่ไม่เคยสัมผัสคอมพิวเตอร์หรืออินเทอร์เน็ตมาก่อน
    • อินเทอร์เฟซแชตเข้าถึงได้ หากมือไม่ว่างก็ใช้เสียงแทนข้อความได้
    • แชตเป็นอินเทอร์เฟซที่ทรงพลังอย่างไม่น่าเชื่อ ขออะไรก็ได้ และแม้คำตอบจะไม่ดีนัก มันก็ยังให้คำตอบบางอย่างกลับมา
  • แต่ก็ยังมีพื้นที่ที่คิดว่าสามารถพัฒนาอินเทอร์เฟซแชตได้อีก
    • หลายข้อความต่อหนึ่งเทิร์น
    • อินพุตแบบ Multimodal
    • การผสาน generative AI เข้ากับเวิร์กโฟลว์
    • การแก้ไขและลบข้อความ

การสร้าง LLM สำหรับภาษาที่ไม่ใช่อังกฤษ

  • ปัจจุบัน LLM แบบ English-first ยังทำงานได้ไม่ดีนักกับภาษาอื่น ทั้งในด้านประสิทธิภาพ latency และความเร็ว
  • ผู้อ่านบางคนในช่วงแรกของบทความนี้บอกว่าไม่คิดว่าควรนับทิศทางนี้รวมอยู่ด้วย
    • เพราะมันดูใกล้เคียงปัญหาด้าน logistics มากกว่างานวิจัย กล่าวคือ เรารู้อยู่แล้วว่าต้องทำอย่างไร แค่ต้องทุ่มเงินและแรงเพิ่มเท่านั้น
      แต่นั่นไม่เป็นความจริง ภาษาส่วนใหญ่เป็นภาษาที่มีทรัพยากรต่ำ เมื่อเทียบกับภาษาอังกฤษหรือจีนแล้ว มีข้อมูลคุณภาพสูงน้อยกว่ามาก และการฝึกโมเดลขนาดใหญ่สำหรับภาษาเหล่านี้อาจต้องใช้เทคนิคที่ต่างออกไป
    • คนที่มองโลกในแง่ร้ายกว่านั้นยังบอกว่า ในอนาคตหลายภาษาอาจหายไป และอินเทอร์เน็ตจะกลายเป็นสองโลกที่ประกอบด้วยภาษาอังกฤษกับภาษาจีนกลาง ใครยังจำ Esperanto ได้บ้าง?
  • ผลกระทบของเครื่องมือ AI อย่าง machine translation และแชตบอตต่อการเรียนรู้ภาษายังไม่ชัดเจน
    มันจะช่วยให้ผู้คนเรียนภาษาใหม่ได้เร็วขึ้น หรือจะทำให้ความจำเป็นในการเรียนภาษาใหม่หายไปโดยสิ้นเชิง?

1 ความคิดเห็น

 
joone 2023-08-31

ผู้เขียนบทความนี้คือผู้เขียนหนังสือ Designing Machine Learning Systems ที่ตีพิมพ์โดย O'Reilly นะครับ
ฉบับแปลภาษาเกาหลีตีพิมพ์โดย Hanbit Publishing
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220