Jeff Dean: แนวโน้มล่าสุดของแมชชีนเลิร์นนิง [วิดีโอ]
(youtube.com)Jeff Dean (Google): เทรนด์ที่น่าสนใจของแมชชีนเลิร์นนิง
- แนวโน้มและความคาดหวังที่น่าสนใจของแมชชีนเลิร์นนิง
- ในช่วงไม่กี่ปีที่ผ่านมา แมชชีนเลิร์นนิงได้เปลี่ยนความคาดหวังของเราเกี่ยวกับสิ่งที่คอมพิวเตอร์สามารถทำได้อย่างมาก
- ในทุกด้าน ไม่ว่าจะเป็นภาษา ภาพ หรือการประมวลผลภาษาธรรมชาติ คอมพิวเตอร์มีความสามารถในการรับรู้และเข้าใจโลกได้ดียิ่งขึ้น
- ความก้าวหน้าของเทคโนโลยีที่ทำให้คอมพิวเตอร์ มองเห็น และ รับรู้ ได้ เปิดโอกาสมากมายในแทบทุกกิจกรรมของมนุษย์
- การพัฒนาทรัพยากรคอมพิวติ้งขนาดใหญ่ขึ้นและคอมพิวเตอร์เฉพาะทางให้ผลลัพธ์ที่ดีกว่า และ เปิดความเป็นไปได้ใหม่ ๆ
- เราต้องการฮาร์ดแวร์ที่หลากหลายมากขึ้น ซึ่งสามารถทำงานได้อย่างมีประสิทธิภาพสูง พร้อมทั้งจำกัดขอบเขตของงานที่ คอมพิวเตอร์ทำได้ ให้แคบลงอย่างมีประสิทธิภาพ
- ความก้าวหน้าของการรู้จำเสียง การแปล และการวิเคราะห์ภาพ รวมถึงความแม่นยำในการคาดการณ์ที่ดีขึ้น
- เทคโนโลยีรู้จำเสียงมีความก้าวหน้าอย่างมาก โดยเป็นการแปลงคลื่นเสียงให้เป็นคำพูดที่มีความหมายยาว 5 วินาที
- เทคโนโลยีการแปลกำลังพัฒนาไปเป็นความสามารถที่ช่วยคอมพิวเตอร์ได้มากในการแปลจากภาษาหนึ่งไปอีกภาษาหนึ่ง
- เทคโนโลยีการวิเคราะห์ภาพก้าวหน้าอย่างมากในด้านคอมพิวเตอร์วิทัศน์ โดยไม่เพียงแปลงเป็นชื่อป้ายกำกับ แต่ยังแปลงเป็นประโยคสั้น ๆ ที่อธิบายฉากได้ด้วย
- นอกจากนี้ ในช่วงไม่กี่ปีก่อนหน้านี้ ยังสามารถนำเทคโนโลยีเหล่านี้มาใช้ในทางกลับกันได้อีกด้วย
- เป็นเรื่องน่าทึ่งที่ในช่วง 10 ปี มีการปรับปรุงประสิทธิภาพจนเหนือกว่าความแม่นยำของมนุษย์
- ความสำคัญของการสเกลฮาร์ดแวร์เพื่อยกระดับคุณภาพของโมเดล AI
- 'Word Error Rate' ซึ่งเป็นเบนช์มาร์กตัวแทนสำหรับวัดความแม่นยำของการรู้จำเสียง ได้รับการปรับปรุงอย่างมากจาก 13.25% เหลือ 2.5%
- ส่งผลให้การใช้งานดีขึ้นอย่างมาก และตอนนี้เชื่อถือได้พอสำหรับการตามพิมพ์อีเมลหรือการเขียนตามคำบอก
- โดยเฉพาะการสเกลอัปของฮาร์ดแวร์ช่วยยกระดับคุณภาพของโมเดล และด้วยเหตุนี้จึงต้องการฮาร์ดแวร์ที่ปรับให้เหมาะกับแมชชีนเลิร์นนิง
- โมเดลโครงข่ายประสาทเทียม (neural network) มีลักษณะที่แม้ใช้ ความละเอียดเชิงตัวเลขที่ลดลง ก็ยังไม่มีปัญหา ซึ่งช่วยให้ฝึกโมเดลได้มีประสิทธิภาพมากขึ้น
- อีกทั้ง อัลกอริทึมที่ใช้ฝึกโมเดลประกอบด้วยชุดผสมของการคำนวณพีชคณิตเชิงเส้นหลากหลายแบบ จึงต้องการคอมพิวเตอร์ที่สามารถประมวลผล การคำนวณพีชคณิตเชิงเส้นแบบความละเอียดลดลง ได้อย่างมีประสิทธิภาพ
- พัฒนาการของเครือข่ายคอมพิวเตอร์และความหลงใหลต่อโมเดลภาษา
- เจเนอเรชันแรกเป็น เครือข่ายที่เรียบง่ายแต่มีแบนด์วิดท์สูง โดยแต่ละชิปเชื่อมต่อกันเป็นกริด 2 มิติ และในกริด 16x6 จะเชื่อมกับชิปเพื่อนบ้าน 4 ตัวด้วยสายสัญญาณ
- ทำให้ไม่จำเป็นต้องมีการ routing ในเครือข่าย และเพราะเชื่อมต่อระหว่างชิปในระยะสั้น จึงทำให้ได้ แบนด์วิดท์สูง การเชื่อมต่อราคาถูก
- เจเนอเรชันถัดไปขยายเป็น 1024 ชิปใน 8 แร็ก และเจเนอเรชันต่อมาก็ใช้ 64 แร็ก โดยแต่ละแร็กมี 64 ชิป
- โดยเฉพาะช่วงหลังมีซีรีส์ V5 ออกมา ซึ่ง โมเดล V5P ที่ใช้ 256 ชิปสำหรับการอนุมานแบบแบ่งส่วน ให้หน่วยความจำต่อชิปมากขึ้น แบนด์วิดท์สูงขึ้น และแบนด์วิดท์หน่วยความจำที่มากขึ้น
- โมเดลนี้ให้ประสิทธิภาพเกือบครึ่งเพตะฟลอปต่อชิปที่ 16-bit floating point และในแง่ XOR flops สามารถคำนวณได้ว่าอยู่ที่ประมาณ 9,000 ชิปต่อชิป
- หนึ่งในสาขาที่เกิดการเปลี่ยนแปลงมากที่สุดในสิ่งที่คอมพิวเตอร์ทำได้คือ ภาษา เราได้พูดถึงความก้าวหน้าในการรู้จำภาพและเสียงไปแล้ว แต่จริง ๆ แล้วความสนใจในโมเดลภาษามีมาตั้งแต่ก่อนโครงข่าย NN เสียอีก ดังนั้นเราจึงร่วมมือกับทีม Google Translate เพื่อทำวิจัยด้านโมเดลภาษา
- สร้างระบบแปลคุณภาพสูงด้วยข้อมูลปริมาณมหาศาลและเทคนิคที่เรียบง่าย
- พยายามนำระบบแปลคุณภาพสูงที่พัฒนาขึ้นสำหรับการแข่งขันทางวิทยาศาสตร์ มาใช้ในงานจริง
- สร้างระบบที่ทำสถิติความถี่ของลำดับคำ 5 คำจากโทเคน 2 ล้านล้านโทเคน และเก็บ 5-gram ที่ไม่ซ้ำกัน 3 แสนล้านรายการไว้ในหน่วยความจำ
- เมื่อหาข้อมูลที่ไม่มีไม่พบ ก็พัฒนาอัลกอริทึมใหม่ชื่อ 'stupid backoff' ที่อ้างอิง 4-gram, 3-gram ก่อนหน้าแทน
- ได้บทเรียนว่า เมื่อเทคนิคที่เรียบง่ายผสานกับข้อมูลจำนวนมหาศาล ก็สามารถให้ผลลัพธ์ที่มีประสิทธิภาพได้
- แทนคำด้วยเวกเตอร์มิติสูง เพื่อให้คำที่อยู่ในบริบทคล้ายกันอยู่ใกล้กัน และคำต่างบริบทอยู่ห่างกัน
- แทนที่จะแทนคำแบบไม่ต่อเนื่อง ก็ใช้ เวกเตอร์มิติสูง แทน เพื่อให้คำที่อยู่ในบริบทคล้ายกันอยู่ใกล้กัน และคำที่อยู่ในบริบทต่างกันอยู่ห่างกัน
- ใช้ข้อมูลจำนวนมหาศาลผ่าน กระบวนการเทรน เพื่อให้คำที่ปรากฏในบริบทคล้ายกันเข้าใกล้กัน คำที่ปรากฏในบริบทต่างกันห่างออกไป และจัดกลุ่มคำที่คล้ายกันไว้ในปริภูมิเดียวกัน
- การแทนค่าแบบกระจาย เข้ารหัสข้อมูลจำนวนมากไว้ในเวกเตอร์ 100 มิติที่แทนคำ และจากแนวทางนี้ก็ได้มีการพัฒนาโมเดลแปลภาษา 'sequence to sequence learning'
- 'sequence to sequence learning' ใช้ โครงข่ายประสาทเทียม รับประโยคเข้าทีละประโยค สร้างประโยคขึ้นมา และอัปเดตการแทนค่าแบบกระจายของแต่ละคำเพื่อส่งออกผลการแปล
- ใช้โมเดลเพื่อการแปลภาษาธรรมชาติและการสนทนาแบบหลายเทิร์น
- ในข้อมูลฝึกจะมีประโยคภาษาอังกฤษและประโยคภาษาฝรั่งเศสที่มีความหมายตรงกันอยู่คู่กัน และใช้ข้อมูลนี้ฝึกโมเดล
- สร้างโมเดลที่เริ่มจากประโยคภาษาอังกฤษที่ป้อนเข้าไป แล้วแปลเป็นประโยคภาษาฝรั่งเศส
- สำหรับการสนทนาแบบหลายเทิร์น จะฝึกโมเดลให้สร้างคำตอบที่เหมาะสมโดยใช้คอนเท็กซ์ที่ประกอบจากปฏิสัมพันธ์ก่อนหน้า
- ใช้โมเดล Transformer เพื่อประมวลผลอินพุตแบบขนาน และโฟกัสในแต่ละส่วนเพื่อปรับปรุงความแม่นยำของการแปล
- ปัจจุบัน ด้วยความก้าวหน้าของอัลกอริทึมและฮาร์ดแวร์แมชชีนเลิร์นนิง จึงสามารถฝึกโมเดลขนาดใหญ่ขึ้นและสร้างคำตอบได้อย่างมีประสิทธิภาพยิ่งขึ้น
- พัฒนาโมเดลสนทนาแบบมัลติโหมดที่ประมวลผลโมดาลิตีต่าง ๆ ได้โดยไม่ต้องแยก
- เขาได้พูดถึงความก้าวหน้าของโมเดลสนทนาแบบโครงข่ายประสาทเทียม เช่น Mina ของ OpenAI, ChatGPT และ Bard ของ Google
- ยังกล่าวถึงการเปลี่ยนแปลงของโมเดลภาษา รวมถึงงาน GPT2 ของ OpenAI และ T5 ของ Google โดยโมเดลเหล่านี้มีจำนวนพารามิเตอร์เพิ่มขึ้นอย่างมาก
- มีการกล่าวถึงความก้าวหน้าของ Transformer ซึ่งถูกใช้เป็นรากฐานของงานเหล่านี้
- เขาได้พูดถึง GPT3, GPT-4 ของ OpenAI และโครงการ Gemini ของ Google เป็นต้น โดยโครงการ Gemini มีเป้าหมายพัฒนาโมเดลที่สามารถประมวลผลได้พร้อมกันทั้งข้อความ ภาพ เสียง และโมดาลิตีอื่น ๆ
- โครงการ Gemini ประมวลผลข้อความ ภาพ วิดีโอ และเสียงเป็นซีเควนซ์เดียว และฝึกโมเดลบนพื้นฐานของ Transformer ซึ่งช่วยให้สร้างการแทนค่าที่สอดคล้องกันสำหรับโมดาลิตีหลากหลายประเภทได้
- โครงสร้างพื้นฐานการฝึก TensorFlow, ผลิตภัณฑ์ Gemini หลายขนาด และระบบกู้คืนอัตโนมัติ
- Gemini ของ TensorFlow มีให้ใน 3 ขนาดคือ Ultra, Pro และ Nano โดยแต่ละโมเดลเหมาะกับการใช้งานหรือสภาพแวดล้อมที่ต่างกัน
- Gemini มอบ fabric ที่สเกลได้สูงมากสำหรับการฝึกโมเดล พร้อมเครือข่ายประสิทธิภาพสูงและระบบกู้คืนอัตโนมัติ
- เพื่อลด detected failures ให้เหลือน้อยที่สุด มีการอัปเกรดพร้อมกันในสภาพแวดล้อมหลายโหนด กู้คืนสถานะของสำเนาอื่นผ่านเครือข่ายความเร็วสูง และลดเวลา recovery ลงเหลือเพียงไม่กี่วินาที
- ใช้ข้อมูลหลากหลายเพื่อฝึกโมเดล ทั้งเอกสารเว็บ หนังสือ โค้ด ภาพ เสียง วิดีโอ และรูปแบบอื่น ๆ
- องค์ประกอบสุดท้ายของข้อมูลฝึกโมเดลจะถูกกำหนดผ่านการทดลองกับโมเดลขนาดเล็กและการประเมินผล โดยใช้ตัวชี้วัดหลายแบบเพื่อหาส่วนผสมของข้อมูลที่เหมาะสมที่สุด
- คุณภาพของข้อมูลมีความสำคัญและต้องคำนึงถึง คุณภาพข้อมูลสำคัญกว่าสถาปัตยกรรมของโมเดล
- ในช่วงท้ายของการฝึก จะเพิ่มข้อมูลหลายภาษาที่เกี่ยวข้องกับโดเมนเข้ามา
- ข้อมูลคุณภาพสูงสร้างความแตกต่างอย่างมากต่อประสิทธิภาพของโมเดล
- ความสามารถในการเรียนรู้ curriculum โดยอัตโนมัติเป็นหนึ่งในหัวข้อวิจัยแห่งอนาคต
- ยังมีงานวิจัยเกี่ยวกับวิธีตั้งคำถามให้โมเดลตอบได้มีประสิทธิภาพยิ่งขึ้น และวิธีดึงข้อดีของโมเดลออกมาให้ได้มากที่สุด
- หากใช้เทคนิค chain of thought prompting โมเดลจะพิจารณาหลายขั้นตอนได้มากขึ้นและให้คำตอบที่แม่นยำกว่า
- ดูผลการประเมินโมเดลและการวิเคราะห์ประสิทธิภาพ
- โมเดลนี้ยกตัวอย่าง กรณีที่นักเรียนได้คำตอบผิด และ ชี้จุดที่ควรแก้ไข
- โมเดลได้ประเมินเบนช์มาร์ก 32 สาขาวิชา และโมเดล Gemini Ultra แสดงผลลัพธ์ที่เหนือกว่าประสิทธิภาพที่คาดไว้เดิมใน 30 เบนช์มาร์ก
- โมเดลนี้ คำนึงถึงประสิทธิภาพหลายภาษา และพิจารณา trade-off ที่ซับซ้อน
- พบว่าโมเดลนี้โดดเด่นด้านความเข้าใจวิดีโอและความสามารถแบบมัลติโหมด และ ทำผลงานได้ยอดเยี่ยม ในหลายเบนช์มาร์ก
- Gemini มีประสิทธิภาพด้านการรู้จำเสียงและความสามารถหลายภาษาที่ยอดเยี่ยม และยังใช้เขียนโปรแกรมในฐานะแชตบอตได้ด้วย
- โมเดล Gemini แสดงอัตราความผิดพลาดระดับแนวหน้าในเกณฑ์การรู้จำเสียงหลายแบบ และยังมีความสามารถด้านหลายภาษาที่โดดเด่น
- ก่อนหน้านี้ทีมได้ทุ่มเทความพยายามอย่างมากในการประเมินโมเดลและทำความเข้าใจความสามารถของมันอย่างละเอียด
- น่าประหลาดใจอย่างยิ่งที่ Gemini สามารถให้ทั้งข้อมูลที่เป็นประโยชน์และโค้ดโปรแกรมได้ด้วย
- นอกจากนี้ยังอธิบายว่าโมเดลมีความรู้เกี่ยวกับ TPU และมอบประสิทธิภาพรวมถึงการปรับปรุงสมรรถนะที่ยอดเยี่ยม
- โมเดล Gemini สามารถมีบุคลิกของแชตบอตได้หลากหลาย โดยในนั้น Bard ทำหน้าที่เป็นเพื่อนที่คอยช่วยเหลือในการตอบคำถาม และเป็นที่รู้กันว่าโมเดลนี้ทำคะแนน ELO ได้สูงบนเว็บไซต์ LMY
- การใช้โมเดลปัญญาประดิษฐ์และการฝึกตามโดเมน
- มีโมเดลหลากหลายแบบ ทั้งบริการฟรีที่แสดงอันดับต้น ๆ และบริการแบบเสียเงินที่ไม่เป็นเช่นนั้น
- Gemini คำนวณ 'จำนวนบริษัทต่อประชากรหนึ่งล้านคน' ของอังกฤษ สหรัฐอเมริกา เกาหลีใต้ ไต้หวัน และสิงคโปร์ แล้วแสดงในรูปแบบตาราง
- ตัวเลขของอังกฤษสูงที่สุด และมีการตีความผลโดยเรียงตามลำดับคือ สหรัฐอเมริกา เกาหลีใต้ ไต้หวัน และสิงคโปร์
- ข้อมูลแต่ละรายการถูกรวบรวมจากหลายแหล่ง และตัวเลขจริงอาจแตกต่างกันเล็กน้อยตามนิยามที่ใช้
- หากฝึกโมเดลปัญญาประดิษฐ์ตามโดเมน ก็จะได้ผลลัพธ์ที่เชี่ยวชาญสำหรับปัญหาเฉพาะด้าน
- คำอธิบายอย่างรวดเร็วเกี่ยวกับโมเดลสร้างภาพและวิดีโอ
- ในวิดีโอนี้มีการอธิบายสั้น ๆ เกี่ยวกับ โมเดลเชิงกำเนิด ที่สร้างภาพและวิดีโอ
- มีโครงการวิจัยที่เกี่ยวข้องอย่าง 'Party' และ 'Imagine' ซึ่งใช้ข้อความนำเข้าเพื่อสร้างภาพเฉพาะเจาะจงในการสร้างโมเดลภาพเชิงภาพ
- ตัวอย่างเช่น เมื่อมี ข้อความสั่งให้สร้างภาพใหม่ โมเดลจะตีความและสร้างภาพจริงขึ้นมา
- โมเดลเชิงกำเนิดเหล่านี้สร้างภาพจากการบรรยายวัตถุร่วมกับการแทนค่าพิกเซลในรูปแบบข้อความ
- ด้วยวิธีนี้ จึงสามารถสร้างภาพตามข้อความที่ต้องการได้
- ความก้าวหน้าด้านความสามารถของภาพช่วยมอบความสะดวกให้ผู้ใช้สมาร์ตโฟน
- หากฝึกโมเดลวิเคราะห์ภาพหลายตัวด้วยพารามิเตอร์ต่างกัน ผลลัพธ์ก็จะแตกต่างกันไปตามขนาด
- ความสามารถของกล้องสมาร์ตโฟนได้รับการพัฒนาให้ดีขึ้นยิ่งขึ้นผ่านการผสานระหว่างการถ่ายภาพเชิงเทคนิคกับแมชชีนเลิร์นนิง
- มีฟีเจอร์ต่าง ๆ เช่น โหมดถ่ายภาพ โหมดกลางคืน การเน้นสี การตอบกลับบทสนทนาอัตโนมัติ ซึ่งทำให้การแปลงแบบเรียลไทม์และการดึงข้อความเป็นไปได้
- ฟีเจอร์เหล่านี้คำนึงถึงบริบทของผู้ใช้ และมอบการแปลงกับการตอบสนองที่ดูเหมือนไม่มีอยู่จริง
- มอบข้อดีที่พลิกโฉมอย่างการส่งภาพคมชัดและการแปลหลายภาษา ในสภาพแวดล้อมที่มีข้อจำกัดด้านการรู้หนังสือ
- การประยุกต์ใช้เทคโนโลยีแมชชีนเลิร์นนิงในวัสดุศาสตร์และการแพทย์
- ในสาขาวัสดุศาสตร์ มีการใช้แมชชีนเลิร์นนิงและกำลังส่งผลต่อหลายด้าน เช่น การสร้างซิมูเลเตอร์ที่รวดเร็ว
- แมชชีนเลิร์นนิงมีศักยภาพสูงในการสำรวจวัสดุที่เป็นไปได้และระบุวัสดุที่มีคุณสมบัติเฉพาะ
- ในทางการแพทย์ มีการใช้แมชชีนเลิร์นนิงกับการวินิจฉัยภาพทางการแพทย์เช่นกัน และสามารถตรวจพบภาวะเบาหวานขึ้นจอประสาทตาได้ตั้งแต่ระยะเริ่มต้น
- ผ่านการวิเคราะห์ภาพทางการแพทย์ ยังสามารถคัดกรองผู้ป่วยได้แม้ในพื้นที่ที่ขาดแคลนแพทย์ และโมเดล AI ก็อาจมีประสิทธิผลใกล้เคียงผู้เชี่ยวชาญเฉพาะทาง
- ขณะที่แมชชีนเลิร์นนิงและคอมพิวเตอร์กำลังเปลี่ยนโลก หลักการว่าด้วยการประยุกต์ใช้และความรับผิดชอบของแมชชีนเลิร์นนิง
- ใช้ GPU เพื่อการคัดกรองอย่างรวดเร็ว และทำการวินิจฉัยโรคผิวหนังจากภาพถ่าย
- ประกาศหลักการเกี่ยวกับการประยุกต์ใช้แมชชีนเลิร์นนิง เช่น การขจัดอคติที่ไม่เป็นธรรม ความสามารถในการอธิบายโมเดล การคำนึงถึงความเป็นส่วนตัว และประโยชน์ต่อสังคม
- ปัจจุบันก็ยังมีการวิจัยเกี่ยวกับอคติ ความเป็นส่วนตัว และความปลอดภัยอย่างต่อเนื่อง
- คาดว่าด้วยความก้าวหน้าของแมชชีนเลิร์นนิงและคอมพิวติ้ง จะทำให้เกิดการสนทนาและปฏิสัมพันธ์อย่างเป็นธรรมชาติกับผู้ใช้ และทำให้คอมพิวเตอร์เข้าใจและสร้างข้อมูลได้ในหลากหลายรูปแบบ
- พร้อมกับศักยภาพของเทคโนโลยีเหล่านี้ เราจำเป็นต้องมีความรับผิดชอบต่อสังคมด้วย
- ผ่านคำถามที่เกิดขึ้น มีการอภิปรายถึงความสำคัญของข้อมูลและความต้องการของลูกค้า
- มีการคัดเลือกคำถามบางส่วนที่ส่งเข้ามาผ่าน Slido ซึ่งมีแนวโน้มบางอย่างเพื่อนำมาแบ่งปัน
- ในด้านข้อมูล ทั้งข้อมูลคุณภาพสูงและความจุของโมเดลสามารถช่วยยกระดับประสิทธิภาพของโมเดลได้
- แต่ก็ต้องคำนึงถึงทั้งคุณภาพของข้อมูลและขนาดของโมเดล ข้อมูลคุณภาพต่ำอาจส่งผลลบต่อความสามารถของโมเดลในการแก้ปัญหาทางคณิตศาสตร์ เป็นต้น
- การฝึกด้วยข้อมูลวิดีโอจำนวนมากยังเกิดขึ้นไม่มากพอ และการเข้าใจโลกผ่านข้อมูลภาพและเสียงควบคู่ไปกับข้อมูลภาษา น่าจะแตกต่างจากการเรียนรู้ผ่านภาษาเพียงอย่างเดียว
- โดยรวมแล้ว ข้อมูลยังไม่ได้หมดลง และยังมีศักยภาพในการพัฒนาได้อีกมาก
- โมเดลมัลติโหมดจะมีประสิทธิภาพดีกว่าโมเดลเป้าหมายสำหรับแต่ละโดเมนหรือไม่?
- ในบางกรณี โมเดลมัลติโหมดอาจให้ประสิทธิภาพที่ดีกว่า
- ยิ่งเพิ่มโมดาลิตีมากขึ้น ก็มีแนวโน้มที่ประสิทธิภาพของโมดาลิตีอื่นจะดีขึ้นด้วย
- หากรวบรวมชุดข้อมูลที่มุ่งเป้าไปยังปัญหาแคบ ๆ ได้ ประสิทธิภาพต่อปัญหานั้นก็อาจสูงขึ้น
- แต่หากเป็นปัญหาที่ซับซ้อนหรือยากต่อการเก็บข้อมูลเฉพาะทาง ก็จำเป็นต้องมีโมเดลที่มีความรู้หลากหลาย
- ผู้ที่มีทรัพยากรน้อยย่อมฝึกโมเดลขนาดใหญ่ได้ยาก จึงยังมีหัวข้อวิจัยให้สำรวจอีกมากในสาขา machine learning
- การวิจัยโมเดลด้วย GPU และการเน้นย้ำความสำคัญของโมดาลิตีข้อมูลที่หลากหลาย
- สามารถวิจัยเรื่องต่าง ๆ เช่น การประเมินคุณภาพข้อมูล การประเมินอัตโนมัติ การเรียนรู้หลักสูตรออนไลน์ และวิธีการเพิ่มประสิทธิภาพ โดยใช้ GPU เพียงตัวเดียวหรือ GPU จำนวนเล็กน้อย
- งานวิจัย Transformer ดำเนินการบน GPU 8 ตัว และ LLM กับโมเดล sequence-to-sequence ก็ได้รับการวิจัยด้วย GPU 8 ตัวเช่นกัน
- มีคำถามเกิดขึ้นว่า LLM และ Transformer คือทุกสิ่งหรือไม่ และบทบาทของการวิจัยโมเดลประเภทอื่นในวงการแมชชีนเลิร์นนิงควรเป็นอย่างไร
- มีความกังวลว่าแนวคิดอื่น ๆ อาจถูกกันออกไป เพราะยังไม่ถูกทำให้เป็นรูปธรรมมากพอหรือยังถูกสำรวจน้อยเกินไป จนไม่สามารถสร้างความก้าวหน้าที่น่าจับตาได้
- มีการเห็นตรงกันว่าการจัดการกับโมดาลิตีที่หลากหลายเป็นเรื่องสำคัญ และควรคำนึงถึงไม่เพียงภาพ เสียง และภาษาเท่านั้น แต่รวมถึงโมดาลิตีอื่น เช่น ข้อมูลจากเซ็นเซอร์การเต้นของหัวใจในทางการแพทย์ด้วย
3 ความคิดเห็น
พูดถึง Gemini ไปครึ่งหนึ่งเลยนะ 555
เนื้อหาในวิดีโอเป็นสรุปโดย Lilys.AI
https://lilys.ai/digest/297050/…
ขอบคุณครับ.. คุณ xguru ทำไว้เรียบร้อยแล้ว เลยได้เห็นผลลัพธ์ภายใน 1 วินาที... ^^