Jeff Dean: แนวโน้มล่าสุดของแมชชีนเลิร์นนิง [วิดีโอ]

(youtube.com)

25 คะแนน โดย GN⁺ 2024-02-21 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Jeff Dean (Google): เทรนด์ที่น่าสนใจของแมชชีนเลิร์นนิง

แนวโน้มและความคาดหวังที่น่าสนใจของแมชชีนเลิร์นนิง

ในช่วงไม่กี่ปีที่ผ่านมา แมชชีนเลิร์นนิงได้เปลี่ยนความคาดหวังของเราเกี่ยวกับสิ่งที่คอมพิวเตอร์สามารถทำได้อย่างมาก
ในทุกด้าน ไม่ว่าจะเป็นภาษา ภาพ หรือการประมวลผลภาษาธรรมชาติ คอมพิวเตอร์มีความสามารถในการรับรู้และเข้าใจโลกได้ดียิ่งขึ้น
ความก้าวหน้าของเทคโนโลยีที่ทำให้คอมพิวเตอร์ มองเห็น และ รับรู้ ได้ เปิดโอกาสมากมายในแทบทุกกิจกรรมของมนุษย์
การพัฒนาทรัพยากรคอมพิวติ้งขนาดใหญ่ขึ้นและคอมพิวเตอร์เฉพาะทางให้ผลลัพธ์ที่ดีกว่า และ เปิดความเป็นไปได้ใหม่ ๆ
เราต้องการฮาร์ดแวร์ที่หลากหลายมากขึ้น ซึ่งสามารถทำงานได้อย่างมีประสิทธิภาพสูง พร้อมทั้งจำกัดขอบเขตของงานที่ คอมพิวเตอร์ทำได้ ให้แคบลงอย่างมีประสิทธิภาพ

ความก้าวหน้าของการรู้จำเสียง การแปล และการวิเคราะห์ภาพ รวมถึงความแม่นยำในการคาดการณ์ที่ดีขึ้น

เทคโนโลยีรู้จำเสียงมีความก้าวหน้าอย่างมาก โดยเป็นการแปลงคลื่นเสียงให้เป็นคำพูดที่มีความหมายยาว 5 วินาที
เทคโนโลยีการแปลกำลังพัฒนาไปเป็นความสามารถที่ช่วยคอมพิวเตอร์ได้มากในการแปลจากภาษาหนึ่งไปอีกภาษาหนึ่ง
เทคโนโลยีการวิเคราะห์ภาพก้าวหน้าอย่างมากในด้านคอมพิวเตอร์วิทัศน์ โดยไม่เพียงแปลงเป็นชื่อป้ายกำกับ แต่ยังแปลงเป็นประโยคสั้น ๆ ที่อธิบายฉากได้ด้วย
นอกจากนี้ ในช่วงไม่กี่ปีก่อนหน้านี้ ยังสามารถนำเทคโนโลยีเหล่านี้มาใช้ในทางกลับกันได้อีกด้วย
เป็นเรื่องน่าทึ่งที่ในช่วง 10 ปี มีการปรับปรุงประสิทธิภาพจนเหนือกว่าความแม่นยำของมนุษย์

ความสำคัญของการสเกลฮาร์ดแวร์เพื่อยกระดับคุณภาพของโมเดล AI

'Word Error Rate' ซึ่งเป็นเบนช์มาร์กตัวแทนสำหรับวัดความแม่นยำของการรู้จำเสียง ได้รับการปรับปรุงอย่างมากจาก 13.25% เหลือ 2.5%
ส่งผลให้การใช้งานดีขึ้นอย่างมาก และตอนนี้เชื่อถือได้พอสำหรับการตามพิมพ์อีเมลหรือการเขียนตามคำบอก
โดยเฉพาะการสเกลอัปของฮาร์ดแวร์ช่วยยกระดับคุณภาพของโมเดล และด้วยเหตุนี้จึงต้องการฮาร์ดแวร์ที่ปรับให้เหมาะกับแมชชีนเลิร์นนิง
โมเดลโครงข่ายประสาทเทียม (neural network) มีลักษณะที่แม้ใช้ ความละเอียดเชิงตัวเลขที่ลดลง ก็ยังไม่มีปัญหา ซึ่งช่วยให้ฝึกโมเดลได้มีประสิทธิภาพมากขึ้น
อีกทั้ง อัลกอริทึมที่ใช้ฝึกโมเดลประกอบด้วยชุดผสมของการคำนวณพีชคณิตเชิงเส้นหลากหลายแบบ จึงต้องการคอมพิวเตอร์ที่สามารถประมวลผล การคำนวณพีชคณิตเชิงเส้นแบบความละเอียดลดลง ได้อย่างมีประสิทธิภาพ

พัฒนาการของเครือข่ายคอมพิวเตอร์และความหลงใหลต่อโมเดลภาษา

เจเนอเรชันแรกเป็น เครือข่ายที่เรียบง่ายแต่มีแบนด์วิดท์สูง โดยแต่ละชิปเชื่อมต่อกันเป็นกริด 2 มิติ และในกริด 16x6 จะเชื่อมกับชิปเพื่อนบ้าน 4 ตัวด้วยสายสัญญาณ
ทำให้ไม่จำเป็นต้องมีการ routing ในเครือข่าย และเพราะเชื่อมต่อระหว่างชิปในระยะสั้น จึงทำให้ได้ แบนด์วิดท์สูง การเชื่อมต่อราคาถูก
เจเนอเรชันถัดไปขยายเป็น 1024 ชิปใน 8 แร็ก และเจเนอเรชันต่อมาก็ใช้ 64 แร็ก โดยแต่ละแร็กมี 64 ชิป
โดยเฉพาะช่วงหลังมีซีรีส์ V5 ออกมา ซึ่ง โมเดล V5P ที่ใช้ 256 ชิปสำหรับการอนุมานแบบแบ่งส่วน ให้หน่วยความจำต่อชิปมากขึ้น แบนด์วิดท์สูงขึ้น และแบนด์วิดท์หน่วยความจำที่มากขึ้น
โมเดลนี้ให้ประสิทธิภาพเกือบครึ่งเพตะฟลอปต่อชิปที่ 16-bit floating point และในแง่ XOR flops สามารถคำนวณได้ว่าอยู่ที่ประมาณ 9,000 ชิปต่อชิป
หนึ่งในสาขาที่เกิดการเปลี่ยนแปลงมากที่สุดในสิ่งที่คอมพิวเตอร์ทำได้คือ ภาษา เราได้พูดถึงความก้าวหน้าในการรู้จำภาพและเสียงไปแล้ว แต่จริง ๆ แล้วความสนใจในโมเดลภาษามีมาตั้งแต่ก่อนโครงข่าย NN เสียอีก ดังนั้นเราจึงร่วมมือกับทีม Google Translate เพื่อทำวิจัยด้านโมเดลภาษา

สร้างระบบแปลคุณภาพสูงด้วยข้อมูลปริมาณมหาศาลและเทคนิคที่เรียบง่าย

พยายามนำระบบแปลคุณภาพสูงที่พัฒนาขึ้นสำหรับการแข่งขันทางวิทยาศาสตร์ มาใช้ในงานจริง
สร้างระบบที่ทำสถิติความถี่ของลำดับคำ 5 คำจากโทเคน 2 ล้านล้านโทเคน และเก็บ 5-gram ที่ไม่ซ้ำกัน 3 แสนล้านรายการไว้ในหน่วยความจำ
เมื่อหาข้อมูลที่ไม่มีไม่พบ ก็พัฒนาอัลกอริทึมใหม่ชื่อ 'stupid backoff' ที่อ้างอิง 4-gram, 3-gram ก่อนหน้าแทน
ได้บทเรียนว่า เมื่อเทคนิคที่เรียบง่ายผสานกับข้อมูลจำนวนมหาศาล ก็สามารถให้ผลลัพธ์ที่มีประสิทธิภาพได้

แทนคำด้วยเวกเตอร์มิติสูง เพื่อให้คำที่อยู่ในบริบทคล้ายกันอยู่ใกล้กัน และคำต่างบริบทอยู่ห่างกัน

แทนที่จะแทนคำแบบไม่ต่อเนื่อง ก็ใช้ เวกเตอร์มิติสูง แทน เพื่อให้คำที่อยู่ในบริบทคล้ายกันอยู่ใกล้กัน และคำที่อยู่ในบริบทต่างกันอยู่ห่างกัน
ใช้ข้อมูลจำนวนมหาศาลผ่าน กระบวนการเทรน เพื่อให้คำที่ปรากฏในบริบทคล้ายกันเข้าใกล้กัน คำที่ปรากฏในบริบทต่างกันห่างออกไป และจัดกลุ่มคำที่คล้ายกันไว้ในปริภูมิเดียวกัน
การแทนค่าแบบกระจาย เข้ารหัสข้อมูลจำนวนมากไว้ในเวกเตอร์ 100 มิติที่แทนคำ และจากแนวทางนี้ก็ได้มีการพัฒนาโมเดลแปลภาษา 'sequence to sequence learning'
'sequence to sequence learning' ใช้ โครงข่ายประสาทเทียม รับประโยคเข้าทีละประโยค สร้างประโยคขึ้นมา และอัปเดตการแทนค่าแบบกระจายของแต่ละคำเพื่อส่งออกผลการแปล

ใช้โมเดลเพื่อการแปลภาษาธรรมชาติและการสนทนาแบบหลายเทิร์น

ในข้อมูลฝึกจะมีประโยคภาษาอังกฤษและประโยคภาษาฝรั่งเศสที่มีความหมายตรงกันอยู่คู่กัน และใช้ข้อมูลนี้ฝึกโมเดล
สร้างโมเดลที่เริ่มจากประโยคภาษาอังกฤษที่ป้อนเข้าไป แล้วแปลเป็นประโยคภาษาฝรั่งเศส
สำหรับการสนทนาแบบหลายเทิร์น จะฝึกโมเดลให้สร้างคำตอบที่เหมาะสมโดยใช้คอนเท็กซ์ที่ประกอบจากปฏิสัมพันธ์ก่อนหน้า
ใช้โมเดล Transformer เพื่อประมวลผลอินพุตแบบขนาน และโฟกัสในแต่ละส่วนเพื่อปรับปรุงความแม่นยำของการแปล
ปัจจุบัน ด้วยความก้าวหน้าของอัลกอริทึมและฮาร์ดแวร์แมชชีนเลิร์นนิง จึงสามารถฝึกโมเดลขนาดใหญ่ขึ้นและสร้างคำตอบได้อย่างมีประสิทธิภาพยิ่งขึ้น

พัฒนาโมเดลสนทนาแบบมัลติโหมดที่ประมวลผลโมดาลิตีต่าง ๆ ได้โดยไม่ต้องแยก

เขาได้พูดถึงความก้าวหน้าของโมเดลสนทนาแบบโครงข่ายประสาทเทียม เช่น Mina ของ OpenAI, ChatGPT และ Bard ของ Google
ยังกล่าวถึงการเปลี่ยนแปลงของโมเดลภาษา รวมถึงงาน GPT2 ของ OpenAI และ T5 ของ Google โดยโมเดลเหล่านี้มีจำนวนพารามิเตอร์เพิ่มขึ้นอย่างมาก
มีการกล่าวถึงความก้าวหน้าของ Transformer ซึ่งถูกใช้เป็นรากฐานของงานเหล่านี้
เขาได้พูดถึง GPT3, GPT-4 ของ OpenAI และโครงการ Gemini ของ Google เป็นต้น โดยโครงการ Gemini มีเป้าหมายพัฒนาโมเดลที่สามารถประมวลผลได้พร้อมกันทั้งข้อความ ภาพ เสียง และโมดาลิตีอื่น ๆ
โครงการ Gemini ประมวลผลข้อความ ภาพ วิดีโอ และเสียงเป็นซีเควนซ์เดียว และฝึกโมเดลบนพื้นฐานของ Transformer ซึ่งช่วยให้สร้างการแทนค่าที่สอดคล้องกันสำหรับโมดาลิตีหลากหลายประเภทได้

โครงสร้างพื้นฐานการฝึก TensorFlow, ผลิตภัณฑ์ Gemini หลายขนาด และระบบกู้คืนอัตโนมัติ

Gemini ของ TensorFlow มีให้ใน 3 ขนาดคือ Ultra, Pro และ Nano โดยแต่ละโมเดลเหมาะกับการใช้งานหรือสภาพแวดล้อมที่ต่างกัน
Gemini มอบ fabric ที่สเกลได้สูงมากสำหรับการฝึกโมเดล พร้อมเครือข่ายประสิทธิภาพสูงและระบบกู้คืนอัตโนมัติ
เพื่อลด detected failures ให้เหลือน้อยที่สุด มีการอัปเกรดพร้อมกันในสภาพแวดล้อมหลายโหนด กู้คืนสถานะของสำเนาอื่นผ่านเครือข่ายความเร็วสูง และลดเวลา recovery ลงเหลือเพียงไม่กี่วินาที
ใช้ข้อมูลหลากหลายเพื่อฝึกโมเดล ทั้งเอกสารเว็บ หนังสือ โค้ด ภาพ เสียง วิดีโอ และรูปแบบอื่น ๆ
องค์ประกอบสุดท้ายของข้อมูลฝึกโมเดลจะถูกกำหนดผ่านการทดลองกับโมเดลขนาดเล็กและการประเมินผล โดยใช้ตัวชี้วัดหลายแบบเพื่อหาส่วนผสมของข้อมูลที่เหมาะสมที่สุด

คุณภาพของข้อมูลมีความสำคัญและต้องคำนึงถึง คุณภาพข้อมูลสำคัญกว่าสถาปัตยกรรมของโมเดล

ในช่วงท้ายของการฝึก จะเพิ่มข้อมูลหลายภาษาที่เกี่ยวข้องกับโดเมนเข้ามา
ข้อมูลคุณภาพสูงสร้างความแตกต่างอย่างมากต่อประสิทธิภาพของโมเดล
ความสามารถในการเรียนรู้ curriculum โดยอัตโนมัติเป็นหนึ่งในหัวข้อวิจัยแห่งอนาคต
ยังมีงานวิจัยเกี่ยวกับวิธีตั้งคำถามให้โมเดลตอบได้มีประสิทธิภาพยิ่งขึ้น และวิธีดึงข้อดีของโมเดลออกมาให้ได้มากที่สุด
หากใช้เทคนิค chain of thought prompting โมเดลจะพิจารณาหลายขั้นตอนได้มากขึ้นและให้คำตอบที่แม่นยำกว่า

ดูผลการประเมินโมเดลและการวิเคราะห์ประสิทธิภาพ

โมเดลนี้ยกตัวอย่าง กรณีที่นักเรียนได้คำตอบผิด และ ชี้จุดที่ควรแก้ไข
โมเดลได้ประเมินเบนช์มาร์ก 32 สาขาวิชา และโมเดล Gemini Ultra แสดงผลลัพธ์ที่เหนือกว่าประสิทธิภาพที่คาดไว้เดิมใน 30 เบนช์มาร์ก
โมเดลนี้ คำนึงถึงประสิทธิภาพหลายภาษา และพิจารณา trade-off ที่ซับซ้อน
พบว่าโมเดลนี้โดดเด่นด้านความเข้าใจวิดีโอและความสามารถแบบมัลติโหมด และ ทำผลงานได้ยอดเยี่ยม ในหลายเบนช์มาร์ก

Gemini มีประสิทธิภาพด้านการรู้จำเสียงและความสามารถหลายภาษาที่ยอดเยี่ยม และยังใช้เขียนโปรแกรมในฐานะแชตบอตได้ด้วย

โมเดล Gemini แสดงอัตราความผิดพลาดระดับแนวหน้าในเกณฑ์การรู้จำเสียงหลายแบบ และยังมีความสามารถด้านหลายภาษาที่โดดเด่น
ก่อนหน้านี้ทีมได้ทุ่มเทความพยายามอย่างมากในการประเมินโมเดลและทำความเข้าใจความสามารถของมันอย่างละเอียด
น่าประหลาดใจอย่างยิ่งที่ Gemini สามารถให้ทั้งข้อมูลที่เป็นประโยชน์และโค้ดโปรแกรมได้ด้วย
นอกจากนี้ยังอธิบายว่าโมเดลมีความรู้เกี่ยวกับ TPU และมอบประสิทธิภาพรวมถึงการปรับปรุงสมรรถนะที่ยอดเยี่ยม
โมเดล Gemini สามารถมีบุคลิกของแชตบอตได้หลากหลาย โดยในนั้น Bard ทำหน้าที่เป็นเพื่อนที่คอยช่วยเหลือในการตอบคำถาม และเป็นที่รู้กันว่าโมเดลนี้ทำคะแนน ELO ได้สูงบนเว็บไซต์ LMY

การใช้โมเดลปัญญาประดิษฐ์และการฝึกตามโดเมน

มีโมเดลหลากหลายแบบ ทั้งบริการฟรีที่แสดงอันดับต้น ๆ และบริการแบบเสียเงินที่ไม่เป็นเช่นนั้น
Gemini คำนวณ 'จำนวนบริษัทต่อประชากรหนึ่งล้านคน' ของอังกฤษ สหรัฐอเมริกา เกาหลีใต้ ไต้หวัน และสิงคโปร์ แล้วแสดงในรูปแบบตาราง
ตัวเลขของอังกฤษสูงที่สุด และมีการตีความผลโดยเรียงตามลำดับคือ สหรัฐอเมริกา เกาหลีใต้ ไต้หวัน และสิงคโปร์
ข้อมูลแต่ละรายการถูกรวบรวมจากหลายแหล่ง และตัวเลขจริงอาจแตกต่างกันเล็กน้อยตามนิยามที่ใช้
หากฝึกโมเดลปัญญาประดิษฐ์ตามโดเมน ก็จะได้ผลลัพธ์ที่เชี่ยวชาญสำหรับปัญหาเฉพาะด้าน

คำอธิบายอย่างรวดเร็วเกี่ยวกับโมเดลสร้างภาพและวิดีโอ

ในวิดีโอนี้มีการอธิบายสั้น ๆ เกี่ยวกับ โมเดลเชิงกำเนิด ที่สร้างภาพและวิดีโอ
มีโครงการวิจัยที่เกี่ยวข้องอย่าง 'Party' และ 'Imagine' ซึ่งใช้ข้อความนำเข้าเพื่อสร้างภาพเฉพาะเจาะจงในการสร้างโมเดลภาพเชิงภาพ
ตัวอย่างเช่น เมื่อมี ข้อความสั่งให้สร้างภาพใหม่ โมเดลจะตีความและสร้างภาพจริงขึ้นมา
โมเดลเชิงกำเนิดเหล่านี้สร้างภาพจากการบรรยายวัตถุร่วมกับการแทนค่าพิกเซลในรูปแบบข้อความ
ด้วยวิธีนี้ จึงสามารถสร้างภาพตามข้อความที่ต้องการได้

ความก้าวหน้าด้านความสามารถของภาพช่วยมอบความสะดวกให้ผู้ใช้สมาร์ตโฟน

หากฝึกโมเดลวิเคราะห์ภาพหลายตัวด้วยพารามิเตอร์ต่างกัน ผลลัพธ์ก็จะแตกต่างกันไปตามขนาด
ความสามารถของกล้องสมาร์ตโฟนได้รับการพัฒนาให้ดีขึ้นยิ่งขึ้นผ่านการผสานระหว่างการถ่ายภาพเชิงเทคนิคกับแมชชีนเลิร์นนิง
มีฟีเจอร์ต่าง ๆ เช่น โหมดถ่ายภาพ โหมดกลางคืน การเน้นสี การตอบกลับบทสนทนาอัตโนมัติ ซึ่งทำให้การแปลงแบบเรียลไทม์และการดึงข้อความเป็นไปได้
ฟีเจอร์เหล่านี้คำนึงถึงบริบทของผู้ใช้ และมอบการแปลงกับการตอบสนองที่ดูเหมือนไม่มีอยู่จริง
มอบข้อดีที่พลิกโฉมอย่างการส่งภาพคมชัดและการแปลหลายภาษา ในสภาพแวดล้อมที่มีข้อจำกัดด้านการรู้หนังสือ

การประยุกต์ใช้เทคโนโลยีแมชชีนเลิร์นนิงในวัสดุศาสตร์และการแพทย์

ในสาขาวัสดุศาสตร์ มีการใช้แมชชีนเลิร์นนิงและกำลังส่งผลต่อหลายด้าน เช่น การสร้างซิมูเลเตอร์ที่รวดเร็ว
แมชชีนเลิร์นนิงมีศักยภาพสูงในการสำรวจวัสดุที่เป็นไปได้และระบุวัสดุที่มีคุณสมบัติเฉพาะ
ในทางการแพทย์ มีการใช้แมชชีนเลิร์นนิงกับการวินิจฉัยภาพทางการแพทย์เช่นกัน และสามารถตรวจพบภาวะเบาหวานขึ้นจอประสาทตาได้ตั้งแต่ระยะเริ่มต้น
ผ่านการวิเคราะห์ภาพทางการแพทย์ ยังสามารถคัดกรองผู้ป่วยได้แม้ในพื้นที่ที่ขาดแคลนแพทย์ และโมเดล AI ก็อาจมีประสิทธิผลใกล้เคียงผู้เชี่ยวชาญเฉพาะทาง

ขณะที่แมชชีนเลิร์นนิงและคอมพิวเตอร์กำลังเปลี่ยนโลก หลักการว่าด้วยการประยุกต์ใช้และความรับผิดชอบของแมชชีนเลิร์นนิง

ใช้ GPU เพื่อการคัดกรองอย่างรวดเร็ว และทำการวินิจฉัยโรคผิวหนังจากภาพถ่าย
ประกาศหลักการเกี่ยวกับการประยุกต์ใช้แมชชีนเลิร์นนิง เช่น การขจัดอคติที่ไม่เป็นธรรม ความสามารถในการอธิบายโมเดล การคำนึงถึงความเป็นส่วนตัว และประโยชน์ต่อสังคม
ปัจจุบันก็ยังมีการวิจัยเกี่ยวกับอคติ ความเป็นส่วนตัว และความปลอดภัยอย่างต่อเนื่อง
คาดว่าด้วยความก้าวหน้าของแมชชีนเลิร์นนิงและคอมพิวติ้ง จะทำให้เกิดการสนทนาและปฏิสัมพันธ์อย่างเป็นธรรมชาติกับผู้ใช้ และทำให้คอมพิวเตอร์เข้าใจและสร้างข้อมูลได้ในหลากหลายรูปแบบ
พร้อมกับศักยภาพของเทคโนโลยีเหล่านี้ เราจำเป็นต้องมีความรับผิดชอบต่อสังคมด้วย

ผ่านคำถามที่เกิดขึ้น มีการอภิปรายถึงความสำคัญของข้อมูลและความต้องการของลูกค้า

มีการคัดเลือกคำถามบางส่วนที่ส่งเข้ามาผ่าน Slido ซึ่งมีแนวโน้มบางอย่างเพื่อนำมาแบ่งปัน
ในด้านข้อมูล ทั้งข้อมูลคุณภาพสูงและความจุของโมเดลสามารถช่วยยกระดับประสิทธิภาพของโมเดลได้
แต่ก็ต้องคำนึงถึงทั้งคุณภาพของข้อมูลและขนาดของโมเดล ข้อมูลคุณภาพต่ำอาจส่งผลลบต่อความสามารถของโมเดลในการแก้ปัญหาทางคณิตศาสตร์ เป็นต้น
การฝึกด้วยข้อมูลวิดีโอจำนวนมากยังเกิดขึ้นไม่มากพอ และการเข้าใจโลกผ่านข้อมูลภาพและเสียงควบคู่ไปกับข้อมูลภาษา น่าจะแตกต่างจากการเรียนรู้ผ่านภาษาเพียงอย่างเดียว
โดยรวมแล้ว ข้อมูลยังไม่ได้หมดลง และยังมีศักยภาพในการพัฒนาได้อีกมาก

โมเดลมัลติโหมดจะมีประสิทธิภาพดีกว่าโมเดลเป้าหมายสำหรับแต่ละโดเมนหรือไม่?

ในบางกรณี โมเดลมัลติโหมดอาจให้ประสิทธิภาพที่ดีกว่า
ยิ่งเพิ่มโมดาลิตีมากขึ้น ก็มีแนวโน้มที่ประสิทธิภาพของโมดาลิตีอื่นจะดีขึ้นด้วย
หากรวบรวมชุดข้อมูลที่มุ่งเป้าไปยังปัญหาแคบ ๆ ได้ ประสิทธิภาพต่อปัญหานั้นก็อาจสูงขึ้น
แต่หากเป็นปัญหาที่ซับซ้อนหรือยากต่อการเก็บข้อมูลเฉพาะทาง ก็จำเป็นต้องมีโมเดลที่มีความรู้หลากหลาย
ผู้ที่มีทรัพยากรน้อยย่อมฝึกโมเดลขนาดใหญ่ได้ยาก จึงยังมีหัวข้อวิจัยให้สำรวจอีกมากในสาขา machine learning

การวิจัยโมเดลด้วย GPU และการเน้นย้ำความสำคัญของโมดาลิตีข้อมูลที่หลากหลาย

สามารถวิจัยเรื่องต่าง ๆ เช่น การประเมินคุณภาพข้อมูล การประเมินอัตโนมัติ การเรียนรู้หลักสูตรออนไลน์ และวิธีการเพิ่มประสิทธิภาพ โดยใช้ GPU เพียงตัวเดียวหรือ GPU จำนวนเล็กน้อย
งานวิจัย Transformer ดำเนินการบน GPU 8 ตัว และ LLM กับโมเดล sequence-to-sequence ก็ได้รับการวิจัยด้วย GPU 8 ตัวเช่นกัน
มีคำถามเกิดขึ้นว่า LLM และ Transformer คือทุกสิ่งหรือไม่ และบทบาทของการวิจัยโมเดลประเภทอื่นในวงการแมชชีนเลิร์นนิงควรเป็นอย่างไร
มีความกังวลว่าแนวคิดอื่น ๆ อาจถูกกันออกไป เพราะยังไม่ถูกทำให้เป็นรูปธรรมมากพอหรือยังถูกสำรวจน้อยเกินไป จนไม่สามารถสร้างความก้าวหน้าที่น่าจับตาได้
มีการเห็นตรงกันว่าการจัดการกับโมดาลิตีที่หลากหลายเป็นเรื่องสำคัญ และควรคำนึงถึงไม่เพียงภาพ เสียง และภาษาเท่านั้น แต่รวมถึงโมดาลิตีอื่น เช่น ข้อมูลจากเซ็นเซอร์การเต้นของหัวใจในทางการแพทย์ด้วย

3 ความคิดเห็น

everfrost314 2024-02-21

พูดถึง Gemini ไปครึ่งหนึ่งเลยนะ 555

xguru 2024-02-21

เนื้อหาในวิดีโอเป็นสรุปโดย Lilys.AI

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

ขอบคุณครับ.. คุณ xguru ทำไว้เรียบร้อยแล้ว เลยได้เห็นผลลัพธ์ภายใน 1 วินาที... ^^

Jeff Dean: แนวโน้มล่าสุดของแมชชีนเลิร์นนิง [วิดีโอ]

บทความที่เกี่ยวข้อง

3 ความคิดเห็น