ช่วงเวลาแบบ Stable Diffusion กำลังมาถึง LLM

xguru · 2023-03-13T11:40:39+09:00

การเปิดตัว Stable Diffuion (SD) ในเดือนสิงหาคม 2022 เป็นช่วงเวลาสำคัญ และได้จุดชนวนให้นวัตกรรมระเบิดขึ้นอย่างต่อเนื่องมาจนถึงตอนนี้ ช่วงหลังมานี้ ControlNet ก้าวล้ำหน้า MidJourney และ DALL-E ในด้านความสามารถไปแล้ว การเปิดตัว SD ได้สร้างความสนใจรอบใหม่ต่อ generative AI และคลื่นนั้นก็ยิ่งรุนแรงขึ้นจากการเปิดตัว ChatGPT ในเดือนพฤศจิกายน ช่วงเวลาแบบ SD กำลังมาถึงโมเดลภาษาขนาดใหญ่ (LLM) เช่นกัน ตอนนี้สามารถรันโมเดลภาษาระดับ GPT-3 บนโน้ตบุ๊กส่วนตัวได้แล้ว LLaMA LLM อย่าง GPT-3 มีต้นทุนในการสร้างและดูแลระบบสูงกว่าโมเดลสร้างภาพอย่างมาก โมเดลที่ดีที่สุดถูกสร้างโดยบริษัทอย่าง OpenAI และเข้าถึงได้ผ่าน API แต่ไม่ได้เปิดให้รันได้ด้วยตนเอง ตัวโมเดลเองก็มีขนาดใหญ่มาก ต่อให้ได้โมเดล GPT-3 มาก็ไม่สามารถรันบนฮาร์ดแวร์เชิงพาณิชย์ทั่วไปได้ (ต้องใช้ GPU ระดับ A100 หลายใบที่ราคาเกิน $8000 ต่อใบ) แม้ในช่วงหลายปีที่ผ่านมา จะมีโมเดลภาษาที่เปิดเผยสู่สาธารณะจำนวนมาก แต่ส่วนใหญ่ก็ไม่เหมาะกับการนำไปรันเองโดยตรง ทุกอย่างเปลี่ยนไปเพราะโมเดล LLaMA ของ Facebook และ LLama.cpp LLaMA ไม่ได้เป็นโอเพนอย่างสมบูรณ์ หากต้องการเข้าถึงโมเดลต้องยอมรับเงื่อนไขที่เข้มงวดบางประการ แต่มีใครบางคนอัปโหลด PR ที่ไม่เป็นทางการซึ่งดาวน์โหลดได้ผ่าน torrent ทำให้สามารถดาวน์โหลดได้ llama.cpp ถ้า LLaMA ยังรันบนโน้ตบุ๊กส่วนตัวได้ยาก มันก็ยังไม่ได้น่าสนใจเท่าไร Georgi Gerganov จากบัลแกเรีย เคยสร้าง Whisper.cpp ที่พอร์ตโมเดลรู้จำเสียง Whisper ของ OpenAI มาเป็น C++ มาก่อน และเขาก็ทำสิ่งเดียวกันกับ LLaMA เขาตั้งเป้าให้มันรันบน MacBook ได้ โดยใช้ 4-bit quantization (เทคนิคที่ลดขนาดโมเดลเพื่อให้ทำงานบนฮาร์ดแวร์ที่ช้ากว่าได้) ทำให้ขนาดของโมเดลลดลงเหลือ 4GB สำหรับโมเดล 7B และต่ำกว่า 8GB สำหรับโมเดล 13B มันทำงานบน MacBook ได้ดีมาก ทำให้สามารถรันโมเดล 13B ที่ Facebook อ้างว่าสามารถแข่งขันกับ GPT-3 ได้บนโน้ตบุ๊ก เมื่อเห็นข้อความที่ถูกสร้างขึ้นบนโน้ตบุ๊ก ก็ให้ความรู้สึกเหมือนโลกกำลังเปลี่ยนอีกครั้ง ผมเคยคิดว่าคงต้องรออีกหลายปีกว่าจะรันโมเดลระดับ GPT-3 บนอุปกรณ์ที่ผมมีได้ แต่ผมคิดผิด "อนาคตมาถึงที่นี่แล้ว" นี่คือสถานการณ์ที่เลวร้ายที่สุดหรือเปล่า? ไม่ได้กังวลกับฉากทัศน์แบบนิยายวิทยาศาสตร์ และ LLM ที่รันบนโน้ตบุ๊กก็ไม่ได้จะกลายเป็น "AGI ที่ครองโลก" แต่ก็มีหลายวิธีที่เทคโนโลยีนี้อาจถูกนำไปใช้ในทางที่ไม่ดี การสร้างสแปม, การหลอกลวงเชิงรักแบบอัตโนมัติ, การปั่นป่วนและคำพูดแสดงความเกลียดชัง, ข่าวปลอมและข้อมูลเท็จ, การทำให้สุดโต่งแบบอัตโนมัติ ก่อนถึงช่วงเวลานี้ ยังมีแนวป้องกันบางๆ อยู่ เช่น บริษัทอย่าง OpenAI ที่ควบคุมวิธีที่ผู้คนโต้ตอบกับโมเดลเหล่านี้ แต่ตอนนี้เมื่อแต่ละคนสามารถรันมันบนฮาร์ดแวร์ของตัวเองได้ กลไกควบคุมเหล่านั้นก็หายไป แล้วจะใช้มันเพื่อจุดประสงค์ที่ดีได้อย่างไร? ผมคิดว่าสิ่งนี้จะส่งผลกระทบอย่างมากต่อสังคม และสิ่งที่ผมให้ความสำคัญอันดับแรกคือการชี้นำผลกระทบนั้นไปในทางบวก มันง่ายที่จะตกอยู่ในมุมมองแบบถากถางที่คิดว่า generative AI มีแต่โทษหรือเป็นการเสียเวลา โดยส่วนตัวแล้วผมใช้เครื่องมือ generative AI ทุกวัน มันช่วยเพิ่มผลิตภาพอย่างเป็นรูปธรรม และที่สำคัญกว่านั้นคือช่วยขยายความทะเยอทะยานต่อโปรเจกต์ที่ผมทำอยู่ เมื่อสัปดาห์ก่อนผมใช้ ChatGPT เพื่อเรียนรู้ AppleScript ที่จำเป็นสำหรับโปรเจกต์ใหม่ได้ภายในเวลาเพียงหนึ่งชั่วโมง ผมจะยังคงสำรวจและแบ่งปันวิธีนำเทคโนโลยีนี้ไปใช้ในทางบวกต่อไป สิ่งที่ควรจับตาต่อไป หาก Facebook ไม่ผ่อนปรนเงื่อนไขด้านไลเซนส์ LLaMA ก็คงจะจบลงแค่การเป็น PoC ว่าโมเดลลักษณะนี้สามารถรันบนฮาร์ดแวร์สำหรับผู้บริโภคได้ ตอนนี้ได้เกิดการแข่งขันขึ้นแล้วในการปล่อยโมเดลภาษาแบบเปิดอย่างแท้จริง ที่ให้ความสามารถคล้าย ChatGPT บนอุปกรณ์ของผู้ใช้เอง

(simonwillison.net)

37 คะแนน โดย xguru 2023-03-13 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

การเปิดตัว Stable Diffuion (SD) ในเดือนสิงหาคม 2022 เป็นช่วงเวลาสำคัญ และได้จุดชนวนให้นวัตกรรมระเบิดขึ้นอย่างต่อเนื่องมาจนถึงตอนนี้
ช่วงหลังมานี้ ControlNet ก้าวล้ำหน้า MidJourney และ DALL-E ในด้านความสามารถไปแล้ว
การเปิดตัว SD ได้สร้างความสนใจรอบใหม่ต่อ generative AI และคลื่นนั้นก็ยิ่งรุนแรงขึ้นจากการเปิดตัว ChatGPT ในเดือนพฤศจิกายน
ช่วงเวลาแบบ SD กำลังมาถึงโมเดลภาษาขนาดใหญ่ (LLM) เช่นกัน
ตอนนี้สามารถรันโมเดลภาษาระดับ GPT-3 บนโน้ตบุ๊กส่วนตัวได้แล้ว

LLaMA

LLM อย่าง GPT-3 มีต้นทุนในการสร้างและดูแลระบบสูงกว่าโมเดลสร้างภาพอย่างมาก
โมเดลที่ดีที่สุดถูกสร้างโดยบริษัทอย่าง OpenAI และเข้าถึงได้ผ่าน API แต่ไม่ได้เปิดให้รันได้ด้วยตนเอง
ตัวโมเดลเองก็มีขนาดใหญ่มาก ต่อให้ได้โมเดล GPT-3 มาก็ไม่สามารถรันบนฮาร์ดแวร์เชิงพาณิชย์ทั่วไปได้ (ต้องใช้ GPU ระดับ A100 หลายใบที่ราคาเกิน $8000 ต่อใบ)
แม้ในช่วงหลายปีที่ผ่านมา จะมีโมเดลภาษาที่เปิดเผยสู่สาธารณะจำนวนมาก แต่ส่วนใหญ่ก็ไม่เหมาะกับการนำไปรันเองโดยตรง
ทุกอย่างเปลี่ยนไปเพราะโมเดล LLaMA ของ Facebook และ LLama.cpp
LLaMA ไม่ได้เป็นโอเพนอย่างสมบูรณ์ หากต้องการเข้าถึงโมเดลต้องยอมรับเงื่อนไขที่เข้มงวดบางประการ
แต่มีใครบางคนอัปโหลด PR ที่ไม่เป็นทางการซึ่งดาวน์โหลดได้ผ่าน torrent ทำให้สามารถดาวน์โหลดได้

llama.cpp

ถ้า LLaMA ยังรันบนโน้ตบุ๊กส่วนตัวได้ยาก มันก็ยังไม่ได้น่าสนใจเท่าไร
Georgi Gerganov จากบัลแกเรีย เคยสร้าง Whisper.cpp ที่พอร์ตโมเดลรู้จำเสียง Whisper ของ OpenAI มาเป็น C++ มาก่อน
และเขาก็ทำสิ่งเดียวกันกับ LLaMA
เขาตั้งเป้าให้มันรันบน MacBook ได้ โดยใช้ 4-bit quantization (เทคนิคที่ลดขนาดโมเดลเพื่อให้ทำงานบนฮาร์ดแวร์ที่ช้ากว่าได้)
ทำให้ขนาดของโมเดลลดลงเหลือ 4GB สำหรับโมเดล 7B และต่ำกว่า 8GB สำหรับโมเดล 13B
มันทำงานบน MacBook ได้ดีมาก
ทำให้สามารถรันโมเดล 13B ที่ Facebook อ้างว่าสามารถแข่งขันกับ GPT-3 ได้บนโน้ตบุ๊ก
เมื่อเห็นข้อความที่ถูกสร้างขึ้นบนโน้ตบุ๊ก ก็ให้ความรู้สึกเหมือนโลกกำลังเปลี่ยนอีกครั้ง
ผมเคยคิดว่าคงต้องรออีกหลายปีกว่าจะรันโมเดลระดับ GPT-3 บนอุปกรณ์ที่ผมมีได้ แต่ผมคิดผิด "อนาคตมาถึงที่นี่แล้ว"

นี่คือสถานการณ์ที่เลวร้ายที่สุดหรือเปล่า?

ไม่ได้กังวลกับฉากทัศน์แบบนิยายวิทยาศาสตร์ และ LLM ที่รันบนโน้ตบุ๊กก็ไม่ได้จะกลายเป็น "AGI ที่ครองโลก"
แต่ก็มีหลายวิธีที่เทคโนโลยีนี้อาจถูกนำไปใช้ในทางที่ไม่ดี
- การสร้างสแปม, การหลอกลวงเชิงรักแบบอัตโนมัติ, การปั่นป่วนและคำพูดแสดงความเกลียดชัง, ข่าวปลอมและข้อมูลเท็จ, การทำให้สุดโต่งแบบอัตโนมัติ
ก่อนถึงช่วงเวลานี้ ยังมีแนวป้องกันบางๆ อยู่ เช่น บริษัทอย่าง OpenAI ที่ควบคุมวิธีที่ผู้คนโต้ตอบกับโมเดลเหล่านี้
แต่ตอนนี้เมื่อแต่ละคนสามารถรันมันบนฮาร์ดแวร์ของตัวเองได้ กลไกควบคุมเหล่านั้นก็หายไป

แล้วจะใช้มันเพื่อจุดประสงค์ที่ดีได้อย่างไร?

ผมคิดว่าสิ่งนี้จะส่งผลกระทบอย่างมากต่อสังคม และสิ่งที่ผมให้ความสำคัญอันดับแรกคือการชี้นำผลกระทบนั้นไปในทางบวก
มันง่ายที่จะตกอยู่ในมุมมองแบบถากถางที่คิดว่า generative AI มีแต่โทษหรือเป็นการเสียเวลา
โดยส่วนตัวแล้วผมใช้เครื่องมือ generative AI ทุกวัน มันช่วยเพิ่มผลิตภาพอย่างเป็นรูปธรรม และที่สำคัญกว่านั้นคือช่วยขยายความทะเยอทะยานต่อโปรเจกต์ที่ผมทำอยู่
เมื่อสัปดาห์ก่อนผมใช้ ChatGPT เพื่อเรียนรู้ AppleScript ที่จำเป็นสำหรับโปรเจกต์ใหม่ได้ภายในเวลาเพียงหนึ่งชั่วโมง
ผมจะยังคงสำรวจและแบ่งปันวิธีนำเทคโนโลยีนี้ไปใช้ในทางบวกต่อไป

สิ่งที่ควรจับตาต่อไป

หาก Facebook ไม่ผ่อนปรนเงื่อนไขด้านไลเซนส์ LLaMA ก็คงจะจบลงแค่การเป็น PoC ว่าโมเดลลักษณะนี้สามารถรันบนฮาร์ดแวร์สำหรับผู้บริโภคได้
ตอนนี้ได้เกิดการแข่งขันขึ้นแล้วในการปล่อยโมเดลภาษาแบบเปิดอย่างแท้จริง ที่ให้ความสามารถคล้าย ChatGPT บนอุปกรณ์ของผู้ใช้เอง

3 ความคิดเห็น

ffdd270 2023-03-13

มีเนื้อหาว่ารันบน MacBook ได้ หากต้องการดูวิธีตั้งค่า LLAMA บน MacBook กรุณาอ้างอิงอันนี้: https://dev.l1x.be/posts/2023/03/12/using-llama-with-m1-mac/

(ถ้าท่านอื่นจะช่วยทำเป็นข่าวให้ก็ยินดีนะ :) b)

dkmin 2023-03-15

ขอบคุณสำหรับการแชร์

xguru 2023-03-13

นี่เป็นบทความของ Simon Willison ที่คุ้นหน้าคุ้นตากันดีใน GeekNews ครับ
ผมคิดว่าตามที่เขาว่าไว้ หากเราสามารถรันโมเดลภาษาแบบนี้บนอุปกรณ์ส่วนตัวได้ "ความทะเยอทะยาน/ขอบเขตการพัฒนาของโปรเจกต์จะขยายออกไป"
แม้แต่ตอนที่ผมจะลองเพิ่มฟีเจอร์เกี่ยวกับ ChatGPT ให้ GeekNews เอง ก็ยังต้องกลับมาคิดอีกรอบเพราะค่าใช้จ่ายของ API
ตอนนี้เราเริ่มสามารถรัน LLM ที่ใช้งานได้ดีพอสมควรบนอุปกรณ์ส่วนตัวได้แล้ว เลยคาดหวังว่าจะเกิดขอบเขตการประยุกต์ใช้ที่หลากหลายขึ้นอีกมาก

อย่างที่ผมเขียนไว้ใน GeekNews Weekly ที่ออกวันนี้ด้วย
เพราะถ้าอยากให้เทรนด์เทคโนโลยีถูกพูดถึงต่อเนื่อง สิ่งสำคัญคือธุรกิจจริงที่อยู่บนฐานของเทคโนโลยีนั้นจะต้องถูกสร้างและเปิดตัวออกมาในระดับที่ช่วยผู้ใช้ได้จริง