- โดยทั่วไปโมเดลปัญญาประดิษฐ์ (AI) มักถูกใช้งานผ่านออนไลน์ แต่เครื่องมือแบบเปิดหลายตัวกำลังเปลี่ยนสิ่งนี้
- Chris Thorpe นักชีวสารสนเทศศาสตร์ ใช้โมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นเครื่องมือ AI เพื่อแปลงฐานข้อมูล
histo.fyiที่รวบรวมข้อมูลของโมเลกุล major histocompatibility complex (MHC) ซึ่งเป็นโปรตีนของระบบภูมิคุ้มกัน ให้เป็นสรุปที่อ่านง่าย - Thorpe รัน AI บนแล็ปท็อป แทนที่จะใช้ LLM แบบเว็บอย่าง ChatGPT
เทรนด์ล่าสุดของ LLM
- องค์กรต่าง ๆ กำลังสร้าง LLM แบบ "open weights" เพื่อให้ผู้ใช้สามารถดาวน์โหลดและรันแบบโลคัลได้ หากมีพลังประมวลผลเพียงพอ
- บริษัทเทคโนโลยีก็กำลังสร้างรุ่นย่อส่วนที่สามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคได้ และมีประสิทธิภาพทัดเทียมกับโมเดลขนาดใหญ่ในอดีต
เหตุผลที่นักวิจัยใช้โมเดลแบบโลคัล
- ลดต้นทุน
- ปกป้องข้อมูลลับของผู้ป่วยหรือองค์กร
- รับประกันความสามารถในการทำซ้ำผลลัพธ์
- เมื่อคอมพิวเตอร์เร็วขึ้นและโมเดลมีประสิทธิภาพมากขึ้น ผู้คนจะยิ่งรัน AI บนแล็ปท็อปหรืออุปกรณ์พกพามากขึ้น
ตัวอย่างโมเดล open weights ขนาดเล็กที่เปิดตัวล่าสุด
- Google DeepMind, Meta, Allen Institute for Artificial Intelligence และอีกหลายแห่ง ได้เปิดตัวโมเดลที่มีพารามิเตอร์ระดับหลายพันล้านตัว
- Microsoft เปิดตัวโมเดลภาษาขนาดเล็กอย่าง Phi-1, Phi-1.5, Phi-2, Phi-3 และ Phi-3.5 โดยบางรุ่นยังประมวลผลภาพได้ด้วย
- Sébastien Bubeck รองประธานด้าน generative AI ของ Microsoft อธิบายว่าประสิทธิภาพของ Phi-3 มาจากชุดข้อมูลฝึกสอน
การพัฒนาแอปพลิเคชันเฉพาะทาง
- นักวิจัยสามารถพัฒนาแอปพลิเคชันเฉพาะทางต่อยอดจากเครื่องมือเหล่านี้ได้
- Alibaba ของจีนสร้างโมเดลชื่อ Qwen และนักวิทยาศาสตร์ชีวการแพทย์ในรัฐนิวแฮมป์เชียร์ได้นำไป fine-tune ด้วยข้อมูลวิทยาศาสตร์จนกลายเป็น Turbcat-72b
การคุ้มครองความเป็นส่วนตัว
- ข้อดีอีกอย่างของโมเดลแบบโลคัลคือการคุ้มครองความเป็นส่วนตัว
- การส่งข้อมูลที่สามารถระบุตัวบุคคลได้ไปยังบริการเชิงพาณิชย์ อาจขัดต่อกฎระเบียบด้านการคุ้มครองข้อมูล
- Cyril Zakka แพทย์ผู้เป็นหัวหน้าทีมการแพทย์ของ Hugging Face ใช้โมเดลแบบโลคัลเพื่อสร้างข้อมูลฝึกสอนสำหรับโมเดลอื่น
- Johnson Thomas แพทย์ต่อมไร้ท่อจากระบบการแพทย์ Mercy ใน Springfield กำลังพัฒนาระบบที่ถอดเสียงและสรุปบทสนทนาระหว่างแพทย์กับผู้ป่วย โดยอาศัย OpenAI Whisper และ Gemma 2 ของ Google DeepMind เพื่อปกป้องความเป็นส่วนตัวของผู้ป่วย
- CELLama ที่พัฒนาโดย Portrai บริษัทเภสัชกรรมในโซล ใช้ LLM แบบโลคัลเพื่อลดทอนข้อมูลเกี่ยวกับการแสดงออกของยีนในเซลล์และคุณลักษณะอื่น ๆ ให้เป็นประโยคสรุป พร้อมชูเรื่องความเป็นส่วนตัวเป็นข้อได้เปรียบสำคัญ
การใช้งานโมเดล
- นักวิจัยกำลังเผชิญกับตัวเลือก LLM ที่เปลี่ยนแปลงอย่างรวดเร็ว
- ปัจจุบัน Thorpe ใช้ Llama บนแล็ปท็อป และบอกว่าโมเดลแบบโลคัลมีข้อดีด้านการทำซ้ำผลลัพธ์ เพราะตัวโมเดลไม่เปลี่ยนแปลง
- Thorpe กำลังเขียนโค้ดเพื่อจัดเรียงโมเลกุล MHC ตามโครงสร้างสามมิติ และใช้โมเดล open weights ชื่อ ProtGPT2 เพื่อออกแบบโปรตีนใหม่
- อย่างไรก็ตาม บางครั้งแอปแบบโลคัลก็อาจไม่เพียงพอ และ Thorpe ใช้ GitHub Copilot แบบคลาวด์สำหรับการเขียนโค้ด
วิธีเข้าถึง
- สามารถใช้ซอฟต์แวร์อย่าง Ollama, GPT4All และ Llamafile เพื่อรัน LLM แบบโลคัลได้
- ผู้ใช้สามารถเลือกใช้แบบแอปหรือบรรทัดคำสั่งได้ตามความชอบ
- Stephen Hood แห่ง Mozilla กล่าวว่าอีกไม่นาน LLM แบบโลคัลจะดีพอสำหรับแอปพลิเคชันส่วนใหญ่
ความเห็นของ GN+
- LLM แบบโลคัลอาจเป็นเครื่องมือที่มีประโยชน์มากสำหรับนักวิจัย เพราะมีข้อดีอย่างการลดต้นทุน การปกป้องความเป็นส่วนตัว และการรับประกันความสามารถในการทำซ้ำผลลัพธ์
- แต่ในบางกรณี บริการแบบคลาวด์อาจให้ประสิทธิภาพที่ดีกว่า ดังนั้นนักวิจัยควรเลือกเครื่องมือให้เหมาะกับความต้องการของแอปพลิเคชัน
- เนื่องจาก LLM แบบโลคัลพัฒนาอย่างรวดเร็ว นักวิจัยจึงจำเป็นต้องสำรวจและทดลองโมเดลกับเครื่องมือใหม่ ๆ อย่างต่อเนื่อง
- นอกจากนี้ การพัฒนาโมเดลเฉพาะทางตามสาขาวิจัยก็น่าสนใจเช่นกัน ตัวอย่างเช่น นักวิจัยชีวการแพทย์อาจ fine-tune โมเดลด้วยข้อมูลทางการแพทย์เพื่อให้ได้ประสิทธิภาพที่ดียิ่งขึ้น
- เนื่องจาก LLM แบบโลคัลยังอยู่ในช่วงเริ่มต้น นักวิจัยจึงควรตระหนักถึงปัญหาและข้อจำกัดที่อาจเกิดขึ้นระหว่างการใช้งาน เช่น อคติของโมเดล คุณภาพของข้อมูล และประเด็นด้านจริยธรรมที่ต้องพิจารณาอย่างรอบคอบ
7 ความคิดเห็น
ตอนนี้มันยังร้อน ช้า และไม่แม่นยำอยู่ คุณภาพของบทความนี้สำหรับ Nature ถือว่าต่ำเลยนะ
ถ้ารันบนเอดจ์ มันจะไม่ช้าและความแม่นยำต่ำหรือครับ,,
ถ้าไม่ใช่โดเมนที่มีประเด็นเรื่อง latency และ privacy อย่างชัดเจน ก็แทบไม่มีเหตุผลที่จะต้องใช้ edge computing (local) เลย..
ตอนนี้ข้อมูลแทบทั้งหมดบนโลกก็ถูกประมวลผลบน AWS, Google กันอยู่แล้ว มาพูดเรื่อง privacy กันเอาป่านนี้ก็เป็นแค่การตลาดของบริษัทที่ไม่มีเทคโนโลยีสร้าง LLM เท่านั้น..
แม้ในชื่อบทความของ Nature จะมีคำว่า small แต่เนื้อหาส่วนใหญ่จริง ๆ แล้วแก่นสำคัญคือ local
เขาบอกให้ลืม ChatGPT ทุกครั้งเลย...
555
ความคิดเห็นจาก Hacker News
แนะนำให้ใช้โมเดลแบบโลคัล
ประสบการณ์การใช้ LLM แบบโลคัล
AMD Strix Halo APU
ปัญหาไลเซนส์ของ Llama 3.1
การใช้ Docker และ Ollama
ประสิทธิภาพของ LLM แบบโลคัล
การทดลองกับ LLM แบบโลคัล
ผลิตภัณฑ์ LLM ของบริษัทยักษ์ใหญ่
ข้อมูลฝึกของ LLM
คำแนะนำสเปกสำหรับรันโมเดลขนาดเล็ก