- เล็กกว่า CodeLLaMA 7b อยู่ 60% แต่เป็น LLM ขนาด 3B พารามิเตอร์ที่ให้ประสิทธิภาพใกล้เคียงกันเมื่อสร้างโค้ด
- สามารถทำงานแบบออฟไลน์บนแล็ปท็อปทั่วไปได้แม้ไม่มี GPU (เช่น MacBook Air)
- พัฒนาต่อยอดจากโมเดล Stable LM 3B ที่ฝึกด้วยข้อมูลภาษาธรรมชาติ 4 ล้านล้านโทเค็น แล้วนำไปฝึกเพิ่มด้วยข้อมูลด้านซอฟต์แวร์วิศวกรรม/โค้ด
- เลือกภาษาโปรแกรมมิง 18 ภาษาโดยอ้างอิงจากผลสำรวจนักพัฒนา StackOverflow ปี 2023
5 ความคิดเห็น
เราอยู่ในสายการเงินเลยพัฒนาได้เฉพาะในเครือข่ายภายใน แบบนี้ควรเริ่มเข้าหายังไงดีครับ?
พอลองใช้พวก Copilot ที่บ้านแล้วก็เลยอยากถามว่า ถ้าที่บริษัทได้ใช้บ้างก็น่าจะดี
https://github.com/janhq/jan
เป็นแอป GUI ที่ช่วยให้สามารถใช้งานโมเดลแบบออฟไลน์ได้ หากคุณใช้งานในเครือข่ายภายใน ก็น่าจะดาวน์โหลดไฟล์ติดตั้งของแอปนี้และไฟล์โมเดลที่จะใช้จากภายนอกไว้ล่วงหน้า แล้วค่อยย้ายเข้ามาใช้ในเครือข่ายภายในได้
วิธีเพิ่มโมเดลด้วยตนเองมีอธิบายไว้ด้านล่าง
https://jan.ai/guides/using-models/import-manually/
พูดตามตรง ในสภาพแวดล้อมที่แยกเครือข่าย มันแทบไม่ต่างจากการใส่ตรวนให้นักพัฒนาเลย
ช่วงนี้มีทั้งการพูดถึงการผ่อนคลายนโยบายแยกเครือข่าย และก็เริ่มเห็นความพยายามที่จะปรับปรุงอยู่บ้าง เลยอาจพอมีความหวังได้ แต่สถานที่ที่จัดการข้อมูลส่วนบุคคลอย่างธนาคารหรือโทรคมนาคมก็น่าจะยังยากอยู่ต่อไปครับ สำหรับนักพัฒนาแล้วมันเป็นสภาพแวดล้อมที่เหมือนคุกจริง ๆ
เขาเปรียบเทียบประสิทธิภาพกับแค่พวกรุ่นที่มีขนาดโมเดลเล็กใกล้เคียงกัน แต่ถ้าดู Leaderboard ที่กว้างกว่านี้ก็จะเป็นแบบนี้นะครับ
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
พอเป็นงานโค้ดแล้ว ก็อดคิดไม่ได้ว่า ต่อให้ช้ากว่าหรือแพงกว่านิดหน่อย ถ้าประสิทธิภาพดีกว่าก็น่าจะดีกว่าไหม?