Ask HN: มีใครย้ายจาก GPT ไปใช้โมเดลของตัวเองแล้วบ้าง ประสบการณ์เป็นอย่างไร?

xguru · 2024-02-29T10:29:01+09:00

สรุปคำตอบต่อคำถามที่โพสต์บน HN ได้ช่วยลูกค้าหลายสิบรายย้ายจาก GPT-4/GPT-3.5 บน OpenPipe ไปเป็นโมเดลที่ปรับจูนแบบ fine-tuned ของตนเอง ปฏิกิริยาที่พบบ่อยที่สุดคือ “ว้าว ไม่นึกเลยว่าจะใช้ความพยายามน้อยแค่นี้แล้วทำงานได้ดีขนาดนี้” สำหรับงานส่วนใหญ่ Mistral 7B ที่ผ่านการ fine-tune เอาชนะ GPT-3.5 ได้ด้วยต้นทุนที่ต่ำกว่ามาก ในบางกรณีใช้งานให้ประสิทธิภาพใกล้เคียงหรือดีกว่า GPT-4 (โดยเฉพาะงานอย่างการจัดประเภท การดึงข้อมูล และการสรุป) ใช้ Mistral-Instruct-0.1 สำหรับสรุปการโทร/อีเมล, ใช้ Mixtral สำหรับ contract mining, และใช้ OpenChat เพื่อเสริม agent chatbot ที่มีเครื่องมือ RAG ประสบการณ์ยอดเยี่ยมมาก และ trade-off ของ INT8 ก็ยังยอมรับได้จนกว่าฮาร์ดแวร์ FP8(FP4) จะใช้งานแพร่หลายและราคาถูกลง ต้นทุนแบบ on-premise ถูกดูดซับไปแล้วจากการรันอินเทอร์แอ็กชันนับล้านครั้งบนอุปกรณ์รุ่นเก่าอย่าง A100 และ V100 ใช้ Continue ร่วมกับ Ollama โดย LLM หลักที่ใช้คือ deepseek-coder 7b การตั้งค่านี้ดีพอ ๆ กับ ChatGPT 4, เน้น local-first และโดยรวมพึงพอใจมาก เคยปรับจูน LLM เพื่อทำงานเชิงเทคนิค และมันทำงานได้ดีมาก แต่กลับพบว่าการประเมิน LLM ยากกว่าที่คิด และ GPT-4 โดยทั่วไปไม่ได้ยอดเยี่ยมขนาดนั้น เมื่อทำงานดึงหรือประมวลผลข้อมูลกับเรคอร์ดมากกว่า 10,000 รายการ จะชอบใช้โมเดลโลคัลมากกว่า บริการแบบโฮสต์ในจุดนี้จะช้าและเปราะบางกว่า Mistral 7B ที่ fine-tune แล้ว (OpenChat ดีที่สุด) ประมวลผลข้อมูลได้รวดเร็ว ใช้ ChatGPT-4 เพื่อสรุปข้อมูลสำหรับพรอมป์ต์ที่ซับซ้อน แล้วค่อยนำไปรันบนโมเดลโลคัล และคิดว่าสถานการณ์จะดีขึ้นเรื่อย ๆ รองรับทั้ง OpenAI API และไลบรารี on-device (เช่น llama.cpp) ในแอปและผลิตภัณฑ์องค์กร เนื่องจาก API และไลบรารีคล้ายกันมาก กระบวนการสลับจึงแทบโปร่งใสสำหรับผู้ใช้ และมีแผนรองรับ API ของแพลตฟอร์มอื่นเร็ว ๆ นี้ ซึ่งรวมได้ง่ายพอ ๆ กับ OpenAI เคยใช้ Mistral 7B ระหว่างอยู่บนเครื่องบินที่ไม่มีไวไฟ มันค่อนข้างดีสำหรับการค้นหาข้อมูลที่ต้องการ แต่ถ้าเป็นการให้คำสั่งทีละขั้น ผลลัพธ์ยังไม่สม่ำเสมอ ระหว่างสร้าง Double.bot ได้ทดสอบหลายโมเดล แต่สุดท้ายก็กลับไปใช้ gpt4 โมเดลอื่น ๆ สนุกดี แต่ถ้าพลาดเพียง 1 จาก 100 คำถามที่ gpt4 ตอบได้ ก็รู้สึกน่าผิดหวัง ตอนนี้ได้คุณค่ามากกว่าจากการสร้างฟีเจอร์ล้อมรอบโมเดล ซึ่งช่วยแก้ปัญหาของ GitHub copilot ได้ (autocomplete ปิดวงเล็บให้ถูกต้อง, import ให้อัตโนมัติเมื่อรับคำแนะนำ, ปิดคำแนะนำตอนเขียนคอมเมนต์เพื่อไม่ให้รบกวน, การเติมข้อความกลางบรรทัด ฯลฯ) และหวังว่าโมเดลโอเพนซอร์สจะตาม gpt4 ทันภายใน 6 เดือน โดยทั่วไปคิดว่า Llama 2 ค่อนข้างแย่ โดยเฉพาะในภาษาอื่นที่ไม่ใช่อังกฤษ ส่วน Mixtral สำหรับงานแชตให้ผลลัพธ์ดีมาก แน่นอนว่าเมื่อเทียบกับ ChatGPT จริง ๆ ทั้งหมดนี้ยังให้ความรู้สึกแบบ Frankenstein คือดูคล้ายและใช้งานได้ดี แต่บางครั้งก็ปล่อยผลลัพธ์มั่วซั่วหรือ artifact แปลก ๆ ออกมา จนสงสัยว่าการ fine-tune ถูกละเลยไปหรือไม่ เราใช้โมเดลของตัวเองทำขั้นแรกก่อน แล้วถ้าผลลัพธ์จากโมเดลของเราไม่มั่นใจพอ ค่อย escalte ไปที่ gpt คาดว่าในปี 2024 จะมีคนจำนวนมากขึ้นย้ายออกจาก OpenAI เพราะต้นทุนและ latency เมื่อเทียบกับคู่แข่งที่ยังตรวจสอบหรือขยายระบบน้อยกว่า แม้บ่อยครั้งจะต้องแลกความเร็วกับคุณภาพ แต่ก็เคยเห็นผู้ให้บริการหลายรายที่เร็วกว่า OpenAI มากกว่า 3 เท่า และให้คุณภาพมากกว่า 1/3 ใช้ Mixtral 8x7b (q5) กับงานอย่างการเขียนสคริปต์ การค้นหาไอเดีย และ/หรือคำจำกัดความที่ต้อง fact-check เสมอ ตอนนี้ใช้งาน lmstudio บน M2 ที่มี RAM 96GB แต่กำลังพิจารณาจะย้ายไป Ollama หรือโซลูชัน OSS อื่น

(news.ycombinator.com)

26 คะแนน โดย xguru 2024-02-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปคำตอบต่อคำถามที่โพสต์บน HN

ได้ช่วยลูกค้าหลายสิบรายย้ายจาก GPT-4/GPT-3.5 บน OpenPipe ไปเป็นโมเดลที่ปรับจูนแบบ fine-tuned ของตนเอง
- ปฏิกิริยาที่พบบ่อยที่สุดคือ “ว้าว ไม่นึกเลยว่าจะใช้ความพยายามน้อยแค่นี้แล้วทำงานได้ดีขนาดนี้”
- สำหรับงานส่วนใหญ่ Mistral 7B ที่ผ่านการ fine-tune เอาชนะ GPT-3.5 ได้ด้วยต้นทุนที่ต่ำกว่ามาก
- ในบางกรณีใช้งานให้ประสิทธิภาพใกล้เคียงหรือดีกว่า GPT-4 (โดยเฉพาะงานอย่างการจัดประเภท การดึงข้อมูล และการสรุป)
โฆษณา
ใช้ Mistral-Instruct-0.1 สำหรับสรุปการโทร/อีเมล, ใช้ Mixtral สำหรับ contract mining, และใช้ OpenChat เพื่อเสริม agent chatbot ที่มีเครื่องมือ RAG
- ประสบการณ์ยอดเยี่ยมมาก และ trade-off ของ INT8 ก็ยังยอมรับได้จนกว่าฮาร์ดแวร์ FP8(FP4) จะใช้งานแพร่หลายและราคาถูกลง
- ต้นทุนแบบ on-premise ถูกดูดซับไปแล้วจากการรันอินเทอร์แอ็กชันนับล้านครั้งบนอุปกรณ์รุ่นเก่าอย่าง A100 และ V100
ใช้ Continue ร่วมกับ Ollama โดย LLM หลักที่ใช้คือ deepseek-coder 7b การตั้งค่านี้ดีพอ ๆ กับ ChatGPT 4, เน้น local-first และโดยรวมพึงพอใจมาก
เคยปรับจูน LLM เพื่อทำงานเชิงเทคนิค และมันทำงานได้ดีมาก แต่กลับพบว่าการประเมิน LLM ยากกว่าที่คิด และ GPT-4 โดยทั่วไปไม่ได้ยอดเยี่ยมขนาดนั้น
เมื่อทำงานดึงหรือประมวลผลข้อมูลกับเรคอร์ดมากกว่า 10,000 รายการ จะชอบใช้โมเดลโลคัลมากกว่า บริการแบบโฮสต์ในจุดนี้จะช้าและเปราะบางกว่า Mistral 7B ที่ fine-tune แล้ว (OpenChat ดีที่สุด) ประมวลผลข้อมูลได้รวดเร็ว ใช้ ChatGPT-4 เพื่อสรุปข้อมูลสำหรับพรอมป์ต์ที่ซับซ้อน แล้วค่อยนำไปรันบนโมเดลโลคัล และคิดว่าสถานการณ์จะดีขึ้นเรื่อย ๆ
รองรับทั้ง OpenAI API และไลบรารี on-device (เช่น llama.cpp) ในแอปและผลิตภัณฑ์องค์กร เนื่องจาก API และไลบรารีคล้ายกันมาก กระบวนการสลับจึงแทบโปร่งใสสำหรับผู้ใช้ และมีแผนรองรับ API ของแพลตฟอร์มอื่นเร็ว ๆ นี้ ซึ่งรวมได้ง่ายพอ ๆ กับ OpenAI
เคยใช้ Mistral 7B ระหว่างอยู่บนเครื่องบินที่ไม่มีไวไฟ มันค่อนข้างดีสำหรับการค้นหาข้อมูลที่ต้องการ แต่ถ้าเป็นการให้คำสั่งทีละขั้น ผลลัพธ์ยังไม่สม่ำเสมอ
ระหว่างสร้าง Double.bot ได้ทดสอบหลายโมเดล แต่สุดท้ายก็กลับไปใช้ gpt4 โมเดลอื่น ๆ สนุกดี แต่ถ้าพลาดเพียง 1 จาก 100 คำถามที่ gpt4 ตอบได้ ก็รู้สึกน่าผิดหวัง ตอนนี้ได้คุณค่ามากกว่าจากการสร้างฟีเจอร์ล้อมรอบโมเดล ซึ่งช่วยแก้ปัญหาของ GitHub copilot ได้ (autocomplete ปิดวงเล็บให้ถูกต้อง, import ให้อัตโนมัติเมื่อรับคำแนะนำ, ปิดคำแนะนำตอนเขียนคอมเมนต์เพื่อไม่ให้รบกวน, การเติมข้อความกลางบรรทัด ฯลฯ) และหวังว่าโมเดลโอเพนซอร์สจะตาม gpt4 ทันภายใน 6 เดือน
โดยทั่วไปคิดว่า Llama 2 ค่อนข้างแย่ โดยเฉพาะในภาษาอื่นที่ไม่ใช่อังกฤษ ส่วน Mixtral สำหรับงานแชตให้ผลลัพธ์ดีมาก แน่นอนว่าเมื่อเทียบกับ ChatGPT จริง ๆ ทั้งหมดนี้ยังให้ความรู้สึกแบบ Frankenstein คือดูคล้ายและใช้งานได้ดี แต่บางครั้งก็ปล่อยผลลัพธ์มั่วซั่วหรือ artifact แปลก ๆ ออกมา จนสงสัยว่าการ fine-tune ถูกละเลยไปหรือไม่
เราใช้โมเดลของตัวเองทำขั้นแรกก่อน แล้วถ้าผลลัพธ์จากโมเดลของเราไม่มั่นใจพอ ค่อย escalte ไปที่ gpt
คาดว่าในปี 2024 จะมีคนจำนวนมากขึ้นย้ายออกจาก OpenAI เพราะต้นทุนและ latency เมื่อเทียบกับคู่แข่งที่ยังตรวจสอบหรือขยายระบบน้อยกว่า แม้บ่อยครั้งจะต้องแลกความเร็วกับคุณภาพ แต่ก็เคยเห็นผู้ให้บริการหลายรายที่เร็วกว่า OpenAI มากกว่า 3 เท่า และให้คุณภาพมากกว่า 1/3
ใช้ Mixtral 8x7b (q5) กับงานอย่างการเขียนสคริปต์ การค้นหาไอเดีย และ/หรือคำจำกัดความที่ต้อง fact-check เสมอ ตอนนี้ใช้งาน lmstudio บน M2 ที่มี RAM 96GB แต่กำลังพิจารณาจะย้ายไป Ollama หรือโซลูชัน OSS อื่น

1 ความคิดเห็น

nullptr 2024-02-29

ต้องคำนึงด้วยว่า HN ใช้มาตรฐานภาษาอังกฤษเป็นหลัก

Ask HN: มีใครย้ายจาก GPT ไปใช้โมเดลของตัวเองแล้วบ้าง ประสบการณ์เป็นอย่างไร?

บทความที่เกี่ยวข้อง

1 ความคิดเห็น