22 คะแนน โดย xguru 2024-01-23 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • สร้างแอปสำรวจเส้นทางอาชีพที่ขับเคลื่อนด้วย AI แต่เมื่อเติบโตอย่างรวดเร็ว ค่าใช้จ่ายของ GPT-4 ก็เริ่มสูงเกิน $100 ต่อวัน
  • วิธีที่ใช้เพื่อลดค่าใช้จ่าย AI ลงได้ถึง 99% พร้อมลด latency และรักษาคุณภาพไว้
    • ใช้โมเดลที่ทรงพลังที่สุด (GPT-4) สร้างผลลัพธ์ก่อน แล้วนำผลลัพธ์นั้นมาใช้ fine-tune โมเดลที่เล็กกว่า
    • จัดเก็บคำขอ/คำตอบของ AI ให้สามารถ export ได้ง่าย โดยใช้ Helicone AI แค่สลับ OpenAI API เดิม ระบบก็จะบันทึกคำขอ AI ลงในตารางให้
    • เมื่อเก็บคู่คำขอ/คำตอบได้ประมาณ 100~500 คู่ ก็ export ออกมาแล้วคัดชุดข้อมูลให้มีคุณภาพดี
    • ใช้ชุดข้อมูลนี้ fine-tune Mixtral 8x7B ผ่านบริการโฮสต์อย่าง Together/Anyscale
    • แทนที่ GPT-4 ด้วยโมเดลที่ fine-tune ใหม่

4 ความคิดเห็น

 
kuroneko 2024-01-23

งั้นนี่หมายความว่าละเมิดทั้งข้อกำหนดการใช้งานของ GPT-4 และไลเซนส์ของ Mixtral เลยเหรอครับ...? @_@

 
xguru 2024-01-23

น่าจะประมาณนั้นครับ/ค่ะ เพราะมันไม่ใช่สิ่งที่มองเห็นได้ชัดเจน หลายคนเลยน่าจะคิดแบบนั้นกัน

 
kuroneko 2024-01-23

ก็พอมีแบบใช้กันเงียบ ๆ หรือไม่ก็เปิดเผยไว้เพื่อการวิจัยอยู่บ้าง
แต่การออกมาประชาสัมพันธ์ตรง ๆ ว่า เราใช้สิ่งนี้! แบบนี้นี่... ก็น่าแปลกใจอยู่นิดหน่อยนะ

จะไม่โดนว่าเอาเหรอ...?

 
xguru 2024-01-23

ความเห็นจาก Hacker News

  • บริษัทเทคโนโลยีส่วนใหญ่ ยกเว้นงานวิจัยแกนหลัก ใช้ GPT-4 หรือ 3.5 สร้างข้อมูลฝึกมานานอย่างน้อยครึ่งปี แล้วนำไปปรับจูน QLoRA เพื่อออกเป็นโมเดล AI "ของตัวเอง" ฝ่ายบริหารก็อ้างความสำเร็จครั้งใหญ่และบอกว่าบริษัทเป็นผู้นำใน AI "เฉพาะอุตสาหกรรม" กระบวนการนี้แทบไม่ต้องมีความรู้ด้านแมชชีนเลิร์นนิงมากนัก และทำได้ด้วยค่าใช้จ่ายคลาวด์คอมพิวติงต่ำกว่า $1,000 แต่กับงานจริงจะได้ผลลัพธ์ระดับ GPT-3.5 และโดยเฉพาะเมื่อใช้ cloud GPU ก็ยากที่จะแข่งกับ GPT-3.5 ในด้านต้นทุน
  • ลองไปดูแอป Wanderer ของคนนี้แล้ว แต่ไม่พบทั้งข้อกำหนดการใช้งาน นโยบายความเป็นส่วนตัว ราคาแบบชัดเจน หรือแม้แต่การกล่าวถึง AI เลย จึงดูน่าสงสัยมาก วิธีที่ใช้ GPT-4 เหมาะกับการทำให้โมเดลดูเหมือนฉลาดแบบ GPT-4 แต่พอถึงช่วงสำคัญจริง ๆ ก็จะเผยให้เห็นว่าเป็นโมเดลที่ด้อยกว่า
  • ตามเอกสารของ Together.ai ระบุว่า Mixtral ใช้กับการปรับจูนไม่ได้ และดูเหมือนว่าจะไม่รันโมเดลที่ปรับจูนแล้วแบบ serverless ด้วย ซึ่งชวนให้คิดว่าเรื่องนี้ไม่ค่อยสอดคล้องกัน
  • หากไม่นับประเด็นจริยธรรมและเงื่อนไขที่จำกัด ผู้โพสต์อาจไม่จำเป็นต้องใช้ GPT-4 กับสิ่งที่ทำก็ได้ ถ้าใช้ Mixtral หรือ 3.5 สร้างคู่พรอมป์ต์-คำตอบดี ๆ ชุดแรก 100 คู่ แล้วให้ผู้โพสต์ปรับแต่งด้วยมือล่ะ มันจะแย่กว่าหรือยากกว่าขนาดไหน?
  • กำลังพัฒนาแอปโปรเจกต์เสริมที่ใช้ AI สรุปคอนเทนต์ในสเกลใหญ่ และหวังว่ามันจะกลายเป็น SaaS ที่ทำรายได้ได้ เพื่อให้ออกสู่ตลาดเร็ว ตอนนี้ตั้งใจจะใช้ OpenAI ไปก่อน แต่คาดว่าในภายหลังน่าจะย้ายไปใช้ตัวเลือก LLM แบบ self-hosted ที่คุ้มค่าทั้งด้านเศรษฐศาสตร์และเทคนิคได้ หากใครมีประสบการณ์ด้านนี้ก็อยากได้ทิปหรือเทคนิคมาแชร์
  • สงสัยว่าสิ่งนี้ไม่ขัดกับข้อกำหนดการใช้งานของ OpenAI หรือ?
  • มีคนขอให้อธิบายว่าลดต้นทุนลงเหลือ $1 ได้อย่างไร โดยเปลี่ยน GPT-4 เป็น Mixtral 8x7b เวอร์ชันที่ปรับแต่งแล้ว แต่นั่นต้องใช้ GPU หลายตัว ต่อให้มีการ quantize โมเดลเอง ก็ยังมีค่าใช้จ่ายด้านฮาร์ดแวร์และโครงสร้างพื้นฐาน ซึ่งน่าจะเกิน $1 อยู่ดี หรือว่ากำลัง self-host อยู่?
  • มีการกล่าวถึงแนวทาง knowledge distillation แบบดั้งเดิม โดยอ้างว่าที่นี่อาจไม่จำเป็นต้องใช้ 8x7b เพื่อการปรับจูน และอีกไม่นาน phi-2 หรือโมเดล phixtral ก็น่าจะแข็งแรงพอสำหรับโดเมนลักษณะนี้
  • แม้ไม่ต้องเปลี่ยนแปลงอะไรเลย ก็ได้ผลลัพธ์ที่ยอดเยี่ยมจาก openhermes 7b chat ซึ่งครอบคลุม use case ของ GPT-4 ได้ 90% และรันได้รวดเร็ว แนะนำเลย