12 คะแนน โดย xguru 2023-08-30 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • การสรุป (Summarizing) เป็นหนึ่งในการประยุกต์ใช้ LLM ที่ใช้งานได้จริงมากที่สุด แต่ต้องสามารถเชื่อถือได้ว่าบทสรุปนั้นถูกต้องแม่นยำ
  • แม้อยากใช้โอเพนซอร์ส LLM อย่าง Llama2 เพราะปัญหาเรื่องต้นทุนหรือการเข้าถึงข้อมูล แต่ก็ยังไม่มั่นใจในความแม่นยำ
  • จากการทดลองพบว่า Llama-2-70b มีความถูกต้องเชิงข้อเท็จจริงพอๆ กับ gpt-4 และดีกว่า gpt-3.5-turbo อย่างชัดเจน
  • เปรียบเทียบ Llama 2 7b/13b/70b กับ gpt-3.5/4 โดยใช้ Anyscale Endpoint
    • นำประโยคข่าว 373 ประโยคที่ผ่านการตรวจสอบโดยผู้ประเมิน 3 คนมาทำฉลาก พร้อมระบุคำตอบที่ถูกและผิดอย่างละหนึ่งข้อ
    • ให้ LLM แต่ละตัวเลือกว่าข้อความใดเป็นบทสรุปที่ถูกต้องและอิงข้อเท็จจริง
  • ปัญหา 2 อย่าง
    • โมเดลขนาดเล็กทำตามคำสั่งได้ไม่ดีนัก ขณะที่โมเดลขนาดใหญ่ทำตามแนวทางได้ดีกว่า จึงต้องใช้ LLM อื่นช่วยตีความเอาต์พุตของ LLM ขนาดเล็ก
    • อคติจากลำดับการนำเสนอ คำตอบจะเปลี่ยนไปตามสิ่งที่ถูกแสดงก่อน จึงต้องทดสอบโดยสลับลำดับด้วย
  • ผลลัพธ์
    • มนุษย์ : 84% (อ้างอิงจากงานวิจัยก่อนหน้า)
    • gpt-3.5-turbo: ตอบถูก 67.0% (มีปัญหาอคติจากลำดับอย่างรุนแรง)
    • gpt-4: ตอบถูก 85.5%
    • Llama-2-7b: มีปัญหาอคติจากลำดับรุนแรงมาก ความแม่นยำต่ำกว่าการสุ่ม
    • Llama-2-13b: ตอบถูก 58.9%
    • Llama-2-70b: 81.7%
  • ต้นทุน (สำหรับการสรุป 100K คำ)
    • gpt-4 : $5.48
    • gpt-3.5-turbo : $0.25
    • Llama-2-7b : $0.05
    • Llama-2-13b : $0.09
    • Llama-2-70b : $0.19

5 ความคิดเห็น

 
mhj5730 2023-08-30

ค่าใช้จ่ายของ GPT-4 นี่สูงกว่ารุ่น GPT อื่น ๆ แบบทิ้งห่างจริง ๆ นะ...

 
xguru 2023-08-30

เขียนไปแบบไม่ได้คิดอะไรเลย... ตอนนี้ใช้โควตาเกิน $120 ต่อเดือนจนต้องยื่นขอเพิ่มแล้วครับ
ตอนนี้ก็ยังแพงอยู่แน่ ๆ หวังว่าราคาจะรีบลดลงมาอยู่ระดับเดียวกับ GPT-3.5 เร็ว ๆ นี้นะครับ 555

 
kuroneko 2023-08-30

ปกติผมใช้ Universal Summarizer ของ Kagi สำหรับการสรุปอยู่เสมอครับ
รู้สึกว่าใช้ง่ายกว่า ChatGPT ด้วย และโทเคนก็ไม่จำกัด...

แต่ภาษาเกาหลีนี่เหมือนแค่แปลผลลัพธ์ออกมาให้ เลยเห็นได้ชัดว่าคุณภาพภาษาเกาหลียังด้อยกว่าแม้แต่ GPT 3.5 อยู่พอสมควร
ดูเหมือนว่าโมเดลระดับเอนเตอร์ไพรส์ที่ใช้ได้เฉพาะแบบเสียเงินจะดีกว่า แต่ถ้าจำไม่ผิดคิดค่าบริการประมาณ 1 ดอลลาร์ต่อการสรุป เลยรู้สึกว่าแพงเกินไปสำหรับการใช้งานส่วนตัวครับ

 
ragingwind 2023-08-30

ดูเหมือนว่าฟังก์ชันการสรุปจะเป็นปัจจัยสำคัญในการเลือกใช้ LLM อย่างแน่นอน

 
xguru 2023-08-30

ปัญหาคือ.. การทดลองนี้ไม่ได้ให้ LLM สรุปเนื้อหา แต่ให้ตัดสินสิ่งที่ถูกสรุปมาแล้ว..
พอลองใช้ดู GPT-4 ก็ทำผลงานด้านการสรุปได้ยอดเยี่ยมจริง ๆ ครับ เรื่องการแปลภาษาเกาหลีก็ยังมีปัญหาด้วย
ผมเกือบจะใจอ่อนเพราะค่าใช้จ่ายของ GN⁺ แล้ว.. แต่ตอนนี้คงยังต้องใช้ gpt-4 ต่อไปเหมือนเดิมครับ