Llama2 มีความแม่นยำในการสรุปพอๆ กับ GPT-4 แต่ถูกกว่าถึง 30 เท่า

xguru · 2023-08-30T11:08:02+09:00

การสรุป (Summarizing) เป็นหนึ่งในการประยุกต์ใช้ LLM ที่ใช้งานได้จริงมากที่สุด แต่ต้องสามารถเชื่อถือได้ว่าบทสรุปนั้นถูกต้องแม่นยำ แม้อยากใช้โอเพนซอร์ส LLM อย่าง Llama2 เพราะปัญหาเรื่องต้นทุนหรือการเข้าถึงข้อมูล แต่ก็ยังไม่มั่นใจในความแม่นยำ จากการทดลองพบว่า Llama-2-70b มีความถูกต้องเชิงข้อเท็จจริงพอๆ กับ gpt-4 และดีกว่า gpt-3.5-turbo อย่างชัดเจน เปรียบเทียบ Llama 2 7b/13b/70b กับ gpt-3.5/4 โดยใช้ Anyscale Endpoint นำประโยคข่าว 373 ประโยคที่ผ่านการตรวจสอบโดยผู้ประเมิน 3 คนมาทำฉลาก พร้อมระบุคำตอบที่ถูกและผิดอย่างละหนึ่งข้อ ให้ LLM แต่ละตัวเลือกว่าข้อความใดเป็นบทสรุปที่ถูกต้องและอิงข้อเท็จจริง ปัญหา 2 อย่าง โมเดลขนาดเล็กทำตามคำสั่งได้ไม่ดีนัก ขณะที่โมเดลขนาดใหญ่ทำตามแนวทางได้ดีกว่า จึงต้องใช้ LLM อื่นช่วยตีความเอาต์พุตของ LLM ขนาดเล็ก อคติจากลำดับการนำเสนอ คำตอบจะเปลี่ยนไปตามสิ่งที่ถูกแสดงก่อน จึงต้องทดสอบโดยสลับลำดับด้วย ผลลัพธ์ มนุษย์ : 84% (อ้างอิงจากงานวิจัยก่อนหน้า) gpt-3.5-turbo: ตอบถูก 67.0% (มีปัญหาอคติจากลำดับอย่างรุนแรง) gpt-4: ตอบถูก 85.5% Llama-2-7b: มีปัญหาอคติจากลำดับรุนแรงมาก ความแม่นยำต่ำกว่าการสุ่ม Llama-2-13b: ตอบถูก 58.9% Llama-2-70b: 81.7% ต้นทุน (สำหรับการสรุป 100K คำ) gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 คะแนน โดย xguru 2023-08-30 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

การสรุป (Summarizing) เป็นหนึ่งในการประยุกต์ใช้ LLM ที่ใช้งานได้จริงมากที่สุด แต่ต้องสามารถเชื่อถือได้ว่าบทสรุปนั้นถูกต้องแม่นยำ
แม้อยากใช้โอเพนซอร์ส LLM อย่าง Llama2 เพราะปัญหาเรื่องต้นทุนหรือการเข้าถึงข้อมูล แต่ก็ยังไม่มั่นใจในความแม่นยำ
จากการทดลองพบว่า Llama-2-70b มีความถูกต้องเชิงข้อเท็จจริงพอๆ กับ gpt-4 และดีกว่า gpt-3.5-turbo อย่างชัดเจน
เปรียบเทียบ Llama 2 7b/13b/70b กับ gpt-3.5/4 โดยใช้ Anyscale Endpoint
- นำประโยคข่าว 373 ประโยคที่ผ่านการตรวจสอบโดยผู้ประเมิน 3 คนมาทำฉลาก พร้อมระบุคำตอบที่ถูกและผิดอย่างละหนึ่งข้อ
- ให้ LLM แต่ละตัวเลือกว่าข้อความใดเป็นบทสรุปที่ถูกต้องและอิงข้อเท็จจริง
ปัญหา 2 อย่าง
- โมเดลขนาดเล็กทำตามคำสั่งได้ไม่ดีนัก ขณะที่โมเดลขนาดใหญ่ทำตามแนวทางได้ดีกว่า จึงต้องใช้ LLM อื่นช่วยตีความเอาต์พุตของ LLM ขนาดเล็ก
- อคติจากลำดับการนำเสนอ คำตอบจะเปลี่ยนไปตามสิ่งที่ถูกแสดงก่อน จึงต้องทดสอบโดยสลับลำดับด้วย
ผลลัพธ์
- มนุษย์ : 84% (อ้างอิงจากงานวิจัยก่อนหน้า)
- gpt-3.5-turbo: ตอบถูก 67.0% (มีปัญหาอคติจากลำดับอย่างรุนแรง)
- gpt-4: ตอบถูก 85.5%
- Llama-2-7b: มีปัญหาอคติจากลำดับรุนแรงมาก ความแม่นยำต่ำกว่าการสุ่ม
- Llama-2-13b: ตอบถูก 58.9%
- Llama-2-70b: 81.7%
ต้นทุน (สำหรับการสรุป 100K คำ)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5 ความคิดเห็น

mhj5730 2023-08-30

ค่าใช้จ่ายของ GPT-4 นี่สูงกว่ารุ่น GPT อื่น ๆ แบบทิ้งห่างจริง ๆ นะ...

xguru 2023-08-30

เขียนไปแบบไม่ได้คิดอะไรเลย... ตอนนี้ใช้โควตาเกิน $120 ต่อเดือนจนต้องยื่นขอเพิ่มแล้วครับ
ตอนนี้ก็ยังแพงอยู่แน่ ๆ หวังว่าราคาจะรีบลดลงมาอยู่ระดับเดียวกับ GPT-3.5 เร็ว ๆ นี้นะครับ 555

kuroneko 2023-08-30

ปกติผมใช้ Universal Summarizer ของ Kagi สำหรับการสรุปอยู่เสมอครับ
รู้สึกว่าใช้ง่ายกว่า ChatGPT ด้วย และโทเคนก็ไม่จำกัด...

แต่ภาษาเกาหลีนี่เหมือนแค่แปลผลลัพธ์ออกมาให้ เลยเห็นได้ชัดว่าคุณภาพภาษาเกาหลียังด้อยกว่าแม้แต่ GPT 3.5 อยู่พอสมควร
ดูเหมือนว่าโมเดลระดับเอนเตอร์ไพรส์ที่ใช้ได้เฉพาะแบบเสียเงินจะดีกว่า แต่ถ้าจำไม่ผิดคิดค่าบริการประมาณ 1 ดอลลาร์ต่อการสรุป เลยรู้สึกว่าแพงเกินไปสำหรับการใช้งานส่วนตัวครับ

ragingwind 2023-08-30

ดูเหมือนว่าฟังก์ชันการสรุปจะเป็นปัจจัยสำคัญในการเลือกใช้ LLM อย่างแน่นอน

xguru 2023-08-30

ปัญหาคือ.. การทดลองนี้ไม่ได้ให้ LLM สรุปเนื้อหา แต่ให้ตัดสินสิ่งที่ถูกสรุปมาแล้ว..
พอลองใช้ดู GPT-4 ก็ทำผลงานด้านการสรุปได้ยอดเยี่ยมจริง ๆ ครับ เรื่องการแปลภาษาเกาหลีก็ยังมีปัญหาด้วย
ผมเกือบจะใจอ่อนเพราะค่าใช้จ่ายของ GN⁺ แล้ว.. แต่ตอนนี้คงยังต้องใช้ gpt-4 ต่อไปเหมือนเดิมครับ

Llama2 มีความแม่นยำในการสรุปพอๆ กับ GPT-4 แต่ถูกกว่าถึง 30 เท่า

บทความที่เกี่ยวข้อง

5 ความคิดเห็น