- การสรุป (Summarizing) เป็นหนึ่งในการประยุกต์ใช้ LLM ที่ใช้งานได้จริงมากที่สุด แต่ต้องสามารถเชื่อถือได้ว่าบทสรุปนั้นถูกต้องแม่นยำ
- แม้อยากใช้โอเพนซอร์ส LLM อย่าง Llama2 เพราะปัญหาเรื่องต้นทุนหรือการเข้าถึงข้อมูล แต่ก็ยังไม่มั่นใจในความแม่นยำ
- จากการทดลองพบว่า Llama-2-70b มีความถูกต้องเชิงข้อเท็จจริงพอๆ กับ gpt-4 และดีกว่า gpt-3.5-turbo อย่างชัดเจน
- เปรียบเทียบ Llama 2 7b/13b/70b กับ gpt-3.5/4 โดยใช้ Anyscale Endpoint
- นำประโยคข่าว 373 ประโยคที่ผ่านการตรวจสอบโดยผู้ประเมิน 3 คนมาทำฉลาก พร้อมระบุคำตอบที่ถูกและผิดอย่างละหนึ่งข้อ
- ให้ LLM แต่ละตัวเลือกว่าข้อความใดเป็นบทสรุปที่ถูกต้องและอิงข้อเท็จจริง
- ปัญหา 2 อย่าง
- โมเดลขนาดเล็กทำตามคำสั่งได้ไม่ดีนัก ขณะที่โมเดลขนาดใหญ่ทำตามแนวทางได้ดีกว่า จึงต้องใช้ LLM อื่นช่วยตีความเอาต์พุตของ LLM ขนาดเล็ก
- อคติจากลำดับการนำเสนอ คำตอบจะเปลี่ยนไปตามสิ่งที่ถูกแสดงก่อน จึงต้องทดสอบโดยสลับลำดับด้วย
- ผลลัพธ์
- มนุษย์ : 84% (อ้างอิงจากงานวิจัยก่อนหน้า)
- gpt-3.5-turbo: ตอบถูก 67.0% (มีปัญหาอคติจากลำดับอย่างรุนแรง)
- gpt-4: ตอบถูก 85.5%
- Llama-2-7b: มีปัญหาอคติจากลำดับรุนแรงมาก ความแม่นยำต่ำกว่าการสุ่ม
- Llama-2-13b: ตอบถูก 58.9%
- Llama-2-70b: 81.7%
- ต้นทุน (สำหรับการสรุป 100K คำ)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19
5 ความคิดเห็น
ค่าใช้จ่ายของ GPT-4 นี่สูงกว่ารุ่น GPT อื่น ๆ แบบทิ้งห่างจริง ๆ นะ...
เขียนไปแบบไม่ได้คิดอะไรเลย... ตอนนี้ใช้โควตาเกิน $120 ต่อเดือนจนต้องยื่นขอเพิ่มแล้วครับ
ตอนนี้ก็ยังแพงอยู่แน่ ๆ หวังว่าราคาจะรีบลดลงมาอยู่ระดับเดียวกับ GPT-3.5 เร็ว ๆ นี้นะครับ 555
ปกติผมใช้ Universal Summarizer ของ Kagi สำหรับการสรุปอยู่เสมอครับ
รู้สึกว่าใช้ง่ายกว่า ChatGPT ด้วย และโทเคนก็ไม่จำกัด...
แต่ภาษาเกาหลีนี่เหมือนแค่แปลผลลัพธ์ออกมาให้ เลยเห็นได้ชัดว่าคุณภาพภาษาเกาหลียังด้อยกว่าแม้แต่ GPT 3.5 อยู่พอสมควร
ดูเหมือนว่าโมเดลระดับเอนเตอร์ไพรส์ที่ใช้ได้เฉพาะแบบเสียเงินจะดีกว่า แต่ถ้าจำไม่ผิดคิดค่าบริการประมาณ 1 ดอลลาร์ต่อการสรุป เลยรู้สึกว่าแพงเกินไปสำหรับการใช้งานส่วนตัวครับ
ดูเหมือนว่าฟังก์ชันการสรุปจะเป็นปัจจัยสำคัญในการเลือกใช้ LLM อย่างแน่นอน
ปัญหาคือ.. การทดลองนี้ไม่ได้ให้ LLM สรุปเนื้อหา แต่ให้ตัดสินสิ่งที่ถูกสรุปมาแล้ว..
พอลองใช้ดู GPT-4 ก็ทำผลงานด้านการสรุปได้ยอดเยี่ยมจริง ๆ ครับ เรื่องการแปลภาษาเกาหลีก็ยังมีปัญหาด้วย
ผมเกือบจะใจอ่อนเพราะค่าใช้จ่ายของ GN⁺ แล้ว.. แต่ตอนนี้คงยังต้องใช้ gpt-4 ต่อไปเหมือนเดิมครับ