GPT-4 แย่ลงเรื่อย ๆ เมื่อเวลาผ่านไป

xguru · 2023-07-20T11:06:02+09:00

หลายคนพูดถึงเรื่องนี้กันมาบ้างแล้ว แต่จนถึงตอนนี้ยังเป็นเพียงข้อมูลแบบกระจัดกระจาย ในงานวิจัยที่เพิ่งเผยแพร่เมื่อไม่นานนี้ มีการเปรียบเทียบ GPT-4 เวอร์ชันเดือนมิถุนายนกับเวอร์ชันเดือนมีนาคมอย่างเป็นกลางด้วยโจทย์ 500 ข้อ ในเดือนมีนาคม ตอบถูก 488 ข้อ แต่ในเดือนมิถุนายนตอบถูกเพียง 12 ข้อ หมายความว่าในเวลาเพียง 3 เดือน อัตราความถูกต้องลดจาก 97.6% เหลือ 2.4% แต่นี่ยังแย่ลงไปอีก มีการให้มันใช้เทคนิค Chain-of-Thought เพื่อทำการให้เหตุผล เมื่อสั่งว่า 17077은 소수인가? Think step by step. GPT-4 ไม่ได้สร้างขั้นตอนกลางใด ๆ และตอบว่า "ไม่" ความสามารถในการสร้างโค้ดก็แย่ลงเช่นกัน มีการสร้างชุดข้อมูลจากปัญหาระดับง่าย 50 ข้อบน LeetCode แล้วนำมาทดสอบ เวอร์ชันเดือนมีนาคมสำเร็จ 52% แต่เวอร์ชันเดือนมิถุนายนสำเร็จเพียง 10% ทำไมเรื่องแบบนี้ถึงเกิดขึ้น? แม้จะพอคาดได้ว่า OpenAI มีการเปลี่ยนแปลงอย่างต่อเนื่อง แต่เราไม่รู้ว่ามันทำงานอย่างไร หรือพวกเขาประเมินกันอย่างไร ตามข่าวลือ พวกเขาใช้งานโมเดล GPT-4 ขนาดเล็กที่เชี่ยวชาญเฉพาะด้านหลายตัวมาผูกเข้าด้วยกัน ให้ทำงานเสมือนเป็นโมเดลขนาดใหญ่ แต่รันได้ด้วยต้นทุนที่ต่ำกว่า การทำให้ถูกลงและเร็วขึ้นอาจเป็นสาเหตุของคุณภาพที่ลดลงนี้หรือไม่? นี่คือสัญญาณเตือนสำหรับทุกคนที่กำลังสร้างแอปพลิเคชันซึ่งพึ่งพา GPT-4 การที่พฤติกรรมของ LLM เปลี่ยนไปตามกาลเวลาเป็นสิ่งที่ยอมรับไม่ได้ ใคร ๆ ก็สามารถทำซ้ำการทดลองนี้ได้บน Google Colab

(twitter.com/svpino)

17 คะแนน โดย xguru 2023-07-20 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

หลายคนพูดถึงเรื่องนี้กันมาบ้างแล้ว แต่จนถึงตอนนี้ยังเป็นเพียงข้อมูลแบบกระจัดกระจาย
ในงานวิจัยที่เพิ่งเผยแพร่เมื่อไม่นานนี้ มีการเปรียบเทียบ GPT-4 เวอร์ชันเดือนมิถุนายนกับเวอร์ชันเดือนมีนาคมอย่างเป็นกลางด้วยโจทย์ 500 ข้อ
ในเดือนมีนาคม ตอบถูก 488 ข้อ แต่ในเดือนมิถุนายนตอบถูกเพียง 12 ข้อ
- หมายความว่าในเวลาเพียง 3 เดือน อัตราความถูกต้องลดจาก 97.6% เหลือ 2.4%
แต่นี่ยังแย่ลงไปอีก
มีการให้มันใช้เทคนิค Chain-of-Thought เพื่อทำการให้เหตุผล
- เมื่อสั่งว่า 17077은 소수인가? Think step by step. GPT-4 ไม่ได้สร้างขั้นตอนกลางใด ๆ และตอบว่า "ไม่"
ความสามารถในการสร้างโค้ดก็แย่ลงเช่นกัน
- มีการสร้างชุดข้อมูลจากปัญหาระดับง่าย 50 ข้อบน LeetCode แล้วนำมาทดสอบ
- เวอร์ชันเดือนมีนาคมสำเร็จ 52% แต่เวอร์ชันเดือนมิถุนายนสำเร็จเพียง 10%
โฆษณา
ทำไมเรื่องแบบนี้ถึงเกิดขึ้น?
- แม้จะพอคาดได้ว่า OpenAI มีการเปลี่ยนแปลงอย่างต่อเนื่อง แต่เราไม่รู้ว่ามันทำงานอย่างไร หรือพวกเขาประเมินกันอย่างไร
- ตามข่าวลือ พวกเขาใช้งานโมเดล GPT-4 ขนาดเล็กที่เชี่ยวชาญเฉพาะด้านหลายตัวมาผูกเข้าด้วยกัน ให้ทำงานเสมือนเป็นโมเดลขนาดใหญ่ แต่รันได้ด้วยต้นทุนที่ต่ำกว่า
- การทำให้ถูกลงและเร็วขึ้นอาจเป็นสาเหตุของคุณภาพที่ลดลงนี้หรือไม่?
นี่คือสัญญาณเตือนสำหรับทุกคนที่กำลังสร้างแอปพลิเคชันซึ่งพึ่งพา GPT-4
- การที่พฤติกรรมของ LLM เปลี่ยนไปตามกาลเวลาเป็นสิ่งที่ยอมรับไม่ได้
ใคร ๆ ก็สามารถทำซ้ำการทดลองนี้ได้บน Google Colab

6 ความคิดเห็น

secret3056 2023-07-20

ฉันยกเลิกการสมัครแล้ว รู้สึกได้เลยว่าส่วนที่แย่ลงมันชัดเจนมาก

delimoni 2023-07-20

แม้แต่ในชุมชนผู้ใช้ chatGPT ในประเทศก็มีรายงานแบบนี้ออกมาอย่างต่อเนื่อง ดูเหมือนว่าจะเป็นความจริงสินะ

appcaster 2023-07-20

ฉันใช้ gpt แบบเสียเงินทุกเดือนมาตั้งแต่เริ่มเก็บเงิน และเห็นด้วยกับเนื้อหานี้ครับ
แล้วก็ แม้จะเป็นผู้ใช้แบบเสียเงิน แต่ยังถูกจำกัดให้ถามเวอร์ชัน 4 ได้ 25 คำถามต่อ 3 ชั่วโมงอยู่ ซึ่งไม่พอใจมากครับ

wedding 2023-07-21

วันนี้มีการเพิ่มฟีเจอร์คำสั่งแบบกำหนดเอง และว่ากันว่าปลดข้อจำกัดเป็น 50 รายการแล้ว

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

ช่วงนี้มีแค่ผมหรือเปล่าที่รู้สึกว่าคุณภาพของ GPT-4 ลดลงอย่างเห็นได้ชัด?

xguru 2023-07-20

บทความวิจัยดังกล่าว: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 แย่ลงเรื่อย ๆ เมื่อเวลาผ่านไป

บทความที่เกี่ยวข้อง

6 ความคิดเห็น