- หลายคนพูดถึงเรื่องนี้กันมาบ้างแล้ว แต่จนถึงตอนนี้ยังเป็นเพียงข้อมูลแบบกระจัดกระจาย
- ในงานวิจัยที่เพิ่งเผยแพร่เมื่อไม่นานนี้ มีการเปรียบเทียบ GPT-4 เวอร์ชันเดือนมิถุนายนกับเวอร์ชันเดือนมีนาคมอย่างเป็นกลางด้วยโจทย์ 500 ข้อ
- ในเดือนมีนาคม ตอบถูก 488 ข้อ แต่ในเดือนมิถุนายนตอบถูกเพียง 12 ข้อ
- หมายความว่าในเวลาเพียง 3 เดือน อัตราความถูกต้องลดจาก 97.6% เหลือ 2.4%
- แต่นี่ยังแย่ลงไปอีก
- มีการให้มันใช้เทคนิค Chain-of-Thought เพื่อทำการให้เหตุผล
- เมื่อสั่งว่า
17077은 소수인가? Think step by step. GPT-4 ไม่ได้สร้างขั้นตอนกลางใด ๆ และตอบว่า "ไม่"
- ความสามารถในการสร้างโค้ดก็แย่ลงเช่นกัน
- มีการสร้างชุดข้อมูลจากปัญหาระดับง่าย 50 ข้อบน LeetCode แล้วนำมาทดสอบ
- เวอร์ชันเดือนมีนาคมสำเร็จ 52% แต่เวอร์ชันเดือนมิถุนายนสำเร็จเพียง 10%
- ทำไมเรื่องแบบนี้ถึงเกิดขึ้น?
- แม้จะพอคาดได้ว่า OpenAI มีการเปลี่ยนแปลงอย่างต่อเนื่อง แต่เราไม่รู้ว่ามันทำงานอย่างไร หรือพวกเขาประเมินกันอย่างไร
- ตามข่าวลือ พวกเขาใช้งานโมเดล GPT-4 ขนาดเล็กที่เชี่ยวชาญเฉพาะด้านหลายตัวมาผูกเข้าด้วยกัน ให้ทำงานเสมือนเป็นโมเดลขนาดใหญ่ แต่รันได้ด้วยต้นทุนที่ต่ำกว่า
- การทำให้ถูกลงและเร็วขึ้นอาจเป็นสาเหตุของคุณภาพที่ลดลงนี้หรือไม่?
- นี่คือสัญญาณเตือนสำหรับทุกคนที่กำลังสร้างแอปพลิเคชันซึ่งพึ่งพา GPT-4
- การที่พฤติกรรมของ LLM เปลี่ยนไปตามกาลเวลาเป็นสิ่งที่ยอมรับไม่ได้
- ใคร ๆ ก็สามารถทำซ้ำการทดลองนี้ได้บน Google Colab
6 ความคิดเห็น
ฉันยกเลิกการสมัครแล้ว รู้สึกได้เลยว่าส่วนที่แย่ลงมันชัดเจนมาก
แม้แต่ในชุมชนผู้ใช้ chatGPT ในประเทศก็มีรายงานแบบนี้ออกมาอย่างต่อเนื่อง ดูเหมือนว่าจะเป็นความจริงสินะ
ฉันใช้ gpt แบบเสียเงินทุกเดือนมาตั้งแต่เริ่มเก็บเงิน และเห็นด้วยกับเนื้อหานี้ครับ
แล้วก็ แม้จะเป็นผู้ใช้แบบเสียเงิน แต่ยังถูกจำกัดให้ถามเวอร์ชัน 4 ได้ 25 คำถามต่อ 3 ชั่วโมงอยู่ ซึ่งไม่พอใจมากครับ
วันนี้มีการเพิ่มฟีเจอร์คำสั่งแบบกำหนดเอง และว่ากันว่าปลดข้อจำกัดเป็น 50 รายการแล้ว
https://openai.com/blog/custom-instructions-for-chatgpt
ช่วงนี้มีแค่ผมหรือเปล่าที่รู้สึกว่าคุณภาพของ GPT-4 ลดลงอย่างเห็นได้ชัด?
บทความวิจัยดังกล่าว: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?