ช่วงนี้มีแค่ผมหรือเปล่าที่รู้สึกว่าคุณภาพของ GPT-4 ตกลงอย่างชัดเจน?
(news.ycombinator.com)ขอนำคำตอบหลากหลายจากคำถามที่ขึ้นบน HN มาแปลต่อ
- เร็วขึ้นกว่าเมื่อก่อน แต่คุณภาพของผลลัพธ์ตกลงมาก จนให้ความรู้สึกเหมือน GPT-3.5++ สร้างโค้ดที่มีบั๊กมากขึ้น และคำตอบก็ดูตื้นเขินลง
- เหมือนถูกเนิร์ฟโดยเพิ่มเลเยอร์มาคอยจัดประเภทงานโค้ดดิ้งบางอย่าง เลยตอบอะไรที่ไม่จำเป็น ทำให้กำลังจะยกเลิกสมาชิกพรีเมียมแล้วไปมองฝั่งโมเดล DIY แทน
- ก่อนอัปเดต มันแก้ปัญหาโค้ดดิ้งที่ซับซ้อนมากได้ และยังตอบคำถามที่ไม่ใช่การเขียนโปรแกรมได้อย่างรอบคอบมาก แต่ตอนนี้ไม่เหมือนเดิมแล้ว GPT-4 ดั้งเดิมเคยเหมือนเวทมนตร์ แต่ตอนนี้เหมือนนกแก้วเชิงความน่าจะเป็นที่ทื่อ ๆ
- รู้สึกว่าให้แต่คำตอบผิวเผิน แล้วเหมือนพยายามชวนให้ไปตามต่อที่อื่น
- ฝั่งโค้ดดิ้งนี่แย่ลงเรื่อย ๆ อย่างชัดเจน ทุกครั้งที่มีเวอร์ชันใหม่ออกมา ผมจะให้ทำสิ่งเดิมเทียบกัน แล้วมันยิ่งแปลกขึ้นเรื่อย ๆ
- สำหรับผมมันยังโอเคอยู่ แต่เริ่มเบื่อที่ทุกคำตอบมักมีประโยคอธิบายว่าโลกนี้ซับซ้อนแค่ไหน ใช่ ผมก็รู้อยู่แล้ว อย่าพูดกับผมเหมือนเด็ก
- นี่แหละคือเหตุผลที่โมเดลโอเพนซอร์ซสำคัญ และก็เป็นเหตุผลที่มีทั้งการกำกับดูแลและการล็อบบี้ ลองคิดดูว่าคนทั่วไปได้ใช้ AI ที่ถูกตอนความสามารถ (Neutered) ขณะที่ชนชั้นบนได้ใช้ GPT-4 แบบดิบ ๆ
- นักวิจัยที่เขียนบทความ "Sparks of AGI" ก็ชี้ว่า ยิ่ง OpenAI ทำ alignment ให้ GPT-4 มากขึ้น ความสามารถก็ยิ่งลดลง และแนวโน้มนั้นก็กำลังดำเนินต่อไป
10 ความคิดเห็น
ผมรู้สึกว่าแย่ลงไปพักหนึ่งแล้วหลังจากนั้นประสิทธิภาพก็ดีขึ้นอีกครั้ง
ดูเหมือนว่าการปรับปรุงพรอมป์ที่ใช้อยู่ก็มีส่วนเหมือนกันครับ
ช่วงนี้ผมถามตอบเรื่องโค้ดแล้วเห็นว่าต่อให้ช่วยแก้คำตอบที่ผิดให้ ก็ยังวนกลับไปผิดแบบเดิมซ้ำๆ เลยสงสัยว่าทำไมเป็นแบบนี้ สรุปว่าไม่ได้เป็นอยู่คนเดียวสินะ
ดูเหมือนว่า Generative AI จะเป็นประเด็นร้อนจริง ๆ นะครับ มีโพสต์ติดตามออกมาด้วย...
https://news.ycombinator.com/item?id=36155267
ผมก็รู้สึกเหมือนกัน...
ความเร็วในการตอบก็ดูช้าลง แถมยังดูโง่ลงอีก
ช่วงหลัง ๆ พอให้โค้ดประมาณ 200 บรรทัด GPT-4 กลับติดข้อจำกัดอินพุตสูงสุด
แต่ GPT-3 กลับจัดการให้ได้ซะงั้น?..
ไม่รู้ว่าเป็นเพราะตั้งค่า alignment พลาดจนพังชั่วคราว.. หรือจงใจเนิร์ฟมันกันแน่..
อ๋อ ผมก็รู้สึกเหมือนกันครับ ที่แท้ไม่ได้มีแค่ผมคนเดียวสินะ.. คนที่ใช้ gpt ทุกวันเหมือนจะสัมผัสได้แบบแผ่ว ๆ จากประสบการณ์ตรงเลย
ผมรู้สึกแบบนั้นมากตอนเขียน JD ครับ คือมีความต่างด้านคุณภาพแบบละเอียดอ่อนระหว่างสิ่งที่เขียนเมื่อเดือนครึ่งก่อนกับที่เขียนช่วงหลังด้วยพรอมป์ต์เดียวกัน จะว่าอย่างไรก็ดูเหมือนขาดความใส่ใจไปหน่อยไหมครับ?
ดูเหมือนว่า GPT-4 ที่เคยมีประสิทธิภาพสุดยอดตอนเปิดตัวในช่วงแรก จะไม่มีอีกแล้ว...
ช่วงแรก ๆ ของ gpt4 มันดีจนทำให้นึกว่าอาจมีคนคอยตอบอยู่ข้างหลังหรือเปล่า (SimSimi??)
จริยธรรมมันน่ากลัวขนาดนี้เลย
ผมไม่ได้อยากได้คำตอบเชิงศีลธรรมจาก GPT แต่รู้สึกเหมือนเครื่องมันคิดโน่นคิดนี่เยอะเกินไป ประมาณว่า ถ้าตอบแบบนี้จะไม่ผิดศีลธรรมหรือเปล่า? พอผ่านการกรองแบบนี้มากเกินไป คำตอบเลยยิ่งดูแปลกๆ
มีคอมเมนต์มากกว่า 600 รายการเลยนะครับ
สำหรับผม อย่างแรกเลยคือ ต่อให้สั่งเหมือนกันก็ได้ผลลัพธ์ที่ต่างกันมากเกินไป เลยรู้สึกหงุดหงิดนิดหน่อย.. ทั้งที่ตั้ง
temperatureไว้ต่ำแล้วก็ตาม