รีวิว GPT-4.5 ของ Andrej Karpathy

xguru · 2025-02-28T10:00:02+09:00

วันนี้ OpenAI เปิดตัว GPT-4.5 เหตุผลที่ รอคอยมาราว 2 ปีนับตั้งแต่ GPT-4 เปิดตัว ก็เพราะรีลีสครั้งนี้เปิดโอกาสให้ วัดผลเชิงปริมาณของการปรับปรุงที่ได้จากการฝึกโมเดลให้ใหญ่ขึ้น ตัวเลข ".5" ของแต่ละเวอร์ชันโดยประมาณหมายถึง การใช้คอมพิวต์สำหรับ pretraining มากขึ้น 10 เท่า กระบวนการพัฒนาของโมเดล GPT GPT-1 → แทบยังสร้างประโยคที่มีความหมายไม่ได้ GPT-2 → อยู่ในระดับของเล่นทดลองที่ยังไม่ค่อยลงตัว GPT-2.5 → แทบถูกข้ามไปและเปลี่ยนผ่านสู่ GPT-3 โดยตรง GPT-3 → แสดงให้เห็นพัฒนาการที่น่าสนใจ GPT-3.5 → พัฒนาจนออกเป็นผลิตภัณฑ์จริงได้ และจุดกระแส ChatGPT GPT-4 → ดีขึ้นอีก แต่หาจุด "ว้าว" ที่ชัดเจนได้ยาก โดยเฉพาะเมื่อ เทียบ GPT-4 กับ GPT-3.5: การเลือกใช้คำสร้างสรรค์ขึ้น และเข้าใจความละเอียดอ่อนของพรอมป์ต์ได้ดีขึ้น การเปรียบเทียบเชิงอุปมา (analogy) เหมาะสมขึ้น และเซนส์เรื่องตลกดีขึ้นเล็กน้อย ความเข้าใจในโดเมนความรู้ที่ไม่ค่อยพบบ่อยดีขึ้น และความถี่ของอาการหลอนลดลงเล็กน้อย โดยรวมคือ รู้สึกว่าทุกอย่างดีขึ้นราว 20% มันเป็นการปรับปรุงแบบ น้ำขึ้นแล้วเรือทุกลำลอยสูงขึ้นตาม ความรู้สึกจากการทดสอบ GPT-4.5 GPT-4.5 ผ่าน pretraining มากกว่า GPT-4 ถึง 10 เท่า และจากที่ลองทดสอบดู ก็พบว่า รูปแบบ 20% แบบเดิมเกิดขึ้นอีกครั้ง ทุกอย่างดีขึ้นเล็กน้อย แต่ไม่มี "จุดนวัตกรรมที่ชัดเจน" ที่ชี้เฉพาะได้ ถึงอย่างนั้นก็เป็น ตัวชี้วัดที่น่าสนใจและสำคัญสำหรับการวัดความชันของทิศทางการพัฒนาโมเดลโดยรวม GPT-4.5 ยังไม่ใช่โมเดล "reasoning" GPT-4.5 ใช้เพียง pretraining, supervised fine-tuning (SFT), RLHF ดังนั้น ในโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะ เช่น คณิตศาสตร์และการเขียนโค้ด จึงไม่ได้ดีขึ้น ในด้านเหล่านี้ จำเป็นต้องมี reinforcement learning (RL) และการฝึกการคิดอย่างเป็นระบบ ซึ่งตอนนี้โมเดล OpenAI o1 ให้ประสิทธิภาพดีที่สุด เป็นไปได้สูงว่า OpenAI จะต่อยอดจาก GPT-4.5 ด้วย การใช้ reinforcement learning เพื่อพัฒนาเป็นโมเดลที่ "คิด" ได้ และจะพยายามยกระดับ ความสามารถด้านคณิตศาสตร์ ตรรกะ และการเขียนโค้ด จุดแข็งของ GPT-4.5: EQ มันดีขึ้นในงานที่ไม่ได้เน้นการให้เหตุผลเชิงตรรกะ แต่ ให้ความสำคัญกับความรู้เกี่ยวกับโลก ความคิดสร้างสรรค์ การอุปมาอุปไมย และเซนส์ด้านอารมณ์ขันหรือความฉลาดทางอารมณ์ (EQ) เลยตั้งใจจะทำการทดลองแบบอินเทอร์แอกทีฟ: "โหวตเปรียบเทียบ GPT-4 vs GPT-4.5" เลือกพรอมป์ต์สำหรับประเมินเซนส์ตลก 5 แบบ สำหรับแต่ละพรอมป์ต์ จะ เปรียบเทียบคำตอบของ GPT-4 กับ GPT-4.5 ใช้ X (ทวิตเตอร์) พร้อม ภาพ (พรอมป์ต์และคำตอบ) + ฟังก์ชันโหวต เพื่อทำการทดลอง หลังจาก 8 ชั่วโมง จะเปิดเผยว่าแต่ละคำตอบเป็นของโมเดลใด

(x.com)

3 คะแนน โดย xguru 2025-02-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

วันนี้ OpenAI เปิดตัว GPT-4.5
เหตุผลที่ รอคอยมาราว 2 ปีนับตั้งแต่ GPT-4 เปิดตัว ก็เพราะรีลีสครั้งนี้เปิดโอกาสให้ วัดผลเชิงปริมาณของการปรับปรุงที่ได้จากการฝึกโมเดลให้ใหญ่ขึ้น
- ตัวเลข ".5" ของแต่ละเวอร์ชันโดยประมาณหมายถึง การใช้คอมพิวต์สำหรับ pretraining มากขึ้น 10 เท่า
กระบวนการพัฒนาของโมเดล GPT
- GPT-1 → แทบยังสร้างประโยคที่มีความหมายไม่ได้
- GPT-2 → อยู่ในระดับของเล่นทดลองที่ยังไม่ค่อยลงตัว
- GPT-2.5 → แทบถูกข้ามไปและเปลี่ยนผ่านสู่ GPT-3 โดยตรง
- GPT-3 → แสดงให้เห็นพัฒนาการที่น่าสนใจ
- GPT-3.5 → พัฒนาจนออกเป็นผลิตภัณฑ์จริงได้ และจุดกระแส ChatGPT
- GPT-4 → ดีขึ้นอีก แต่หาจุด "ว้าว" ที่ชัดเจนได้ยาก
โดยเฉพาะเมื่อ เทียบ GPT-4 กับ GPT-3.5:
- การเลือกใช้คำสร้างสรรค์ขึ้น และเข้าใจความละเอียดอ่อนของพรอมป์ต์ได้ดีขึ้น
- การเปรียบเทียบเชิงอุปมา (analogy) เหมาะสมขึ้น และเซนส์เรื่องตลกดีขึ้นเล็กน้อย
- ความเข้าใจในโดเมนความรู้ที่ไม่ค่อยพบบ่อยดีขึ้น และความถี่ของอาการหลอนลดลงเล็กน้อย
- โดยรวมคือ รู้สึกว่าทุกอย่างดีขึ้นราว 20%
- มันเป็นการปรับปรุงแบบ น้ำขึ้นแล้วเรือทุกลำลอยสูงขึ้นตาม

ความรู้สึกจากการทดสอบ GPT-4.5

GPT-4.5 ผ่าน pretraining มากกว่า GPT-4 ถึง 10 เท่า
และจากที่ลองทดสอบดู ก็พบว่า รูปแบบ 20% แบบเดิมเกิดขึ้นอีกครั้ง
ทุกอย่างดีขึ้นเล็กน้อย
- แต่ไม่มี "จุดนวัตกรรมที่ชัดเจน" ที่ชี้เฉพาะได้
- ถึงอย่างนั้นก็เป็น ตัวชี้วัดที่น่าสนใจและสำคัญสำหรับการวัดความชันของทิศทางการพัฒนาโมเดลโดยรวม

GPT-4.5 ยังไม่ใช่โมเดล "reasoning"

GPT-4.5 ใช้เพียง pretraining, supervised fine-tuning (SFT), RLHF
ดังนั้น ในโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะ เช่น คณิตศาสตร์และการเขียนโค้ด จึงไม่ได้ดีขึ้น
ในด้านเหล่านี้ จำเป็นต้องมี reinforcement learning (RL) และการฝึกการคิดอย่างเป็นระบบ ซึ่งตอนนี้โมเดล OpenAI o1 ให้ประสิทธิภาพดีที่สุด
เป็นไปได้สูงว่า OpenAI จะต่อยอดจาก GPT-4.5 ด้วย การใช้ reinforcement learning เพื่อพัฒนาเป็นโมเดลที่ "คิด" ได้
และจะพยายามยกระดับ ความสามารถด้านคณิตศาสตร์ ตรรกะ และการเขียนโค้ด

จุดแข็งของ GPT-4.5: EQ

มันดีขึ้นในงานที่ไม่ได้เน้นการให้เหตุผลเชิงตรรกะ แต่ ให้ความสำคัญกับความรู้เกี่ยวกับโลก ความคิดสร้างสรรค์ การอุปมาอุปไมย และเซนส์ด้านอารมณ์ขันหรือความฉลาดทางอารมณ์ (EQ)

เลยตั้งใจจะทำการทดลองแบบอินเทอร์แอกทีฟ: "โหวตเปรียบเทียบ GPT-4 vs GPT-4.5"

เลือกพรอมป์ต์สำหรับประเมินเซนส์ตลก 5 แบบ
สำหรับแต่ละพรอมป์ต์ จะ เปรียบเทียบคำตอบของ GPT-4 กับ GPT-4.5
ใช้ X (ทวิตเตอร์) พร้อม ภาพ (พรอมป์ต์และคำตอบ) + ฟังก์ชันโหวต เพื่อทำการทดลอง
หลังจาก 8 ชั่วโมง จะเปิดเผยว่าแต่ละคำตอบเป็นของโมเดลใด