• วันนี้ OpenAI เปิดตัว GPT-4.5
  • เหตุผลที่ รอคอยมาราว 2 ปีนับตั้งแต่ GPT-4 เปิดตัว ก็เพราะรีลีสครั้งนี้เปิดโอกาสให้ วัดผลเชิงปริมาณของการปรับปรุงที่ได้จากการฝึกโมเดลให้ใหญ่ขึ้น
    • ตัวเลข ".5" ของแต่ละเวอร์ชันโดยประมาณหมายถึง การใช้คอมพิวต์สำหรับ pretraining มากขึ้น 10 เท่า
  • กระบวนการพัฒนาของโมเดล GPT
    • GPT-1 → แทบยังสร้างประโยคที่มีความหมายไม่ได้
    • GPT-2 → อยู่ในระดับของเล่นทดลองที่ยังไม่ค่อยลงตัว
    • GPT-2.5 → แทบถูกข้ามไปและเปลี่ยนผ่านสู่ GPT-3 โดยตรง
    • GPT-3 → แสดงให้เห็นพัฒนาการที่น่าสนใจ
    • GPT-3.5 → พัฒนาจนออกเป็นผลิตภัณฑ์จริงได้ และจุดกระแส ChatGPT
    • GPT-4 → ดีขึ้นอีก แต่หาจุด "ว้าว" ที่ชัดเจนได้ยาก
  • โดยเฉพาะเมื่อ เทียบ GPT-4 กับ GPT-3.5:
    • การเลือกใช้คำสร้างสรรค์ขึ้น และเข้าใจความละเอียดอ่อนของพรอมป์ต์ได้ดีขึ้น
    • การเปรียบเทียบเชิงอุปมา (analogy) เหมาะสมขึ้น และเซนส์เรื่องตลกดีขึ้นเล็กน้อย
    • ความเข้าใจในโดเมนความรู้ที่ไม่ค่อยพบบ่อยดีขึ้น และความถี่ของอาการหลอนลดลงเล็กน้อย
    • โดยรวมคือ รู้สึกว่าทุกอย่างดีขึ้นราว 20%
    • มันเป็นการปรับปรุงแบบ น้ำขึ้นแล้วเรือทุกลำลอยสูงขึ้นตาม

ความรู้สึกจากการทดสอบ GPT-4.5

  • GPT-4.5 ผ่าน pretraining มากกว่า GPT-4 ถึง 10 เท่า
  • และจากที่ลองทดสอบดู ก็พบว่า รูปแบบ 20% แบบเดิมเกิดขึ้นอีกครั้ง
  • ทุกอย่างดีขึ้นเล็กน้อย
    • แต่ไม่มี "จุดนวัตกรรมที่ชัดเจน" ที่ชี้เฉพาะได้
    • ถึงอย่างนั้นก็เป็น ตัวชี้วัดที่น่าสนใจและสำคัญสำหรับการวัดความชันของทิศทางการพัฒนาโมเดลโดยรวม

GPT-4.5 ยังไม่ใช่โมเดล "reasoning"

  • GPT-4.5 ใช้เพียง pretraining, supervised fine-tuning (SFT), RLHF
  • ดังนั้น ในโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะ เช่น คณิตศาสตร์และการเขียนโค้ด จึงไม่ได้ดีขึ้น
  • ในด้านเหล่านี้ จำเป็นต้องมี reinforcement learning (RL) และการฝึกการคิดอย่างเป็นระบบ ซึ่งตอนนี้โมเดล OpenAI o1 ให้ประสิทธิภาพดีที่สุด
  • เป็นไปได้สูงว่า OpenAI จะต่อยอดจาก GPT-4.5 ด้วย การใช้ reinforcement learning เพื่อพัฒนาเป็นโมเดลที่ "คิด" ได้
  • และจะพยายามยกระดับ ความสามารถด้านคณิตศาสตร์ ตรรกะ และการเขียนโค้ด

จุดแข็งของ GPT-4.5: EQ

  • มันดีขึ้นในงานที่ไม่ได้เน้นการให้เหตุผลเชิงตรรกะ แต่ ให้ความสำคัญกับความรู้เกี่ยวกับโลก ความคิดสร้างสรรค์ การอุปมาอุปไมย และเซนส์ด้านอารมณ์ขันหรือความฉลาดทางอารมณ์ (EQ)

เลยตั้งใจจะทำการทดลองแบบอินเทอร์แอกทีฟ: "โหวตเปรียบเทียบ GPT-4 vs GPT-4.5"

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น