GPT-4.5: ไม่ใช่ "frontier model" อย่างนั้นหรือ?

(interconnects.ai)

2 คะแนน โดย GN⁺ 2025-03-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

พร้อมกับการเปิดตัว GPT-4.5 ทาง OpenAI ได้เผยแพร่ system card ของโมเดลก่อน
ใน system card ฉบับแรกมีข้อความ "GPT-4.5 is not a frontier model" (GPT-4.5 ไม่ใช่โมเดลแนวหน้าที่ล้ำที่สุด) รวมอยู่ด้วย
- ต่อมาข้อความนี้ถูกลบออกจากทั้งโพสต์บล็อกทางการและ system card ฉบับอัปเดต
ดูเหมือนว่าจะมีใครบางคนใน OpenAI รู้สึกว่าจำเป็นต้องใส่ข้อความนั้นไว้ แต่คำถามคือ "แล้วทำไม OpenAI ถึงปล่อยมันออกมา?"
ความขัดแย้งหลักของคำกล่าวที่ว่าไม่ใช่ frontier model คือ GPT-4.5 เป็นโมเดลที่ใหญ่ที่สุดที่บุคคลทั่วไปสามารถทดสอบได้
- แต่แม้จะขยายไปถึงขนาดนี้ ก็ไม่ได้ทำให้เกิดการกระโดดของความสามารถอย่างชัดเจนในสิ่งที่เราวัดกัน
- การเปลี่ยนจาก GPT-3.5 → GPT-4 คือจาก พอใช้ (Okay) ไปเป็น ดี (Good)
- การเปลี่ยนจาก GPT-4o → GPT-4.5 คือจาก ยอดเยี่ยม (Great) ไปเป็น ยอดเยี่ยมมาก (Really Great)
เนื่องจากการแยกความต่างของโมเดลรุ่นใหม่ ๆ ทำได้ยากมาก ผู้ที่ลงทุนใน AI และคาดหวังความก้าวหน้าอาจเข้าใจไปว่ามันดีกว่าความเป็นจริง
นี่คือช่วงเวลาที่ ข้อจำกัดทางเศรษฐศาสตร์ของการสเกลเริ่มชัดเจนขึ้น โดยไม่มีการยกระดับประสิทธิภาพครั้งใหญ่ตามที่คาดหวัง
- Anthropic ก็เผชิญปัญหาคล้ายกัน และมีการยืนยันว่าหลัง Claude 3.7 จะ ฝึกโมเดลที่ใหญ่กว่านี้มาก
GPT-4.5 เป็น โมเดลที่แสดงให้เห็นถึงพัฒนาการแบบค่อยเป็นค่อยไป ซึ่งต่างจากการก้าวกระโดดเชิงนวัตกรรมในอดีต
- มันแสดงให้เห็นว่าในการวิจัย AI นั้น “การขยาย pretraining แบบตรงไปตรงมาอย่างเดียว ไม่สามารถสร้างนวัตกรรมระดับเดิมได้อีกแล้ว”
- ภายใน OpenAI เองน่าจะใช้ GPT-4.5 มานานแล้ว และมีโอกาสสูงว่า ใช้เป็นฐานสำหรับฝึกโมเดลอื่นต่อ (ดูจากการที่ cutdate อยู่ที่ปี 2023)

GPT-4.5 เด่นเรื่องอะไร

(ตัวเลขประมาณการบางส่วนเกี่ยวกับจำนวนพารามิเตอร์ของ GPT-4.5 และ GPT-4o เป็นเพียงการคาดเดา ไม่ได้อิงจากข้อมูลรั่วไหล จึงมีช่วงคลาดเคลื่อนสูงและควรใช้ด้วยความระมัดระวัง)
GPT-4.5 เป็น โมเดลขนาดใหญ่มาก และอาจใหญ่กว่า Grok 3
- GPT-4 เป็นโมเดลแบบ mixture-of-experts (MoE) ที่คาดว่ามี พารามิเตอร์รวมมากกว่า 1 ล้านล้าน (1T) และมี active parameters ราว 200B
- มีข่าวลือว่าโมเดลอย่าง GPT-4o หรือ Gemini Pro ลด active parameters ลงมาเหลือเพียง 60B
- กล่าวคือ โมเดลรุ่นใหม่กำลังพัฒนาไปในทิศทางของ การลด active parameters และปรับโครงสร้างพื้นฐานให้เหมาะสม เพื่อเพิ่มความเร็วและลดต้นทุน
คาดว่า GPT-4.5 ต้องใช้ พลังประมวลผลมากกว่า GPT-4 ราว 10 เท่า (10X compute)
- พารามิเตอร์มากขึ้น 5 เท่า + ชุดข้อมูลใหญ่ขึ้น 2 เท่า = ปริมาณคอมพิวต์เพิ่มขึ้น 10 เท่า
- พารามิเตอร์รวมอาจสูงถึง 5-7 ล้านล้าน (5T-7T) และ active parameters น่าจะอยู่ราว 600B
แต่ถึงจะสเกลขึ้นมาขนาดนี้ ผู้ใช้ก็ยังรู้สึกถึงการเพิ่มขึ้นของประสิทธิภาพได้ไม่ง่ายนัก
จากตรงนี้สถานการณ์เริ่มแปลกมาก สิ่งที่ OpenAI เน้นในการประกาศครั้งนี้มี 2 อย่าง
- ลดอาการหลอน (Hallucination) : ลดความถี่ที่โมเดลสร้างข้อมูลที่ไม่เป็นจริง
- เพิ่มความฉลาดทางอารมณ์ (Emotional Intelligence) : เข้าใจและถ่ายทอดบริบทกับอารมณ์ได้ดีขึ้น
- แต่ทั้ง 2 อย่างนี้เป็นคุณสมบัติที่ประเมินแบบภววิสัยได้ยาก
ประสิทธิภาพบน benchmark (อิงตามข้อมูลที่ OpenAI ให้)
- SimpleQA: GPT-4.5 แสดงการพัฒนาขนาดใหญ่ในการประเมินความรู้โลกของโมเดล AI
- PersonQA: ทำผลงานดีที่สุดในการประเมินคำถามเกี่ยวกับบุคคลรายคน
- GPQA (Google-proof QA): ทำผลงานได้ดีในตัวชี้วัดที่ประเมินการให้เหตุผลเชิงตรรกะโดยไม่อาศัยการค้นข้อมูล
หลังเปิดตัวไม่นาน ก็มีความเห็นจากผู้เชี่ยวชาญ AI ว่า GPT-4.5 ใช้งานสบายและเขียนได้ดีกว่า
- แต่ในการประเมินด้านโค้ดและสมรรถนะเชิงเทคนิค กลับถูกมองว่าอยู่ ระดับกลางเมื่อเทียบกับโมเดลคู่แข่งอย่าง Claude 3.7, R1 เป็นต้น
เปรียบเทียบสไตล์การเขียน (ผลสำรวจบน X/Twitter ของ Karpathy)
- GPT-4.5 vs. GPT-4o-latest: ผู้ใช้ส่วนใหญ่ ชอบสไตล์การเขียนของ GPT-4o-latest มากกว่า
- ทำไม? เป็นไปได้สูงว่า GPT-4o-latest คือโมเดลที่ กลั่น (distilled) มาจากโมเดลใหม่นี้ซึ่งก่อนหน้านี้ถูกเรียกว่า Orion1 และเพราะมันมีขนาดเล็กกว่ามาก ความเร็วในการวนปรับแต่งจึงต่างกันราวฟ้ากับเหว ทำให้ post-training ทำได้ดีกว่า
ทั้งหมดนี้คือราคาที่ OpenAI ต้องจ่ายเพื่อ กลับไปครองอันดับ 1 บน ChatBotArena อีกครั้ง
- คาดว่า GPT 4.5 จะทำได้ แต่ผลลัพธ์ยังไม่แน่นอน
จากการที่ผู้เขียนได้ลองใช้ล่วงหน้าด้วยตนเอง แม้จะช้าและทำให้รู้สึกติดขัดในตอนแรก แต่ด้วยความน่าเชื่อถือที่สูง จึงยังคุ้มค่าที่จะใช้ต่อ
- อย่างไรก็ตาม ไม่ได้จำเป็นต้องเลือก GPT-4.5 ถึงขั้นยอมจ่ายเพิ่ม และ o1 Pro ของ OpenAI รวมถึงบริการเสียเงินอื่น ๆ ให้ความคุ้มค่าต่อราคาดีกว่า

ทำไม GPT-4.5 ถึงมีราคาแพง

ตอน GPT-4 เปิดตัว ราคาก็สูงมากเช่นกัน และในความเป็นจริงก็ใกล้เคียงกับ GPT-4.5
ราคาเริ่มต้นของ GPT-4.5 มีดังนี้:
- Input: $75.00 / 1M โทเค็น
- Cached Input: $37.50 / 1M โทเค็น
- Output: $150.00 / 1M โทเค็น
- กล่าวคือเปิดตัวมาด้วย ราคาที่สูงกว่าโมเดลก่อนหน้าอย่างมาก
โมเดลก่อนหน้าของ OpenAI ก็เคยตั้งราคาแพงในช่วงแรก แต่มีหลายกรณีที่ค่อย ๆ ลดราคาลงอย่างมาก
- GPT-4 (เปิดตัวมีนาคม 2023)
  - ตอนแรกเริ่มที่ input $30 ต่อ 1 ล้านโทเค็น และ output $60 ต่อ 1 ล้านโทเค็น
  - เวอร์ชัน context 32K แพงกว่า โดยอยู่ที่ input $60, output $120
- GPT-4 Turbo (เปิดตัวพฤศจิกายน 2023)
  - ราคาถูกลงมาก เหลือ input $10, output $30
- GPT-4o (เปิดตัวพฤษภาคม 2024)
  - ราคาลดลงอีกจนเหลือ input $2.5, output $10 ทำให้ ถูกกว่า GPT-4 มากกว่า 10 เท่า
- กล่าวได้ว่า OpenAI มีรูปแบบการลดราคาครั้งใหญ่ทุกครั้งที่มีโมเดลใหม่ออกมา
เหตุผลที่ GPT-4.5 ยังตั้งราคาแพงในตอนนี้ ดูเหมือนจะเป็นเพราะ เป็นช่วงเปิดตัวแรก ๆ จึงตั้งมาร์จินไว้สูง
- OpenAI ยังระบุด้วยว่า ไม่รับประกันว่าโมเดลนี้จะอยู่ใน API ต่อไปหรือไม่ และจะตัดสินใจจากเสียงตอบรับของผู้ใช้
ผู้เชี่ยวชาญจำนวนมากคาดว่า เมื่อ GPU รุ่นถัดไปของ Nvidia อย่าง Blackwell ออกมา ต้นทุนจะลดลงเพราะสามารถรันโมเดลที่ใหญ่กว่านี้ได้อย่างมีประสิทธิภาพมากขึ้น
เช่นเดียวกับที่ราคาค่อย ๆ ลดลงจาก GPT-4 ไป GPT-4 Turbo และ GPT-4o GPT-4.5 ก็มีแนวโน้มสูงว่าในอนาคตจะมีเวอร์ชันอย่าง GPT-4.5 Turbo ออกมาและราคาจะถูกลง

อนาคตของการสเกล

การสเกลของ language model ยังไม่ตาย
- แต่การย้อนกลับมาทบทวนว่าเหตุใดการประกาศครั้งนี้จึงให้ความรู้สึกแปลกเช่นนั้น เป็นเรื่องสำคัญมากต่อการรักษามุมมองที่สุขุมท่ามกลางความก้าวหน้าของ AI
- เราได้เข้าสู่ยุคที่ การสเกลหลายรูปแบบต่างมีข้อดีข้อเสียของตัวเอง
หากสรุปสั้น ๆ ก็คือ "GPT-4.5 แม้จะแปลก แต่กำลังก้าวล้ำยุค"
- GPT-4.5 ไม่ใช่แค่การขยายขนาดโมเดลธรรมดา แต่เป็น สัญญาณว่าจำเป็นต้องมีวิธีการสเกลแบบใหม่
- สิ่งนี้หมายความว่าความก้าวหน้าของ AI จะไม่เพียงพอหากอาศัยแค่การขยายขนาดโมเดล (Scaling Up) และต้องใช้แนวทางอื่นร่วมด้วย ซึ่งเราก็รู้เรื่องนี้อยู่แล้วจากพัฒนาการอย่างรวดเร็วของโมเดลให้เหตุผล
- อิทธิพลที่แท้จริงของ GPT-4.5 จะปรากฏเมื่อมันถูกผสานเข้ากับพัฒนาการอย่างรวดเร็วจาก หลายสายงาน
จากงานวิจัย R1 ของ DeepSeek และงาน RL ต่อเนื่อง พบข้อสรุปว่า ยิ่งโมเดลใหญ่ การฝึก RL ก็ยิ่งได้ผลดี
- เป็นไปได้สูงว่า โมเดล o4 ของ OpenAI ก็จะถูกฝึกโดยใช้โมเดลให้เหตุผลที่มีฐานเป็น GPT-4.5
- โมเดลปัจจุบันของ OpenAI เอง ก็คงไม่ได้ยอดเยี่ยมขนาดนี้หากไม่มี GPT-4.5
เร็วที่สุดคือภายใน ไม่เกิน 1 ปี โมเดลส่วนใหญ่จะพัฒนาไปถึงขนาดระดับ GPT-4.5 และจะเร็วขึ้นมากด้วย
- การปรับปรุงที่ “สมดุล” มากขึ้นจะช่วยให้แอปพลิเคชันจำนวนมากมีความแข็งแรงมั่นคงขึ้น
- OpenAI และนักวิจัยจากห้องแล็บ AI อื่น ๆ กำลังพยายาม ขยายโมเดลไปไกลกว่าข้อจำกัดของโครงสร้างพื้นฐานเดิม
หาก frontier lab ไม่ผลักข้ามขีดจำกัดของทุกทิศทางการสเกล ก็เท่ากับว่ายังเสี่ยงไม่มากพอ
- ไม่จำเป็นต้องเปิดเผยโมเดล แต่ก็ควรลองคาดเดาดูว่าแท้จริงแล้ว OpenAI พยายามทำเช่นนี้ไปทำไม
- ตอนนี้มีความเป็นไปได้สูงว่า GPT-4.5 ถูกใช้อยู่ในระบบภายในอื่น ๆ และอีกไม่นานก็จะถูกใช้ในผลิตภัณฑ์ภายนอกอื่นด้วย ดังนั้นการปล่อยโมเดลนี้ออกมาจึงไม่ใช่ทางอ้อม แต่เป็น กระบวนการตามธรรมชาติของการก้าวไปสู่ขั้นต่อไป
GPT-4.5 เป็น frontier model แต่การเปิดตัวของมันไม่ได้ชวนตื่นเต้นนัก
- ความก้าวหน้าของ AI ไม่ได้มาฟรี ๆ และต้องอาศัยความพยายามอย่างมาก
- สิ่งสำคัญไม่ใช่ตัว GPT-4.5 เอง แต่คือ คุณค่าที่แท้จริงของมันจะปรากฏเมื่อโมเดลนี้ถูกนำไปผสานกับเทคโนโลยีอื่น

2 ความคิดเห็น

doolayer 2025-03-03

เมื่อหลายเบนช์มาร์กอยู่ในภาวะอิ่มตัวแล้ว ก็ดูเป็นแนวโน้มที่หลีกเลี่ยงไม่ได้ที่จะหันมาโฟกัสเรื่องการใช้งานจริงหรืออาการหลอนของโมเดล

GN⁺ 2025-03-03

ความเห็นจาก Hacker News

GPT 4.5 ก็มี knowledge cutoff อยู่ที่เดือนตุลาคม 2023
- เป็นไปได้ว่าโมเดลนี้ผ่านการ pre-train เสร็จสิ้นมาตั้งแต่อย่างน้อย 1 ปีก่อน
- OpenAI อาจมุ่งเน้นไปที่โปรเจกต์อื่นอย่าง Q-star/strawberry
โมเดล reasoning ของ OpenAI อาจไม่ได้ทรงพลังอย่างที่คาดหวัง
- มีโมเดลที่ไม่เน้น reasoning แต่ทรงพลังอย่าง Gemini 2.0 Flash, Grok 3 และ Sonnet 3.7 ออกมาแล้ว
- OpenAI อาจรู้สึกว่าจำเป็นต้องปล่อยอะไรบางอย่างออกมาในเชิงภาพลักษณ์
ราคายังค่อนข้างเป็นปริศนา
- อาจสะท้อนว่าเป็นโมเดลเก่าที่ไม่ได้ใช้เทคนิคเพิ่มประสิทธิภาพล่าสุด
- GPT-4.5 อาจเป็นวิธีที่ OpenAI ใช้ดูว่าตลาดยอมจ่ายได้มากแค่ไหน
การก้าวจาก GPT-4o ไปเป็น 4.5 ไม่ใช่การก้าวกระโดดครั้งใหญ่
- ตั้งราคาเหมือนสินค้าไฮเอนด์ แต่ไม่ได้ให้ผลตอบแทนระดับนั้น
GPT-4.5 สามารถประมวลผลความคิดที่ซับซ้อนและมีความละเอียดอ่อนได้เร็วมาก
- เหนือกว่า AI อื่นอย่างชัดเจน
GPT-4.5 ไม่หลุดไปในทิศทางแปลก ๆ และยึดโยงกับความเป็นจริง
- ตอบสนองต่อความต้องการด้านโทนได้ดี และเข้าใจความแตกต่างที่ละเอียดอ่อนได้ดี
ในระยะยาว การทำเงินจากโครงสร้างพื้นฐานอาจทำได้ยาก
- API สำหรับงานเขียนโค้ดมีแนวโน้มว่า Claude 3.5/3.7 จะถูกใช้งานมากกว่า
- API สำหรับงานที่ไม่ใช่โค้ด Gemini 2.0 Flash ทั้งถูกกว่าและมีประสิทธิภาพดีกว่า
- แอปแบบสมัครสมาชิกยังคงมี ChatGPT เป็นอันดับหนึ่ง แต่ Grok กำลังแข่งขันอยู่
GPT-4.5 ดีกว่านิดหน่อยในด้าน "การเขียนเชิงสร้างสรรค์"
- Anthropic ออกโมเดลใหม่ที่เน้นแก้ปัญหาเชิงปฏิบัติมากกว่า
ดูเหมือนว่าเรากำลังเข้าใกล้ขีดจำกัดของเทคโนโลยี
มีความเห็นว่าสองประโยคนี้ขัดแย้งกันหรือไม่
- แม้จะขยายขนาดโมเดล ก็ไม่ได้เห็นการพัฒนาความสามารถที่ชัดเจน
- การก้าวจาก GPT-4o ไป GPT-4.5 ทำให้โมเดลออกมาดีมาก
น่าสงสัยว่ามีใครมองเห็นเปอร์เซ็นต์สุดท้ายของ benchmark ในการใช้งานจริงหรือไม่
- การสมมติว่า benchmark ถูกต้อง 100% อาจเป็นความผิดพลาด
โมเดล GPT4o ทั้งหมดบน Azure มีกำหนดหยุดให้บริการในเดือนพฤษภาคม
- กำลังชั่งใจว่าจะย้ายไป Anthropic ดีหรือไม่
- ต้องการข้อมูลเกี่ยวกับช่วงเวลาการเปิดตัวโมเดล "o" รุ่นใหม่