2 คะแนน โดย GN⁺ 2025-03-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • พร้อมกับการเปิดตัว GPT-4.5 ทาง OpenAI ได้เผยแพร่ system card ของโมเดลก่อน
  • ใน system card ฉบับแรกมีข้อความ "GPT-4.5 is not a frontier model" (GPT-4.5 ไม่ใช่โมเดลแนวหน้าที่ล้ำที่สุด) รวมอยู่ด้วย
    • ต่อมาข้อความนี้ถูกลบออกจากทั้งโพสต์บล็อกทางการและ system card ฉบับอัปเดต
  • ดูเหมือนว่าจะมีใครบางคนใน OpenAI รู้สึกว่าจำเป็นต้องใส่ข้อความนั้นไว้ แต่คำถามคือ "แล้วทำไม OpenAI ถึงปล่อยมันออกมา?"
  • ความขัดแย้งหลักของคำกล่าวที่ว่าไม่ใช่ frontier model คือ GPT-4.5 เป็นโมเดลที่ใหญ่ที่สุดที่บุคคลทั่วไปสามารถทดสอบได้
    • แต่แม้จะขยายไปถึงขนาดนี้ ก็ไม่ได้ทำให้เกิดการกระโดดของความสามารถอย่างชัดเจนในสิ่งที่เราวัดกัน
    • การเปลี่ยนจาก GPT-3.5 → GPT-4 คือจาก พอใช้ (Okay) ไปเป็น ดี (Good)
    • การเปลี่ยนจาก GPT-4o → GPT-4.5 คือจาก ยอดเยี่ยม (Great) ไปเป็น ยอดเยี่ยมมาก (Really Great)
  • เนื่องจากการแยกความต่างของโมเดลรุ่นใหม่ ๆ ทำได้ยากมาก ผู้ที่ลงทุนใน AI และคาดหวังความก้าวหน้าอาจเข้าใจไปว่ามันดีกว่าความเป็นจริง
  • นี่คือช่วงเวลาที่ ข้อจำกัดทางเศรษฐศาสตร์ของการสเกลเริ่มชัดเจนขึ้น โดยไม่มีการยกระดับประสิทธิภาพครั้งใหญ่ตามที่คาดหวัง
    • Anthropic ก็เผชิญปัญหาคล้ายกัน และมีการยืนยันว่าหลัง Claude 3.7 จะ ฝึกโมเดลที่ใหญ่กว่านี้มาก
  • GPT-4.5 เป็น โมเดลที่แสดงให้เห็นถึงพัฒนาการแบบค่อยเป็นค่อยไป ซึ่งต่างจากการก้าวกระโดดเชิงนวัตกรรมในอดีต
    • มันแสดงให้เห็นว่าในการวิจัย AI นั้น “การขยาย pretraining แบบตรงไปตรงมาอย่างเดียว ไม่สามารถสร้างนวัตกรรมระดับเดิมได้อีกแล้ว”
    • ภายใน OpenAI เองน่าจะใช้ GPT-4.5 มานานแล้ว และมีโอกาสสูงว่า ใช้เป็นฐานสำหรับฝึกโมเดลอื่นต่อ (ดูจากการที่ cutdate อยู่ที่ปี 2023)

GPT-4.5 เด่นเรื่องอะไร

  • (ตัวเลขประมาณการบางส่วนเกี่ยวกับจำนวนพารามิเตอร์ของ GPT-4.5 และ GPT-4o เป็นเพียงการคาดเดา ไม่ได้อิงจากข้อมูลรั่วไหล จึงมีช่วงคลาดเคลื่อนสูงและควรใช้ด้วยความระมัดระวัง)
  • GPT-4.5 เป็น โมเดลขนาดใหญ่มาก และอาจใหญ่กว่า Grok 3
    • GPT-4 เป็นโมเดลแบบ mixture-of-experts (MoE) ที่คาดว่ามี พารามิเตอร์รวมมากกว่า 1 ล้านล้าน (1T) และมี active parameters ราว 200B
    • มีข่าวลือว่าโมเดลอย่าง GPT-4o หรือ Gemini Pro ลด active parameters ลงมาเหลือเพียง 60B
    • กล่าวคือ โมเดลรุ่นใหม่กำลังพัฒนาไปในทิศทางของ การลด active parameters และปรับโครงสร้างพื้นฐานให้เหมาะสม เพื่อเพิ่มความเร็วและลดต้นทุน
  • คาดว่า GPT-4.5 ต้องใช้ พลังประมวลผลมากกว่า GPT-4 ราว 10 เท่า (10X compute)
    • พารามิเตอร์มากขึ้น 5 เท่า + ชุดข้อมูลใหญ่ขึ้น 2 เท่า = ปริมาณคอมพิวต์เพิ่มขึ้น 10 เท่า
    • พารามิเตอร์รวมอาจสูงถึง 5-7 ล้านล้าน (5T-7T) และ active parameters น่าจะอยู่ราว 600B
  • แต่ถึงจะสเกลขึ้นมาขนาดนี้ ผู้ใช้ก็ยังรู้สึกถึงการเพิ่มขึ้นของประสิทธิภาพได้ไม่ง่ายนัก
  • จากตรงนี้สถานการณ์เริ่มแปลกมาก สิ่งที่ OpenAI เน้นในการประกาศครั้งนี้มี 2 อย่าง
    • ลดอาการหลอน (Hallucination) : ลดความถี่ที่โมเดลสร้างข้อมูลที่ไม่เป็นจริง
    • เพิ่มความฉลาดทางอารมณ์ (Emotional Intelligence) : เข้าใจและถ่ายทอดบริบทกับอารมณ์ได้ดีขึ้น
    • แต่ทั้ง 2 อย่างนี้เป็นคุณสมบัติที่ประเมินแบบภววิสัยได้ยาก
  • ประสิทธิภาพบน benchmark (อิงตามข้อมูลที่ OpenAI ให้)
    • SimpleQA: GPT-4.5 แสดงการพัฒนาขนาดใหญ่ในการประเมินความรู้โลกของโมเดล AI
    • PersonQA: ทำผลงานดีที่สุดในการประเมินคำถามเกี่ยวกับบุคคลรายคน
    • GPQA (Google-proof QA): ทำผลงานได้ดีในตัวชี้วัดที่ประเมินการให้เหตุผลเชิงตรรกะโดยไม่อาศัยการค้นข้อมูล
  • หลังเปิดตัวไม่นาน ก็มีความเห็นจากผู้เชี่ยวชาญ AI ว่า GPT-4.5 ใช้งานสบายและเขียนได้ดีกว่า
    • แต่ในการประเมินด้านโค้ดและสมรรถนะเชิงเทคนิค กลับถูกมองว่าอยู่ ระดับกลางเมื่อเทียบกับโมเดลคู่แข่งอย่าง Claude 3.7, R1 เป็นต้น
  • เปรียบเทียบสไตล์การเขียน (ผลสำรวจบน X/Twitter ของ Karpathy)
    • GPT-4.5 vs. GPT-4o-latest: ผู้ใช้ส่วนใหญ่ ชอบสไตล์การเขียนของ GPT-4o-latest มากกว่า
    • ทำไม? เป็นไปได้สูงว่า GPT-4o-latest คือโมเดลที่ กลั่น (distilled) มาจากโมเดลใหม่นี้ซึ่งก่อนหน้านี้ถูกเรียกว่า Orion1 และเพราะมันมีขนาดเล็กกว่ามาก ความเร็วในการวนปรับแต่งจึงต่างกันราวฟ้ากับเหว ทำให้ post-training ทำได้ดีกว่า
  • ทั้งหมดนี้คือราคาที่ OpenAI ต้องจ่ายเพื่อ กลับไปครองอันดับ 1 บน ChatBotArena อีกครั้ง
    • คาดว่า GPT 4.5 จะทำได้ แต่ผลลัพธ์ยังไม่แน่นอน
  • จากการที่ผู้เขียนได้ลองใช้ล่วงหน้าด้วยตนเอง แม้จะช้าและทำให้รู้สึกติดขัดในตอนแรก แต่ด้วยความน่าเชื่อถือที่สูง จึงยังคุ้มค่าที่จะใช้ต่อ
    • อย่างไรก็ตาม ไม่ได้จำเป็นต้องเลือก GPT-4.5 ถึงขั้นยอมจ่ายเพิ่ม และ o1 Pro ของ OpenAI รวมถึงบริการเสียเงินอื่น ๆ ให้ความคุ้มค่าต่อราคาดีกว่า

ทำไม GPT-4.5 ถึงมีราคาแพง

  • ตอน GPT-4 เปิดตัว ราคาก็สูงมากเช่นกัน และในความเป็นจริงก็ใกล้เคียงกับ GPT-4.5
  • ราคาเริ่มต้นของ GPT-4.5 มีดังนี้:
    • Input: $75.00 / 1M โทเค็น
    • Cached Input: $37.50 / 1M โทเค็น
    • Output: $150.00 / 1M โทเค็น
    • กล่าวคือเปิดตัวมาด้วย ราคาที่สูงกว่าโมเดลก่อนหน้าอย่างมาก
  • โมเดลก่อนหน้าของ OpenAI ก็เคยตั้งราคาแพงในช่วงแรก แต่มีหลายกรณีที่ค่อย ๆ ลดราคาลงอย่างมาก
    • GPT-4 (เปิดตัวมีนาคม 2023)
      • ตอนแรกเริ่มที่ input $30 ต่อ 1 ล้านโทเค็น และ output $60 ต่อ 1 ล้านโทเค็น
      • เวอร์ชัน context 32K แพงกว่า โดยอยู่ที่ input $60, output $120
    • GPT-4 Turbo (เปิดตัวพฤศจิกายน 2023)
      • ราคาถูกลงมาก เหลือ input $10, output $30
    • GPT-4o (เปิดตัวพฤษภาคม 2024)
      • ราคาลดลงอีกจนเหลือ input $2.5, output $10 ทำให้ ถูกกว่า GPT-4 มากกว่า 10 เท่า
    • กล่าวได้ว่า OpenAI มีรูปแบบการลดราคาครั้งใหญ่ทุกครั้งที่มีโมเดลใหม่ออกมา
  • เหตุผลที่ GPT-4.5 ยังตั้งราคาแพงในตอนนี้ ดูเหมือนจะเป็นเพราะ เป็นช่วงเปิดตัวแรก ๆ จึงตั้งมาร์จินไว้สูง
    • OpenAI ยังระบุด้วยว่า ไม่รับประกันว่าโมเดลนี้จะอยู่ใน API ต่อไปหรือไม่ และจะตัดสินใจจากเสียงตอบรับของผู้ใช้
  • ผู้เชี่ยวชาญจำนวนมากคาดว่า เมื่อ GPU รุ่นถัดไปของ Nvidia อย่าง Blackwell ออกมา ต้นทุนจะลดลงเพราะสามารถรันโมเดลที่ใหญ่กว่านี้ได้อย่างมีประสิทธิภาพมากขึ้น
  • เช่นเดียวกับที่ราคาค่อย ๆ ลดลงจาก GPT-4 ไป GPT-4 Turbo และ GPT-4o GPT-4.5 ก็มีแนวโน้มสูงว่าในอนาคตจะมีเวอร์ชันอย่าง GPT-4.5 Turbo ออกมาและราคาจะถูกลง

อนาคตของการสเกล

  • การสเกลของ language model ยังไม่ตาย
    • แต่การย้อนกลับมาทบทวนว่าเหตุใดการประกาศครั้งนี้จึงให้ความรู้สึกแปลกเช่นนั้น เป็นเรื่องสำคัญมากต่อการรักษามุมมองที่สุขุมท่ามกลางความก้าวหน้าของ AI
    • เราได้เข้าสู่ยุคที่ การสเกลหลายรูปแบบต่างมีข้อดีข้อเสียของตัวเอง
  • หากสรุปสั้น ๆ ก็คือ "GPT-4.5 แม้จะแปลก แต่กำลังก้าวล้ำยุค"
    • GPT-4.5 ไม่ใช่แค่การขยายขนาดโมเดลธรรมดา แต่เป็น สัญญาณว่าจำเป็นต้องมีวิธีการสเกลแบบใหม่
    • สิ่งนี้หมายความว่าความก้าวหน้าของ AI จะไม่เพียงพอหากอาศัยแค่การขยายขนาดโมเดล (Scaling Up) และต้องใช้แนวทางอื่นร่วมด้วย ซึ่งเราก็รู้เรื่องนี้อยู่แล้วจากพัฒนาการอย่างรวดเร็วของโมเดลให้เหตุผล
    • อิทธิพลที่แท้จริงของ GPT-4.5 จะปรากฏเมื่อมันถูกผสานเข้ากับพัฒนาการอย่างรวดเร็วจาก หลายสายงาน
  • จากงานวิจัย R1 ของ DeepSeek และงาน RL ต่อเนื่อง พบข้อสรุปว่า ยิ่งโมเดลใหญ่ การฝึก RL ก็ยิ่งได้ผลดี
    • เป็นไปได้สูงว่า โมเดล o4 ของ OpenAI ก็จะถูกฝึกโดยใช้โมเดลให้เหตุผลที่มีฐานเป็น GPT-4.5
    • โมเดลปัจจุบันของ OpenAI เอง ก็คงไม่ได้ยอดเยี่ยมขนาดนี้หากไม่มี GPT-4.5
  • เร็วที่สุดคือภายใน ไม่เกิน 1 ปี โมเดลส่วนใหญ่จะพัฒนาไปถึงขนาดระดับ GPT-4.5 และจะเร็วขึ้นมากด้วย
    • การปรับปรุงที่ “สมดุล” มากขึ้นจะช่วยให้แอปพลิเคชันจำนวนมากมีความแข็งแรงมั่นคงขึ้น
    • OpenAI และนักวิจัยจากห้องแล็บ AI อื่น ๆ กำลังพยายาม ขยายโมเดลไปไกลกว่าข้อจำกัดของโครงสร้างพื้นฐานเดิม
  • หาก frontier lab ไม่ผลักข้ามขีดจำกัดของทุกทิศทางการสเกล ก็เท่ากับว่ายังเสี่ยงไม่มากพอ
    • ไม่จำเป็นต้องเปิดเผยโมเดล แต่ก็ควรลองคาดเดาดูว่าแท้จริงแล้ว OpenAI พยายามทำเช่นนี้ไปทำไม
    • ตอนนี้มีความเป็นไปได้สูงว่า GPT-4.5 ถูกใช้อยู่ในระบบภายในอื่น ๆ และอีกไม่นานก็จะถูกใช้ในผลิตภัณฑ์ภายนอกอื่นด้วย ดังนั้นการปล่อยโมเดลนี้ออกมาจึงไม่ใช่ทางอ้อม แต่เป็น กระบวนการตามธรรมชาติของการก้าวไปสู่ขั้นต่อไป
  • GPT-4.5 เป็น frontier model แต่การเปิดตัวของมันไม่ได้ชวนตื่นเต้นนัก
    • ความก้าวหน้าของ AI ไม่ได้มาฟรี ๆ และต้องอาศัยความพยายามอย่างมาก
    • สิ่งสำคัญไม่ใช่ตัว GPT-4.5 เอง แต่คือ คุณค่าที่แท้จริงของมันจะปรากฏเมื่อโมเดลนี้ถูกนำไปผสานกับเทคโนโลยีอื่น

2 ความคิดเห็น

 
doolayer 2025-03-03

เมื่อหลายเบนช์มาร์กอยู่ในภาวะอิ่มตัวแล้ว ก็ดูเป็นแนวโน้มที่หลีกเลี่ยงไม่ได้ที่จะหันมาโฟกัสเรื่องการใช้งานจริงหรืออาการหลอนของโมเดล

 
GN⁺ 2025-03-03
ความเห็นจาก Hacker News
  • GPT 4.5 ก็มี knowledge cutoff อยู่ที่เดือนตุลาคม 2023

    • เป็นไปได้ว่าโมเดลนี้ผ่านการ pre-train เสร็จสิ้นมาตั้งแต่อย่างน้อย 1 ปีก่อน
    • OpenAI อาจมุ่งเน้นไปที่โปรเจกต์อื่นอย่าง Q-star/strawberry
  • โมเดล reasoning ของ OpenAI อาจไม่ได้ทรงพลังอย่างที่คาดหวัง

    • มีโมเดลที่ไม่เน้น reasoning แต่ทรงพลังอย่าง Gemini 2.0 Flash, Grok 3 และ Sonnet 3.7 ออกมาแล้ว
    • OpenAI อาจรู้สึกว่าจำเป็นต้องปล่อยอะไรบางอย่างออกมาในเชิงภาพลักษณ์
  • ราคายังค่อนข้างเป็นปริศนา

    • อาจสะท้อนว่าเป็นโมเดลเก่าที่ไม่ได้ใช้เทคนิคเพิ่มประสิทธิภาพล่าสุด
    • GPT-4.5 อาจเป็นวิธีที่ OpenAI ใช้ดูว่าตลาดยอมจ่ายได้มากแค่ไหน
  • การก้าวจาก GPT-4o ไปเป็น 4.5 ไม่ใช่การก้าวกระโดดครั้งใหญ่

    • ตั้งราคาเหมือนสินค้าไฮเอนด์ แต่ไม่ได้ให้ผลตอบแทนระดับนั้น
  • GPT-4.5 สามารถประมวลผลความคิดที่ซับซ้อนและมีความละเอียดอ่อนได้เร็วมาก

    • เหนือกว่า AI อื่นอย่างชัดเจน
  • GPT-4.5 ไม่หลุดไปในทิศทางแปลก ๆ และยึดโยงกับความเป็นจริง

    • ตอบสนองต่อความต้องการด้านโทนได้ดี และเข้าใจความแตกต่างที่ละเอียดอ่อนได้ดี
  • ในระยะยาว การทำเงินจากโครงสร้างพื้นฐานอาจทำได้ยาก

    • API สำหรับงานเขียนโค้ดมีแนวโน้มว่า Claude 3.5/3.7 จะถูกใช้งานมากกว่า
    • API สำหรับงานที่ไม่ใช่โค้ด Gemini 2.0 Flash ทั้งถูกกว่าและมีประสิทธิภาพดีกว่า
    • แอปแบบสมัครสมาชิกยังคงมี ChatGPT เป็นอันดับหนึ่ง แต่ Grok กำลังแข่งขันอยู่
  • GPT-4.5 ดีกว่านิดหน่อยในด้าน "การเขียนเชิงสร้างสรรค์"

    • Anthropic ออกโมเดลใหม่ที่เน้นแก้ปัญหาเชิงปฏิบัติมากกว่า
  • ดูเหมือนว่าเรากำลังเข้าใกล้ขีดจำกัดของเทคโนโลยี

  • มีความเห็นว่าสองประโยคนี้ขัดแย้งกันหรือไม่

    • แม้จะขยายขนาดโมเดล ก็ไม่ได้เห็นการพัฒนาความสามารถที่ชัดเจน
    • การก้าวจาก GPT-4o ไป GPT-4.5 ทำให้โมเดลออกมาดีมาก
  • น่าสงสัยว่ามีใครมองเห็นเปอร์เซ็นต์สุดท้ายของ benchmark ในการใช้งานจริงหรือไม่

    • การสมมติว่า benchmark ถูกต้อง 100% อาจเป็นความผิดพลาด
  • โมเดล GPT4o ทั้งหมดบน Azure มีกำหนดหยุดให้บริการในเดือนพฤษภาคม

    • กำลังชั่งใจว่าจะย้ายไป Anthropic ดีหรือไม่
    • ต้องการข้อมูลเกี่ยวกับช่วงเวลาการเปิดตัวโมเดล "o" รุ่นใหม่