ประกาศสำคัญ

  • Realtime API ที่ช่วยให้สามารถสร้างฟีเจอร์คล้ายโหมดเสียงขั้นสูงของ ChatGPT ได้
  • เพิ่ม Rate Limit ของโมเดล o1 ให้เท่ากับ GPT-4o (10,000 ครั้งต่อนาที)
  • ลดราคา GPT-4o API ด้วยการแคชพรอมป์ต์อัตโนมัติ สำหรับการเรียกใช้งานซ้ำจะถูกลง 50% โดยไม่ต้องพัฒนาเพิ่ม
  • API สำหรับการทำมัลติโหมดอลไฟน์จูน
  • ตั้งแต่ปีที่แล้วถึงปีนี้ จำนวนแอปที่ใช้งานอยู่บนแพลตฟอร์ม OpenAI เพิ่มขึ้น 3 เท่า และมีนักพัฒนาที่ใช้งานอยู่ราว 3 ล้านคน

ภาพรวมของโมเดล o1

  • OpenAI เปิดตัว o1 โมเดลด้านการให้เหตุผลตัวใหม่
  • o1 ถูกจัดอยู่ในตระกูลโมเดลใหม่ที่แตกต่างจาก GPT-4o เดิม
  • OpenAI มองว่าการพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลายจะเป็นทิศทางในอนาคต
  • o1 เด่นด้านความสามารถในการคิดแบบ chain-of-thought จึงเหมาะกับงานเขียนโปรแกรม แต่ช้าและมีต้นทุนสูง
  • พรอมป์ต์ส่วนใหญ่ไม่ต้องการความสามารถในการให้เหตุผลขั้นสูงของ o1 ดังนั้น o1 จะไม่กลายเป็นโมเดลพื้นฐาน
  • Romain Huet หัวหน้าฝ่ายนักพัฒนาสัมพันธ์ของ OpenAI สาธิตการใช้ o1 สร้างแอป iPhone ตั้งแต่ต้นจนจบด้วยพรอมป์ต์เดียวภายใน 30 วินาที
  • เขายังนำโดรนขึ้นเวทีและสร้างเว็บแอปเพื่อควบคุมโดรนต่อหน้าผู้ชมด้วย
  • แม้การสาธิตลักษณะนี้จะทำได้ด้วยโมเดล GPT รุ่นก่อนหน้า แต่เมื่อใช้ o1 จะสร้างได้เร็วกว่าอย่างมาก
  • o1 แสดงให้เห็นอนาคตที่สามารถเปลี่ยนจากไอเดียไปเป็นแอปได้ภายใน 1-2 นาที

API แบบเรียลไทม์สำหรับการสนทนาด้วยเสียง

  • ฟีเจอร์ที่น่าประทับใจที่สุดที่ OpenAI เปิดตัวคือ Realtime API ซึ่งช่วยให้นักพัฒนาสร้างความสามารถคล้ายโหมดเสียงขั้นสูงของ ChatGPT ลงในแอปของตนได้
  • นักพัฒนาสามารถส่งเสียงที่บันทึกไว้ไปยังเซิร์ฟเวอร์ของ OpenAI และรับเสียงตอบกลับที่บันทึกแบบเรียลไทม์ ถอดเสียง และการเรียกใช้ฟังก์ชันกลับมาได้
  • Realtime API เปิดเป็น public beta ตั้งแต่วันนี้ และมีแผนจะรองรับรูปแบบเพิ่มเติมอย่างวิดีโอในอนาคต
  • Realtime API คิดค่าบริการเสียงขาเข้า 0.06 ดอลลาร์ต่อนาที และเสียงขาออก 0.24 ดอลลาร์ต่อนาที รวมเป็น 0.15 ดอลลาร์ (สมมติว่าเสียงขาเข้าและขาออกเท่ากัน)
  • ราคานี้แพงกว่าบริการ speech-to-speech ของ ElevenLabs ที่อยู่ราว 0.11 ดอลลาร์ต่อนาที แต่ไม่ใช่การจ่ายตามการใช้งาน เพราะต้องซื้อเวลาใช้งานจำนวนหนึ่งต่อเดือนล่วงหน้า
  • เสียงแบบเรียลไทม์เปิดกรณีใช้งานใหม่จำนวนมาก เช่น ผู้ช่วยการอ่านที่ดีขึ้น หรือการสอนภาษาที่สมจริงยิ่งขึ้น

เครื่องมือไฟน์จูน

  • OpenAI กำลังจริงจังกับแนวคิดที่ว่าการใช้หลายโมเดลดีกว่าการใช้โมเดลขนาดใหญ่ตัวเดียว
  • บริษัทต่าง ๆ จะสามารถสร้าง GPT-4o เวอร์ชันปรับแต่งเฉพาะให้เหมาะกับกรณีใช้งานของตนเองได้
  • OpenAI กำลังมองภาพอนาคตที่ทุกบริษัทจะมีโมเดลที่ผ่านการไฟน์จูนและเข้าถึงข้อมูลของตัวเองได้

API สำหรับไฟน์จูนภาพ

  • ทุกคนสามารถไฟน์จูน GPT-4o โดยใช้ข้อมูลภาพของตนเองได้
  • ตัวอย่างเช่น หากคุณทำงานด้านการแพทย์และต้องการปรับแต่งความสามารถของ GPT-4o ในการอ่านและติดป้ายกำกับ MRI คุณสามารถใช้ API นี้ได้

เครื่องมือกลั่นโมเดล

  • OpenAI เปิดตัวเครื่องมือ 2 รายการเพื่อช่วยให้ทำ model distillation ได้ดีขึ้น ซึ่งเป็นกระบวนการสร้างโมเดลพื้นฐานเวอร์ชันที่เล็กกว่า เร็วกว่า และถูกกว่า โดยออกแบบให้เหมาะกับกรณีใช้งานเฉพาะ
  • มีการเพิ่มความสามารถใน developer playground ให้บันทึกการโต้ตอบกับ API ก่อนหน้าและนำไปใช้เป็นข้อมูลสำหรับการไฟน์จูนได้ ทำให้การทำ distillation ง่ายขึ้น
  • นอกจากนี้ยังเพิ่มเครื่องมือ Evals ใน playground เพื่อให้นักพัฒนาประเมินประสิทธิภาพของโมเดลที่ไฟน์จูนแล้วได้

ลดต้นทุนการเรียก API ซ้ำลง 50% ด้วยการแคชพรอมป์ต์

  • OpenAI เปิดตัวฟีเจอร์ prompt caching ใหม่ที่ตรวจจับการเรียก API ซ้ำและส่งคืนคำตอบที่เคยสร้างไว้ก่อนหน้า
  • ฟีเจอร์นี้จะทำงานอัตโนมัติตั้งแต่วันนี้ และช่วยลดต้นทุนการเรียก API จำนวนมากลง 50% โดยที่นักพัฒนาไม่ต้องทำงานเพิ่ม
  • ฟีเจอร์นี้เป็นส่วนต่อเนื่องของแนวโน้มที่ OpenAI แข่งขันกันทำให้ต้นทุนการใช้งาน API ถูกลงเรื่อย ๆ
  • นี่เป็นข่าวดีสำหรับนักพัฒนา แต่ก็ก่อให้เกิดความสัมพันธ์เชิงพลวัตที่น่าสนใจกับ Microsoft ซึ่งเป็นพาร์ตเนอร์รายใหญ่ที่สุดของ OpenAI
  • Microsoft กดดันให้บริษัทขนาดใหญ่ซื้อการเรียก GPT-4 API ล่วงหน้าเกินจำนวนเงินที่กำหนด เพื่อให้มั่นใจว่าจะได้รับความจุเพียงพอ
  • จึงน่าคิดว่าทั้ง Microsoft และลูกค้าที่ทำข้อตกลงซื้อไว้ล่วงหน้าแล้วจะมองการลดราคานี้อย่างไร

กลยุทธ์ของ OpenAI

1. มุ่งพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลาย

  • OpenAI เชื่อว่าแอปพลิเคชันที่มีประสิทธิภาพที่สุดจะไม่ได้ใช้โมเดลเดียวทำทุกอย่าง แต่ใช้หลายโมเดลร่วมกัน
  • นักพัฒนาสามารถใช้ทั้งโมเดลที่เด่นด้านการให้เหตุผลอย่าง o1 และโมเดลที่เด่นด้านบริบทขนาดยาวหรือการประมวลผลพรอมป์ต์ภาพอย่าง GPT-4o ร่วมกัน เพื่อมอบประสบการณ์ที่สม่ำเสมอให้ผู้ใช้ได้

2. o1 คือก้าวสำคัญสู่เอเจนต์ที่ทำงานได้ด้วยตัวเอง

  • เอเจนต์เป็นหนึ่งในแอปพลิเคชัน AI ที่ถูกพูดถึงมากที่สุดมาเป็นเวลานาน แต่โมเดล GPT รุ่นก่อนหน้ามักมีโอกาสทำงานได้ไม่ดีเมื่อพยายามแก้ปัญหาด้วยตัวเอง
  • คาดว่า o1 จะมีบทบาทสำคัญในการสร้างเอเจนต์ที่ทำงานได้อย่างอิสระจริง ๆ ด้วยความสามารถในการสะท้อนกระบวนการคิดของตนเองและวางแผนขั้นตอนถัดไป

3. ตอนนี้มีเทคโนโลยีจำนวนมหาศาลที่ช่วยให้นักพัฒนาสร้างประสบการณ์อันน่าทึ่งให้ผู้ใช้ได้

  • เป็นเรื่องง่ายที่จะลืมว่าเมื่อไม่กี่ปีก่อน สิ่งที่สาธิตในวันนี้ไม่มีอย่างใดอย่างหนึ่งที่เป็นไปไม่ได้ หรืออยู่นอกความสนใจ
  • ทุกวันนี้แม้แต่นักพัฒนาเดี่ยวที่สร้างแอปในเวลาว่าง ก็ยังทำสิ่งที่ก่อนหน้านี้แม้แต่ทั้งทีมพัฒนาก็ทำไม่ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น