ประกาศสำคัญ
- Realtime API ที่ช่วยให้สามารถสร้างฟีเจอร์คล้ายโหมดเสียงขั้นสูงของ ChatGPT ได้
- เพิ่ม Rate Limit ของโมเดล o1 ให้เท่ากับ GPT-4o (10,000 ครั้งต่อนาที)
- ลดราคา GPT-4o API ด้วยการแคชพรอมป์ต์อัตโนมัติ สำหรับการเรียกใช้งานซ้ำจะถูกลง 50% โดยไม่ต้องพัฒนาเพิ่ม
- API สำหรับการทำมัลติโหมดอลไฟน์จูน
- ตั้งแต่ปีที่แล้วถึงปีนี้ จำนวนแอปที่ใช้งานอยู่บนแพลตฟอร์ม OpenAI เพิ่มขึ้น 3 เท่า และมีนักพัฒนาที่ใช้งานอยู่ราว 3 ล้านคน
ภาพรวมของโมเดล o1
- OpenAI เปิดตัว o1 โมเดลด้านการให้เหตุผลตัวใหม่
- o1 ถูกจัดอยู่ในตระกูลโมเดลใหม่ที่แตกต่างจาก GPT-4o เดิม
- OpenAI มองว่าการพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลายจะเป็นทิศทางในอนาคต
- o1 เด่นด้านความสามารถในการคิดแบบ chain-of-thought จึงเหมาะกับงานเขียนโปรแกรม แต่ช้าและมีต้นทุนสูง
- พรอมป์ต์ส่วนใหญ่ไม่ต้องการความสามารถในการให้เหตุผลขั้นสูงของ o1 ดังนั้น o1 จะไม่กลายเป็นโมเดลพื้นฐาน
- Romain Huet หัวหน้าฝ่ายนักพัฒนาสัมพันธ์ของ OpenAI สาธิตการใช้ o1 สร้างแอป iPhone ตั้งแต่ต้นจนจบด้วยพรอมป์ต์เดียวภายใน 30 วินาที
- เขายังนำโดรนขึ้นเวทีและสร้างเว็บแอปเพื่อควบคุมโดรนต่อหน้าผู้ชมด้วย
- แม้การสาธิตลักษณะนี้จะทำได้ด้วยโมเดล GPT รุ่นก่อนหน้า แต่เมื่อใช้ o1 จะสร้างได้เร็วกว่าอย่างมาก
- o1 แสดงให้เห็นอนาคตที่สามารถเปลี่ยนจากไอเดียไปเป็นแอปได้ภายใน 1-2 นาที
API แบบเรียลไทม์สำหรับการสนทนาด้วยเสียง
- ฟีเจอร์ที่น่าประทับใจที่สุดที่ OpenAI เปิดตัวคือ Realtime API ซึ่งช่วยให้นักพัฒนาสร้างความสามารถคล้ายโหมดเสียงขั้นสูงของ ChatGPT ลงในแอปของตนได้
- นักพัฒนาสามารถส่งเสียงที่บันทึกไว้ไปยังเซิร์ฟเวอร์ของ OpenAI และรับเสียงตอบกลับที่บันทึกแบบเรียลไทม์ ถอดเสียง และการเรียกใช้ฟังก์ชันกลับมาได้
- Realtime API เปิดเป็น public beta ตั้งแต่วันนี้ และมีแผนจะรองรับรูปแบบเพิ่มเติมอย่างวิดีโอในอนาคต
- Realtime API คิดค่าบริการเสียงขาเข้า 0.06 ดอลลาร์ต่อนาที และเสียงขาออก 0.24 ดอลลาร์ต่อนาที รวมเป็น 0.15 ดอลลาร์ (สมมติว่าเสียงขาเข้าและขาออกเท่ากัน)
- ราคานี้แพงกว่าบริการ speech-to-speech ของ ElevenLabs ที่อยู่ราว 0.11 ดอลลาร์ต่อนาที แต่ไม่ใช่การจ่ายตามการใช้งาน เพราะต้องซื้อเวลาใช้งานจำนวนหนึ่งต่อเดือนล่วงหน้า
- เสียงแบบเรียลไทม์เปิดกรณีใช้งานใหม่จำนวนมาก เช่น ผู้ช่วยการอ่านที่ดีขึ้น หรือการสอนภาษาที่สมจริงยิ่งขึ้น
เครื่องมือไฟน์จูน
- OpenAI กำลังจริงจังกับแนวคิดที่ว่าการใช้หลายโมเดลดีกว่าการใช้โมเดลขนาดใหญ่ตัวเดียว
- บริษัทต่าง ๆ จะสามารถสร้าง GPT-4o เวอร์ชันปรับแต่งเฉพาะให้เหมาะกับกรณีใช้งานของตนเองได้
- OpenAI กำลังมองภาพอนาคตที่ทุกบริษัทจะมีโมเดลที่ผ่านการไฟน์จูนและเข้าถึงข้อมูลของตัวเองได้
API สำหรับไฟน์จูนภาพ
- ทุกคนสามารถไฟน์จูน GPT-4o โดยใช้ข้อมูลภาพของตนเองได้
- ตัวอย่างเช่น หากคุณทำงานด้านการแพทย์และต้องการปรับแต่งความสามารถของ GPT-4o ในการอ่านและติดป้ายกำกับ MRI คุณสามารถใช้ API นี้ได้
เครื่องมือกลั่นโมเดล
- OpenAI เปิดตัวเครื่องมือ 2 รายการเพื่อช่วยให้ทำ model distillation ได้ดีขึ้น ซึ่งเป็นกระบวนการสร้างโมเดลพื้นฐานเวอร์ชันที่เล็กกว่า เร็วกว่า และถูกกว่า โดยออกแบบให้เหมาะกับกรณีใช้งานเฉพาะ
- มีการเพิ่มความสามารถใน developer playground ให้บันทึกการโต้ตอบกับ API ก่อนหน้าและนำไปใช้เป็นข้อมูลสำหรับการไฟน์จูนได้ ทำให้การทำ distillation ง่ายขึ้น
- นอกจากนี้ยังเพิ่มเครื่องมือ Evals ใน playground เพื่อให้นักพัฒนาประเมินประสิทธิภาพของโมเดลที่ไฟน์จูนแล้วได้
ลดต้นทุนการเรียก API ซ้ำลง 50% ด้วยการแคชพรอมป์ต์
- OpenAI เปิดตัวฟีเจอร์ prompt caching ใหม่ที่ตรวจจับการเรียก API ซ้ำและส่งคืนคำตอบที่เคยสร้างไว้ก่อนหน้า
- ฟีเจอร์นี้จะทำงานอัตโนมัติตั้งแต่วันนี้ และช่วยลดต้นทุนการเรียก API จำนวนมากลง 50% โดยที่นักพัฒนาไม่ต้องทำงานเพิ่ม
- ฟีเจอร์นี้เป็นส่วนต่อเนื่องของแนวโน้มที่ OpenAI แข่งขันกันทำให้ต้นทุนการใช้งาน API ถูกลงเรื่อย ๆ
- นี่เป็นข่าวดีสำหรับนักพัฒนา แต่ก็ก่อให้เกิดความสัมพันธ์เชิงพลวัตที่น่าสนใจกับ Microsoft ซึ่งเป็นพาร์ตเนอร์รายใหญ่ที่สุดของ OpenAI
- Microsoft กดดันให้บริษัทขนาดใหญ่ซื้อการเรียก GPT-4 API ล่วงหน้าเกินจำนวนเงินที่กำหนด เพื่อให้มั่นใจว่าจะได้รับความจุเพียงพอ
- จึงน่าคิดว่าทั้ง Microsoft และลูกค้าที่ทำข้อตกลงซื้อไว้ล่วงหน้าแล้วจะมองการลดราคานี้อย่างไร
กลยุทธ์ของ OpenAI
1. มุ่งพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลาย
- OpenAI เชื่อว่าแอปพลิเคชันที่มีประสิทธิภาพที่สุดจะไม่ได้ใช้โมเดลเดียวทำทุกอย่าง แต่ใช้หลายโมเดลร่วมกัน
- นักพัฒนาสามารถใช้ทั้งโมเดลที่เด่นด้านการให้เหตุผลอย่าง o1 และโมเดลที่เด่นด้านบริบทขนาดยาวหรือการประมวลผลพรอมป์ต์ภาพอย่าง GPT-4o ร่วมกัน เพื่อมอบประสบการณ์ที่สม่ำเสมอให้ผู้ใช้ได้
2. o1 คือก้าวสำคัญสู่เอเจนต์ที่ทำงานได้ด้วยตัวเอง
- เอเจนต์เป็นหนึ่งในแอปพลิเคชัน AI ที่ถูกพูดถึงมากที่สุดมาเป็นเวลานาน แต่โมเดล GPT รุ่นก่อนหน้ามักมีโอกาสทำงานได้ไม่ดีเมื่อพยายามแก้ปัญหาด้วยตัวเอง
- คาดว่า o1 จะมีบทบาทสำคัญในการสร้างเอเจนต์ที่ทำงานได้อย่างอิสระจริง ๆ ด้วยความสามารถในการสะท้อนกระบวนการคิดของตนเองและวางแผนขั้นตอนถัดไป
3. ตอนนี้มีเทคโนโลยีจำนวนมหาศาลที่ช่วยให้นักพัฒนาสร้างประสบการณ์อันน่าทึ่งให้ผู้ใช้ได้
- เป็นเรื่องง่ายที่จะลืมว่าเมื่อไม่กี่ปีก่อน สิ่งที่สาธิตในวันนี้ไม่มีอย่างใดอย่างหนึ่งที่เป็นไปไม่ได้ หรืออยู่นอกความสนใจ
- ทุกวันนี้แม้แต่นักพัฒนาเดี่ยวที่สร้างแอปในเวลาว่าง ก็ยังทำสิ่งที่ก่อนหน้านี้แม้แต่ทั้งทีมพัฒนาก็ทำไม่ได้
ยังไม่มีความคิดเห็น