ทุกสิ่งที่ OpenAI ประกาศในงาน DevDay

xguru · 2024-10-03T10:20:02+09:00

ประกาศสำคัญ Realtime API ที่ช่วยให้สามารถสร้างฟีเจอร์คล้ายโหมดเสียงขั้นสูงของ ChatGPT ได้ เพิ่ม Rate Limit ของโมเดล o1 ให้เท่ากับ GPT-4o (10,000 ครั้งต่อนาที) ลดราคา GPT-4o API ด้วยการแคชพรอมป์ต์อัตโนมัติ สำหรับการเรียกใช้งานซ้ำจะถูกลง 50% โดยไม่ต้องพัฒนาเพิ่ม API สำหรับการทำมัลติโหมดอลไฟน์จูน ตั้งแต่ปีที่แล้วถึงปีนี้ จำนวนแอปที่ใช้งานอยู่บนแพลตฟอร์ม OpenAI เพิ่มขึ้น 3 เท่า และมีนักพัฒนาที่ใช้งานอยู่ราว 3 ล้านคน ภาพรวมของโมเดล o1 OpenAI เปิดตัว o1 โมเดลด้านการให้เหตุผลตัวใหม่ o1 ถูกจัดอยู่ในตระกูลโมเดลใหม่ที่แตกต่างจาก GPT-4o เดิม OpenAI มองว่าการพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลายจะเป็นทิศทางในอนาคต o1 เด่นด้านความสามารถในการคิดแบบ chain-of-thought จึงเหมาะกับงานเขียนโปรแกรม แต่ช้าและมีต้นทุนสูง พรอมป์ต์ส่วนใหญ่ไม่ต้องการความสามารถในการให้เหตุผลขั้นสูงของ o1 ดังนั้น o1 จะไม่กลายเป็นโมเดลพื้นฐาน Romain Huet หัวหน้าฝ่ายนักพัฒนาสัมพันธ์ของ OpenAI สาธิตการใช้ o1 สร้างแอป iPhone ตั้งแต่ต้นจนจบด้วยพรอมป์ต์เดียวภายใน 30 วินาที เขายังนำโดรนขึ้นเวทีและสร้างเว็บแอปเพื่อควบคุมโดรนต่อหน้าผู้ชมด้วย แม้การสาธิตลักษณะนี้จะทำได้ด้วยโมเดล GPT รุ่นก่อนหน้า แต่เมื่อใช้ o1 จะสร้างได้เร็วกว่าอย่างมาก o1 แสดงให้เห็นอนาคตที่สามารถเปลี่ยนจากไอเดียไปเป็นแอปได้ภายใน 1-2 นาที API แบบเรียลไทม์สำหรับการสนทนาด้วยเสียง ฟีเจอร์ที่น่าประทับใจที่สุดที่ OpenAI เปิดตัวคือ Realtime API ซึ่งช่วยให้นักพัฒนาสร้างความสามารถคล้ายโหมดเสียงขั้นสูงของ ChatGPT ลงในแอปของตนได้ นักพัฒนาสามารถส่งเสียงที่บันทึกไว้ไปยังเซิร์ฟเวอร์ของ OpenAI และรับเสียงตอบกลับที่บันทึกแบบเรียลไทม์ ถอดเสียง และการเรียกใช้ฟังก์ชันกลับมาได้ Realtime API เปิดเป็น public beta ตั้งแต่วันนี้ และมีแผนจะรองรับรูปแบบเพิ่มเติมอย่างวิดีโอในอนาคต Realtime API คิดค่าบริการเสียงขาเข้า 0.06 ดอลลาร์ต่อนาที และเสียงขาออก 0.24 ดอลลาร์ต่อนาที รวมเป็น 0.15 ดอลลาร์ (สมมติว่าเสียงขาเข้าและขาออกเท่ากัน) ราคานี้แพงกว่าบริการ speech-to-speech ของ ElevenLabs ที่อยู่ราว 0.11 ดอลลาร์ต่อนาที แต่ไม่ใช่การจ่ายตามการใช้งาน เพราะต้องซื้อเวลาใช้งานจำนวนหนึ่งต่อเดือนล่วงหน้า เสียงแบบเรียลไทม์เปิดกรณีใช้งานใหม่จำนวนมาก เช่น ผู้ช่วยการอ่านที่ดีขึ้น หรือการสอนภาษาที่สมจริงยิ่งขึ้น เครื่องมือไฟน์จูน OpenAI กำลังจริงจังกับแนวคิดที่ว่าการใช้หลายโมเดลดีกว่าการใช้โมเดลขนาดใหญ่ตัวเดียว บริษัทต่าง ๆ จะสามารถสร้าง GPT-4o เวอร์ชันปรับแต่งเฉพาะให้เหมาะกับกรณีใช้งานของตนเองได้ OpenAI กำลังมองภาพอนาคตที่ทุกบริษัทจะมีโมเดลที่ผ่านการไฟน์จูนและเข้าถึงข้อมูลของตัวเองได้ API สำหรับไฟน์จูนภาพ ทุกคนสามารถไฟน์จูน GPT-4o โดยใช้ข้อมูลภาพของตนเองได้ ตัวอย่างเช่น หากคุณทำงานด้านการแพทย์และต้องการปรับแต่งความสามารถของ GPT-4o ในการอ่านและติดป้ายกำกับ MRI คุณสามารถใช้ API นี้ได้ เครื่องมือกลั่นโมเดล OpenAI เปิดตัวเครื่องมือ 2 รายการเพื่อช่วยให้ทำ model distillation ได้ดีขึ้น ซึ่งเป็นกระบวนการสร้างโมเดลพื้นฐานเวอร์ชันที่เล็กกว่า เร็วกว่า และถูกกว่า โดยออกแบบให้เหมาะกับกรณีใช้งานเฉพาะ มีการเพิ่มความสามารถใน developer playground ให้บันทึกการโต้ตอบกับ API ก่อนหน้าและนำไปใช้เป็นข้อมูลสำหรับการไฟน์จูนได้ ทำให้การทำ distillation ง่ายขึ้น นอกจากนี้ยังเพิ่มเครื่องมือ Evals ใน playground เพื่อให้นักพัฒนาประเมินประสิทธิภาพของโมเดลที่ไฟน์จูนแล้วได้ ลดต้นทุนการเรียก API ซ้ำลง 50% ด้วยการแคชพรอมป์ต์ OpenAI เปิดตัวฟีเจอร์ prompt caching ใหม่ที่ตรวจจับการเรียก API ซ้ำและส่งคืนคำตอบที่เคยสร้างไว้ก่อนหน้า ฟีเจอร์นี้จะทำงานอัตโนมัติตั้งแต่วันนี้ และช่วยลดต้นทุนการเรียก API จำนวนมากลง 50% โดยที่นักพัฒนาไม่ต้องทำงานเพิ่ม ฟีเจอร์นี้เป็นส่วนต่อเนื่องของแนวโน้มที่ OpenAI แข่งขันกันทำให้ต้นทุนการใช้งาน API ถูกลงเรื่อย ๆ นี่เป็นข่าวดีสำหรับนักพัฒนา แต่ก็ก่อให้เกิดความสัมพันธ์เชิงพลวัตที่น่าสนใจกับ Microsoft ซึ่งเป็นพาร์ตเนอร์รายใหญ่ที่สุดของ OpenAI Microsoft กดดันให้บริษัทขนาดใหญ่ซื้อการเรียก GPT-4 API ล่วงหน้าเกินจำนวนเงินที่กำหนด เพื่อให้มั่นใจว่าจะได้รับความจุเพียงพอ จึงน่าคิดว่าทั้ง Microsoft และลูกค้าที่ทำข้อตกลงซื้อไว้ล่วงหน้าแล้วจะมองการลดราคานี้อย่างไร กลยุทธ์ของ OpenAI 1. มุ่งพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลาย OpenAI เชื่อว่าแอปพลิเคชันที่มีประสิทธิภาพที่สุดจะไม่ได้ใช้โมเดลเดียวทำทุกอย่าง แต่ใช้หลายโมเดลร่วมกัน นักพัฒนาสามารถใช้ทั้งโมเดลที่เด่นด้านการให้เหตุผลอย่าง o1 และโมเดลที่เด่นด้านบริบทขนาดยาวหรือการประมวลผลพรอมป์ต์ภาพอย่าง GPT-4o ร่วมกัน เพื่อมอบประสบการณ์ที่สม่ำเสมอให้ผู้ใช้ได้ 2. o1 คือก้าวสำคัญสู่เอเจนต์ที่ทำงานได้ด้วยตัวเอง เอเจนต์เป็นหนึ่งในแอปพลิเคชัน AI ที่ถูกพูดถึงมากที่สุดมาเป็นเวลานาน แต่โมเดล GPT รุ่นก่อนหน้ามักมีโอกาสทำงานได้ไม่ดีเมื่อพยายามแก้ปัญหาด้วยตัวเอง คาดว่า o1 จะมีบทบาทสำคัญในการสร้างเอเจนต์ที่ทำงานได้อย่างอิสระจริง ๆ ด้วยความสามารถในการสะท้อนกระบวนการคิดของตนเองและวางแผนขั้นตอนถัดไป 3. ตอนนี้มีเทคโนโลยีจำนวนมหาศาลที่ช่วยให้นักพัฒนาสร้างประสบการณ์อันน่าทึ่งให้ผู้ใช้ได้ เป็นเรื่องง่ายที่จะลืมว่าเมื่อไม่กี่ปีก่อน สิ่งที่สาธิตในวันนี้ไม่มีอย่างใดอย่างหนึ่งที่เป็นไปไม่ได้ หรืออยู่นอกความสนใจ ทุกวันนี้แม้แต่นักพัฒนาเดี่ยวที่สร้างแอปในเวลาว่าง ก็ยังทำสิ่งที่ก่อนหน้านี้แม้แต่ทั้งทีมพัฒนาก็ทำไม่ได้

(every.to)

12 คะแนน โดย xguru 2024-10-03 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ประกาศสำคัญ

Realtime API ที่ช่วยให้สามารถสร้างฟีเจอร์คล้ายโหมดเสียงขั้นสูงของ ChatGPT ได้
เพิ่ม Rate Limit ของโมเดล o1 ให้เท่ากับ GPT-4o (10,000 ครั้งต่อนาที)
ลดราคา GPT-4o API ด้วยการแคชพรอมป์ต์อัตโนมัติ สำหรับการเรียกใช้งานซ้ำจะถูกลง 50% โดยไม่ต้องพัฒนาเพิ่ม
API สำหรับการทำมัลติโหมดอลไฟน์จูน
ตั้งแต่ปีที่แล้วถึงปีนี้ จำนวนแอปที่ใช้งานอยู่บนแพลตฟอร์ม OpenAI เพิ่มขึ้น 3 เท่า และมีนักพัฒนาที่ใช้งานอยู่ราว 3 ล้านคน

ภาพรวมของโมเดล o1

OpenAI เปิดตัว o1 โมเดลด้านการให้เหตุผลตัวใหม่
o1 ถูกจัดอยู่ในตระกูลโมเดลใหม่ที่แตกต่างจาก GPT-4o เดิม
OpenAI มองว่าการพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลายจะเป็นทิศทางในอนาคต
o1 เด่นด้านความสามารถในการคิดแบบ chain-of-thought จึงเหมาะกับงานเขียนโปรแกรม แต่ช้าและมีต้นทุนสูง
พรอมป์ต์ส่วนใหญ่ไม่ต้องการความสามารถในการให้เหตุผลขั้นสูงของ o1 ดังนั้น o1 จะไม่กลายเป็นโมเดลพื้นฐาน
Romain Huet หัวหน้าฝ่ายนักพัฒนาสัมพันธ์ของ OpenAI สาธิตการใช้ o1 สร้างแอป iPhone ตั้งแต่ต้นจนจบด้วยพรอมป์ต์เดียวภายใน 30 วินาที
เขายังนำโดรนขึ้นเวทีและสร้างเว็บแอปเพื่อควบคุมโดรนต่อหน้าผู้ชมด้วย
แม้การสาธิตลักษณะนี้จะทำได้ด้วยโมเดล GPT รุ่นก่อนหน้า แต่เมื่อใช้ o1 จะสร้างได้เร็วกว่าอย่างมาก
o1 แสดงให้เห็นอนาคตที่สามารถเปลี่ยนจากไอเดียไปเป็นแอปได้ภายใน 1-2 นาที

API แบบเรียลไทม์สำหรับการสนทนาด้วยเสียง

ฟีเจอร์ที่น่าประทับใจที่สุดที่ OpenAI เปิดตัวคือ Realtime API ซึ่งช่วยให้นักพัฒนาสร้างความสามารถคล้ายโหมดเสียงขั้นสูงของ ChatGPT ลงในแอปของตนได้
นักพัฒนาสามารถส่งเสียงที่บันทึกไว้ไปยังเซิร์ฟเวอร์ของ OpenAI และรับเสียงตอบกลับที่บันทึกแบบเรียลไทม์ ถอดเสียง และการเรียกใช้ฟังก์ชันกลับมาได้
Realtime API เปิดเป็น public beta ตั้งแต่วันนี้ และมีแผนจะรองรับรูปแบบเพิ่มเติมอย่างวิดีโอในอนาคต
Realtime API คิดค่าบริการเสียงขาเข้า 0.06 ดอลลาร์ต่อนาที และเสียงขาออก 0.24 ดอลลาร์ต่อนาที รวมเป็น 0.15 ดอลลาร์ (สมมติว่าเสียงขาเข้าและขาออกเท่ากัน)
ราคานี้แพงกว่าบริการ speech-to-speech ของ ElevenLabs ที่อยู่ราว 0.11 ดอลลาร์ต่อนาที แต่ไม่ใช่การจ่ายตามการใช้งาน เพราะต้องซื้อเวลาใช้งานจำนวนหนึ่งต่อเดือนล่วงหน้า
เสียงแบบเรียลไทม์เปิดกรณีใช้งานใหม่จำนวนมาก เช่น ผู้ช่วยการอ่านที่ดีขึ้น หรือการสอนภาษาที่สมจริงยิ่งขึ้น

เครื่องมือไฟน์จูน

OpenAI กำลังจริงจังกับแนวคิดที่ว่าการใช้หลายโมเดลดีกว่าการใช้โมเดลขนาดใหญ่ตัวเดียว
บริษัทต่าง ๆ จะสามารถสร้าง GPT-4o เวอร์ชันปรับแต่งเฉพาะให้เหมาะกับกรณีใช้งานของตนเองได้
OpenAI กำลังมองภาพอนาคตที่ทุกบริษัทจะมีโมเดลที่ผ่านการไฟน์จูนและเข้าถึงข้อมูลของตัวเองได้

API สำหรับไฟน์จูนภาพ

ทุกคนสามารถไฟน์จูน GPT-4o โดยใช้ข้อมูลภาพของตนเองได้
ตัวอย่างเช่น หากคุณทำงานด้านการแพทย์และต้องการปรับแต่งความสามารถของ GPT-4o ในการอ่านและติดป้ายกำกับ MRI คุณสามารถใช้ API นี้ได้

เครื่องมือกลั่นโมเดล

OpenAI เปิดตัวเครื่องมือ 2 รายการเพื่อช่วยให้ทำ model distillation ได้ดีขึ้น ซึ่งเป็นกระบวนการสร้างโมเดลพื้นฐานเวอร์ชันที่เล็กกว่า เร็วกว่า และถูกกว่า โดยออกแบบให้เหมาะกับกรณีใช้งานเฉพาะ
มีการเพิ่มความสามารถใน developer playground ให้บันทึกการโต้ตอบกับ API ก่อนหน้าและนำไปใช้เป็นข้อมูลสำหรับการไฟน์จูนได้ ทำให้การทำ distillation ง่ายขึ้น
นอกจากนี้ยังเพิ่มเครื่องมือ Evals ใน playground เพื่อให้นักพัฒนาประเมินประสิทธิภาพของโมเดลที่ไฟน์จูนแล้วได้

ลดต้นทุนการเรียก API ซ้ำลง 50% ด้วยการแคชพรอมป์ต์

OpenAI เปิดตัวฟีเจอร์ prompt caching ใหม่ที่ตรวจจับการเรียก API ซ้ำและส่งคืนคำตอบที่เคยสร้างไว้ก่อนหน้า
ฟีเจอร์นี้จะทำงานอัตโนมัติตั้งแต่วันนี้ และช่วยลดต้นทุนการเรียก API จำนวนมากลง 50% โดยที่นักพัฒนาไม่ต้องทำงานเพิ่ม
ฟีเจอร์นี้เป็นส่วนต่อเนื่องของแนวโน้มที่ OpenAI แข่งขันกันทำให้ต้นทุนการใช้งาน API ถูกลงเรื่อย ๆ
นี่เป็นข่าวดีสำหรับนักพัฒนา แต่ก็ก่อให้เกิดความสัมพันธ์เชิงพลวัตที่น่าสนใจกับ Microsoft ซึ่งเป็นพาร์ตเนอร์รายใหญ่ที่สุดของ OpenAI
Microsoft กดดันให้บริษัทขนาดใหญ่ซื้อการเรียก GPT-4 API ล่วงหน้าเกินจำนวนเงินที่กำหนด เพื่อให้มั่นใจว่าจะได้รับความจุเพียงพอ
จึงน่าคิดว่าทั้ง Microsoft และลูกค้าที่ทำข้อตกลงซื้อไว้ล่วงหน้าแล้วจะมองการลดราคานี้อย่างไร

กลยุทธ์ของ OpenAI

1. มุ่งพัฒนาโมเดลหลายแบบให้เหมาะกับกรณีใช้งานที่หลากหลาย

OpenAI เชื่อว่าแอปพลิเคชันที่มีประสิทธิภาพที่สุดจะไม่ได้ใช้โมเดลเดียวทำทุกอย่าง แต่ใช้หลายโมเดลร่วมกัน
นักพัฒนาสามารถใช้ทั้งโมเดลที่เด่นด้านการให้เหตุผลอย่าง o1 และโมเดลที่เด่นด้านบริบทขนาดยาวหรือการประมวลผลพรอมป์ต์ภาพอย่าง GPT-4o ร่วมกัน เพื่อมอบประสบการณ์ที่สม่ำเสมอให้ผู้ใช้ได้

2. o1 คือก้าวสำคัญสู่เอเจนต์ที่ทำงานได้ด้วยตัวเอง

เอเจนต์เป็นหนึ่งในแอปพลิเคชัน AI ที่ถูกพูดถึงมากที่สุดมาเป็นเวลานาน แต่โมเดล GPT รุ่นก่อนหน้ามักมีโอกาสทำงานได้ไม่ดีเมื่อพยายามแก้ปัญหาด้วยตัวเอง
คาดว่า o1 จะมีบทบาทสำคัญในการสร้างเอเจนต์ที่ทำงานได้อย่างอิสระจริง ๆ ด้วยความสามารถในการสะท้อนกระบวนการคิดของตนเองและวางแผนขั้นตอนถัดไป

3. ตอนนี้มีเทคโนโลยีจำนวนมหาศาลที่ช่วยให้นักพัฒนาสร้างประสบการณ์อันน่าทึ่งให้ผู้ใช้ได้

เป็นเรื่องง่ายที่จะลืมว่าเมื่อไม่กี่ปีก่อน สิ่งที่สาธิตในวันนี้ไม่มีอย่างใดอย่างหนึ่งที่เป็นไปไม่ได้ หรืออยู่นอกความสนใจ
ทุกวันนี้แม้แต่นักพัฒนาเดี่ยวที่สร้างแอปในเวลาว่าง ก็ยังทำสิ่งที่ก่อนหน้านี้แม้แต่ทั้งทีมพัฒนาก็ทำไม่ได้