OpenAI เปิดตัว GPT-4o โมเดล AI แบบมัลติโหมดที่มีความสามารถด้านข้อความ เสียง และภาพ

(openai.com)

11 คะแนน โดย brainer 2024-05-14 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

• โมเดล AI แบบก้าวล้ำที่สามารถประมวลผลและสร้างข้อความ เสียง และภาพได้พร้อมกัน
• ด้วยเวลาในการตอบสนองแบบเรียลไทม์ที่ใกล้เคียงการสนทนาของมนุษย์ GPT-4o จึงสร้างมาตรฐานใหม่สำหรับปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติ
• ใน API นั้นเร็วกว่าและคุ้มค่ากว่าเดิม อีกทั้งยังทำผลงานเหนือกว่า GPT-4 Turbo ในด้านข้อความและโค้ด โดยเฉพาะในภาษาที่ไม่ใช่อังกฤษ
• ความสามารถแบบมัลติโหมดของ GPT-4o ทำให้เข้าใจอินพุตเสียง ตอบสนองได้ สร้างเอาต์พุตเสียงได้ และมีส่วนร่วมในการสนทนาแบบเรียลไทม์
• โมเดลนี้แสดงให้เห็นถึงการให้เหตุผลที่ดีขึ้น ความชำนาญหลายภาษา ความเข้าใจด้านเสียงและภาพ และการรับรู้ทางสายตา
• OpenAI เน้นย้ำมาตรการความปลอดภัยที่นำมาใช้ในการออกแบบและการฝึกหลังการเทรนของ GPT-4o เพื่อลดความเสี่ยงที่อาจเกิดขึ้น
• การเปิดตัวระยะแรกจะมีอินพุตข้อความและภาพ และเอาต์พุตข้อความ ส่วนความสามารถด้านเสียงและวิดีโอจะเปิดให้พาร์ตเนอร์ที่เชื่อถือได้ของ API ใช้งานในอนาคต

5 ความคิดเห็น

bluejoyq 2024-05-14

สัมผัสได้เลยว่าความเร็วเพิ่มขึ้นอย่างมาก

brainer 2024-05-14

ถ้าถามเป็นภาษาเกาหลี

ประสิทธิภาพของตัวโมเดลเอง 2 เท่า * 1.7 (การปรับปรุงโทเคนภาษาเกาหลี) = เร็วขึ้น 3.4 เท่า

xguru 2024-05-14

O ใน 4O หมายถึง Omni

corelyai 2024-05-14

อัปเดตล่าสุดของ ChatGPT: โมเดล GPT-4o และการเข้าถึงของผู้ใช้ที่ดียิ่งขึ้น

ChatGPT มุ่งเน้นให้ทุกคนสามารถใช้งานเครื่องมือ AI ขั้นสูงได้ฟรี การเปิดตัวเวอร์ชันเดสก์ท็อปและโมเดลเรือธงใหม่ GPT-4o มีเป้าหมายเพื่อยกระดับความเป็นธรรมชาติและความสะดวกในการใช้งานสำหรับผู้ใช้ GPT-4o มอบความสามารถที่เร็วขึ้นและดีขึ้นทั้งด้านข้อความ การมองเห็น และเสียง ซึ่งจะเป็นความก้าวหน้าสำคัญของการทำงานร่วมกันระหว่างมนุษย์กับเครื่องจักร

การขยายความสามารถของ ChatGPT ด้วย GPT-4o

ขณะนี้เราเปิดให้ผู้ใช้ทุกคนใช้งาน GPT-4o ซึ่งมีความสามารถด้านเสียง ข้อความ และการให้เหตุผลจากภาพ ฟีเจอร์ใหม่ประกอบด้วยการสนทนาด้วยเสียงแบบเรียลไทม์ หน่วยความจำ การค้นหาข้อมูลแบบเรียลไทม์ และการวิเคราะห์ข้อมูลขั้นสูง GPT-4o รองรับ 50 ภาษา พร้อมคุณภาพและความเร็วที่ดีขึ้น และสำหรับผู้ใช้แบบชำระเงินจะมีขีดจำกัดการใช้งานที่สูงขึ้น

ความสามารถใหม่ของ ChatGPT ที่ตอบสนองแบบเรียลไทม์

ฟีเจอร์ใหม่ของ ChatGPT มอบการตอบสนองแบบเรียลไทม์และความสามารถในการรับรู้อารมณ์ของผู้ใช้ โมเดลนี้สามารถสร้างเสียงได้หลายสไตล์ เช่น เสียงดรามาติก เสียงหุ่นยนต์ และเสียงร้องเพลง นอกจากนี้ ChatGPT ยังรองรับงานด้านภาพ และสามารถโต้ตอบกับผู้ใช้ในสภาพแวดล้อมเดโมสดได้แล้ว

การแก้สมการเชิงเส้น: ทีละขั้นตอน

Barrett Zoph และ ChatGPT แก้สมการ 3X + 1 = 4 โดยเริ่มจากแยกพจน์ของ X จากนั้นหาค่า X แล้วจึงพูดถึงการประยุกต์ใช้สมการเชิงเส้นในชีวิตประจำวัน เช่น การคำนวณค่าใช้จ่าย การวางแผนการเดินทาง และการคำนวณทางธุรกิจ สิ่งนี้ช่วยสร้างความมั่นใจใหม่ในการทำความเข้าใจคณิตศาสตร์และการนำไปใช้กับปัญหาจริง

การวิเคราะห์ข้อมูลสภาพอากาศด้วย ChatGPT

ChatGPT ช่วยวิเคราะห์ข้อมูลสภาพอากาศโดยอธิบายความสามารถด้านโค้ดและตีความผลลัพธ์ของกราฟ ฟังก์ชัน 'Fu' เป็นสิ่งสำคัญในการทำให้ข้อมูลอุณหภูมิเรียบขึ้นและลดสัญญาณรบกวนในกราฟ กราฟนี้แสดงค่าเฉลี่ย อุณหภูมิต่ำสุด และอุณหภูมิสูงสุดแบบเรียบตลอดทั้งปี 2018 พร้อมคำอธิบายประกอบที่น่าสนใจเกี่ยวกับเหตุการณ์ฝนตกหนักช่วงปลายเดือนกันยายน

ปฏิสัมพันธ์หลายภาษาและเทคโนโลยี AI

เทคโนโลยี AI แสดงให้เห็นความสามารถด้านปฏิสัมพันธ์หลายภาษาและการตีความอารมณ์ผ่านเดโมสด เดโมนี้เน้นเป้าหมายในการทำให้ผู้ใช้เข้าถึงเทคโนโลยีนี้ได้ง่ายขึ้นในอนาคตอันใกล้ นอกจากนี้ การนำเสนอนี้ยังยกย่องทีมงานที่มีส่วนช่วยในการพัฒนาเทคโนโลยีและผลงานของพวกเขา

Corely สรุปประเด็นสำคัญจาก YouTube ได้ใน 10 วินาที! - https://corely.ai/content/openai-spring-update-2022