ChatGPT เพิ่มฟีเจอร์สนทนาด้วยเสียงและรับภาพเป็นอินพุต

(openai.com)

1 คะแนน โดย GN⁺ 2023-09-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI ทยอยเพิ่มฟีเจอร์ สนทนาด้วยเสียง และ รับภาพเป็นอินพุต ให้กับ ChatGPT ทำให้ผู้ใช้ไม่ต้องจำกัดอยู่แค่การพิมพ์ข้อความ แต่สามารถพูดคุยและแสดงภาพเพื่อถามคำถามได้
ฟีเจอร์เสียงต้องเปิดใช้งานแบบออปต์อินในแอปมือถือก่อนจึงจะใช้ได้ โดยเลือกได้จาก 5 เสียง และ Whisper จะถอดคำพูดของผู้ใช้เป็นข้อความ
ฟีเจอร์ภาพรองรับรูปถ่าย สกรีนช็อต และเอกสารที่มีทั้งข้อความและภาพ โดยในแอปมือถือสามารถใช้ เครื่องมือวาด เพื่อระบุพื้นที่เฉพาะได้
จะปล่อยให้ผู้ใช้ Plus และ Enterprise ก่อนภายในช่วง 2 สัปดาห์ โดยฟีเจอร์เสียงใช้ได้บน iOS และ Android ส่วนฟีเจอร์ภาพใช้ได้บนทุกแพลตฟอร์ม
เนื่องจากมีความเสี่ยงอย่างการสังเคราะห์เสียงสมจริง การตีความภาพคน และการพึ่งพาในงานความเสี่ยงสูง OpenAI จึงใช้แนวทาง ทยอยปล่อยแบบจำกัด ควบคู่กับมาตรการความปลอดภัย

รูปแบบการป้อนข้อมูลใหม่ของ ChatGPT: พูด แสดง แล้วถาม

ChatGPT เพิ่มความสามารถให้ผู้ใช้ สนทนาด้วยเสียง หรือ แสดงภาพ พร้อมตั้งคำถามได้
ฟีเจอร์ใหม่นี้มุ่งให้การใช้งาน ChatGPT เป็นธรรมชาติมากขึ้น โดยไม่ต้องพึ่งพาแค่การพิมพ์ด้วยคีย์บอร์ด
ตัวอย่างการใช้งานมีดังนี้
- ถ่ายภาพสถานที่สำคัญระหว่างเดินทาง แล้วถามสิ่งที่น่าสนใจผ่านการสนทนาแบบเรียลไทม์
- แสดงภาพตู้เย็นและตู้เก็บของ แล้วถามเมนูมื้อเย็นพร้อมสูตรทีละขั้นตอน
- ถ่ายภาพโจทย์คณิตศาสตร์ของเด็ก วงชุดข้อที่ต้องการ แล้วขอคำใบ้

ผู้ใช้และแพลตฟอร์มที่จะได้ใช้ก่อน

ผู้ใช้ Plus และ Enterprise จะสามารถใช้ฟีเจอร์เสียงและภาพได้ภายใน 2 สัปดาห์ข้างหน้า
ฟีเจอร์เสียงจะมีบน iOS และ Android และต้องเปิดใช้งานแบบออปต์อินใน Settings
ฟีเจอร์ภาพจะมีให้บนทุกแพลตฟอร์ม
หลังจากนั้นมีแผนจะขยายการเข้าถึงไปยังผู้ใช้กลุ่มอื่น รวมถึงนักพัฒนา

วิธีการทำงานของฟีเจอร์เสียง

ผู้ใช้สามารถสนทนาแบบ โต้ตอบด้วยเสียงไปกลับ กับ ChatGPT ได้
- คุยระหว่างเดินทาง
- ขอให้อ่านนิทานก่อนนอนสำหรับครอบครัว
- ช่วยสรุปข้อถกเถียงบนโต๊ะอาหาร
หากต้องการเริ่มใช้เสียงในแอปมือถือ ต้องเปิดการสนทนาด้วยเสียงที่ Settings → New Features
จากนั้นกดปุ่มหูฟังมุมขวาบนของหน้าหลัก แล้วเลือกเสียงที่ต้องการจาก 5 เสียง
ฟีเจอร์เสียงใหม่นี้ใช้ โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถสร้างเสียงสมจริงจากข้อความและตัวอย่างเสียงเพียงไม่กี่วินาที
แต่ละเสียงสร้างขึ้นจากความร่วมมือระหว่าง OpenAI และนักพากย์มืออาชีพ
คำพูดของผู้ใช้จะถูกถอดเป็นข้อความโดย Whisper ระบบรู้จำเสียงแบบโอเพนซอร์สของ OpenAI

วิธีการทำงานของฟีเจอร์ภาพ

ผู้ใช้สามารถแสดงภาพหนึ่งภาพหรือหลายภาพให้ ChatGPT ดู แล้วสนทนาต่อเนื่องได้
อินพุตภาพสามารถใช้กับงานอย่างเช่น
- ตรวจหาสาเหตุที่เตาย่างไม่ติด
- ดูของในตู้เย็นเพื่อวางแผนมื้ออาหาร
- วิเคราะห์กราฟซับซ้อนที่มีข้อมูลงานอยู่ภายใน
หากต้องการให้โฟกัสที่บางส่วน สามารถใช้ เครื่องมือวาด ในแอปมือถือได้
การเพิ่มภาพทำได้โดยกดปุ่มรูปถ่ายเพื่อถ่ายใหม่หรือเลือกภาพที่มีอยู่
- บน iOS และ Android ต้องกดปุ่มบวกก่อน
- สามารถคุยเกี่ยวกับหลายภาพพร้อมกัน หรือใช้เครื่องมือวาดเพื่อบอก assistant ว่าควรดูส่วนไหน
ความสามารถในการเข้าใจภาพขับเคลื่อนโดย มัลติโหมด GPT‑3.5 และ GPT‑4
โมเดลเหล่านี้นำความสามารถด้านการให้เหตุผลทางภาษาไปใช้กับภาพหลากหลายประเภท เช่น รูปถ่าย สกรีนช็อต และเอกสารที่มีทั้งข้อความและภาพ

การทยอยปล่อยและมาตรการความปลอดภัย

OpenAI เลือกแนวทาง ทยอยเปิดให้ใช้ เพื่อปรับปรุงเครื่องมือและลดความเสี่ยงไปพร้อมกัน
สำหรับโมเดลขั้นสูงที่มีทั้งเสียงและวิสัยทัศน์ ความเป็นไปได้ในการถูกนำไปใช้ผิดทางมีมากขึ้น จึงยิ่งทำให้กลยุทธ์นี้สำคัญ
ความเสี่ยงและข้อจำกัดที่เกี่ยวกับเสียง
- เทคโนโลยีเสียงใหม่นี้สามารถสร้างเสียงสังเคราะห์สมจริงได้จากเสียงจริงเพียงไม่กี่วินาที
- แม้จะเปิดทางให้เกิดการใช้งานเชิงสร้างสรรค์และแอปพลิเคชันด้านการเข้าถึง แต่ก็มาพร้อมความเสี่ยงอย่างการปลอมเป็นบุคคลสาธารณะหรือการฉ้อโกง
- OpenAI ใช้เทคโนโลยีนี้กับกรณีใช้งานเฉพาะคือ การแชตด้วยเสียง
- การแชตด้วยเสียงสร้างขึ้นจากเสียงของนักพากย์ที่ OpenAI ร่วมงานด้วยโดยตรง
- Spotify ใช้เทคโนโลยีนี้ในโครงการนำร่อง Voice Translation
- ฟีเจอร์นี้แปลพอดแคสต์เป็นภาษาเพิ่มเติมโดยคงเสียงของพอดแคสเตอร์ไว้ ช่วยขยายการเข้าถึงของการเล่าเรื่อง
- ลิงก์ที่เกี่ยวข้อง: Voice Translation
ความเสี่ยงและข้อจำกัดที่เกี่ยวกับอินพุตภาพ
- โมเดลที่อาศัยวิสัยทัศน์มีความท้าทายใหม่ เช่น การมโนเกี่ยวกับบุคคล หรือการพึ่งพาการตีความภาพในงานความเสี่ยงสูง
- OpenAI ทดสอบโมเดลกับทีมเรดทีมและผู้ทดสอบอัลฟาหลากหลายกลุ่มก่อนปล่อยในวงกว้าง
- พื้นที่ทดสอบรวมถึงด้านความเสี่ยง เช่น แนวคิดสุดโต่งและความชำนาญทางวิทยาศาสตร์
- ความร่วมมือกับ Be My Eyes ถูกใช้เพื่อทำความเข้าใจวิธีใช้งานและข้อจำกัดของการใช้ภาพ
- Be My Eyes เป็นแอปมือถือฟรีสำหรับผู้พิการทางสายตาและผู้มีสายตาเลือนราง
- ผู้ใช้เห็นว่าฟีเจอร์สำหรับสนทนาเกี่ยวกับภาพที่มีคนอยู่ด้วยในลักษณะทั่วไป เช่น สถานการณ์ที่มีคนปรากฏอยู่ด้านหลังบนทีวี มีประโยชน์
- เนื่องจาก ChatGPT ไม่ได้แม่นยำเสมอไปและต้องเคารพความเป็นส่วนตัวของบุคคล OpenAI จึงใช้มาตรการทางเทคนิคเพื่อจำกัดความสามารถของ ChatGPT ในการวิเคราะห์ผู้คนและกล่าวอ้างโดยตรงเกี่ยวกับบุคคลอย่างมาก
- การใช้งานจริงและฟีดแบ็กจะถูกนำไปใช้เพื่อปรับปรุงมาตรการความปลอดภัย โดยยังคงประโยชน์ใช้สอยของเครื่องมือไว้

ข้อจำกัดของโมเดลและข้อควรระวังในการใช้งาน

ผู้ใช้อาจพึ่งพา ChatGPT ในหัวข้อเฉพาะทางอย่างงานวิจัย จึงควรเข้าใจข้อจำกัดของโมเดลและหลีกเลี่ยงการใช้งาน ความเสี่ยงสูง โดยไม่มีการตรวจสอบ
โมเดลมีความสามารถดีในการถอดข้อความภาษาอังกฤษ แต่ประสิทธิภาพจะลดลงในบางภาษาอื่น โดยเฉพาะ ระบบอักษรที่ไม่ใช่โรมัน
OpenAI ไม่แนะนำให้ผู้ใช้ที่ไม่ได้ใช้ภาษาอังกฤษใช้ ChatGPT เพื่อจุดประสงค์นี้
สามารถอ่านเพิ่มเติมเกี่ยวกับแนวทางด้านความปลอดภัยของอินพุตภาพและงานที่เกี่ยวข้องกับ Be My Eyes ได้ที่ system card for image input

1 ความคิดเห็น

GN⁺ 2023-09-26

ความคิดเห็นจาก Hacker News

อินเทอร์เฟซเสียง มีศักยภาพมหาศาล แต่เดโมนี้ค่อนข้างน่าผิดหวัง เพราะมีความหน่วงหลายวินาทีระหว่างคำถามกับคำตอบ เหมือนผู้ช่วยเสียงที่ไม่ค่อยดีตัวอื่น ๆ
ไม่จำเป็นต้องเป็นแบบนี้เสมอไป เดโมแบบรันในเครื่องที่ทำด้วย Llama 2 ตอบสนองได้ภายในประมาณ 0.5 วินาที ทำให้รู้สึกใกล้เคียงกับการคุยกับคนจริง ๆ มากกว่าความรู้สึกแบบ Siri
คงต้องแพ็กเกจให้คนทั่วไปลองใช้ได้ แต่ปัญหาคือการตัดสินว่าผู้ใช้พูดจบแล้วหรือยังนั้นยาก ระบบรู้จำเสียงสำเร็จรูปยังขาด ชุดข้อมูลและโมเดลสำหรับการผลัดกันพูดในบทสนทนา และบริษัทอย่าง OpenAI น่าจะสร้างขึ้นมาได้ไม่ยาก
- เห็นด้วยอย่างยิ่ง ถ้าจะปลดล็อกประสบการณ์เสียงที่ยอดเยี่ยม เวลาแฝง คือหัวใจสำคัญ เดโมสั้น ๆ ที่กำลังทำสำหรับการสั่งซื้อด้วยเสียงอยู่ที่ https://youtu.be/WfvLIEHwiyo
  เวลาแฝงแบบไป-กลับทั้งหมด ตั้งแต่แปลงเสียงเป็นข้อความ, LLM, POS สำหรับตรวจสอบ SKU ไปจนถึงสร้างเสียงกลับมา อยู่ในระดับไม่กี่ร้อยมิลลิวินาที และเพราะมีการตรวจสอบ SKU จึงเป็นไปไม่ได้ที่จะเกิด hallucination ระดับนี้ทำให้รู้สึกค่อนข้างเป็นธรรมชาติ ถ้าทำความหน่วงต่ำแบบนี้ให้เป็นระบบทั่วไปได้ ก็น่าจะเปิดทางให้แอปพลิเคชันหลากหลายมากขึ้นอย่างมาก
- ใช่เลย มันต้องพร้อมทันทีที่ฉันพูดจบ และฉันต้อง พูดแทรกได้ ด้วย
  ถ้าทำได้แบบนั้น มันจะเริ่มพูดอย่างระมัดระวังตอนที่ฉันหยุดไปชั่วครู่ และถ้าฉันยังพูดต่อ มันก็หยุดได้ทันที
  ฉันไม่อยากต้องมานั่งคิดว่าจะจัดรูปแบบการโต้ตอบอย่างไรให้เหมือนห่วงโซ่เรียก/ตอบกลับที่ชัดเจน และก็ไม่อยากต้องระวังว่าถ้าไม่พูดต่อเนื่องจนคิดจบ มันจะทำงานผิดจังหวะ
- การตัดสินว่าผู้ใช้พูดจบแล้วหรือยัง บางครั้งไม่ได้ยากแค่สำหรับฝ่ายที่ฟัง แต่ยังยากสำหรับ คนพูด เองด้วย
  การพูดแทรกอย่างสุภาพ หรือการไม่มีสิ่งนั้น อาจกลายเป็นตัวบ่งชี้ว่าเรากำลังคุยกับ AI อยู่ก็ได้
- อยากรู้ว่าจะแชร์ลิงก์ GitHub ได้ไหม ลดเวลาแฝงตรงไหนอยู่? ประมวลผลเสียงดิบเป็นข้อความ หรือเปล่า?
  จากประสบการณ์ของฉัน ถ้าไม่ได้ใช้โมเดลเล็ก ๆ อย่าง 7B เวลาในการสร้างคำตอบของ ChatGPT เร็วกว่า Llama ที่รันในเครื่องมาก
- สงสัยว่าคอมพิวเตอร์จะเริ่มคำนึงถึง ทำนองเสียง เมื่อไหร่ มันช่วยให้เข้าใจจุดจบของวลีได้จริง ๆ
  มีข้อมูลจำนวนมหาศาลในทำนองเสียงที่ไม่มีอยู่ในข้อความล้วน AI ที่ไม่เข้าใจส่วนนี้ของภาษา ต่อให้ฉลาดแค่ไหน ก็ยังต้องดูโง่ ๆ อยู่บางด้านต่อไป
ตัวอย่างจักรยานน่ารักและน่าประทับใจ แต่ดูเหมือนการโต้ตอบกับคนจะบดบังความเป็นไปได้ที่ใหญ่กว่านั้น
แค่ปรับอีกไม่กี่อย่าง สิ่งนี้ก็จะกลายเป็นตัวแก้ปัญหาอเนกประสงค์สำหรับ การวางแผนของหุ่นยนต์ ได้แล้ว ยังมีปัญหายากอีกสองสามข้อก่อนจะไปถึงโซลูชันที่ใช้งานได้จริง แต่หนึ่งในนั้นถือว่าแก้ได้แล้ว
ภายในอีก 5 ปีข้างหน้า เราจะได้เห็นหุ่นยนต์อเนกประสงค์ที่ขับเคลื่อนด้วย ChatGPT ทำงานแรงงานง่าย ๆ ไหม?
- ตัวอย่างจักรยานสำหรับวิดีโอเดโมถือว่าอ่อน และยังทำให้สับสนด้วยซ้ำ
  1. จากภาพแรก มันยังไม่ฉลาดพอจะรู้ว่านั่นคือที่ล็อกอานแบบน็อต คนดูเป็นคนมองออกได้
  2. คู่มือไม่ได้แสดงให้ผู้ชมเห็น จึงไม่รู้ว่าโมเดลรู้ได้อย่างไรว่านั่นคือน็อต 4 มม. หรือแค่เดาเพราะดูเป็นไปได้มากที่สุด
  3. ก็ไม่เข้าใจเหมือนกันว่ามันรู้ได้อย่างไรว่ากล่องเครื่องมือใช้ ประแจหกเหลี่ยมระบบเมตริก
    แถมยังสงสัยด้วยว่านี่คือโมเดล vision ตัวเดียวกับที่มีอยู่แล้วใน Bing Chat หรือเปล่า
- Google เดโมไปแล้วเมื่อหลายเดือนก่อน
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- พูดตรง ๆ น่าจะใช้ตัวอย่างที่น่าเชื่อกว่านี้ได้ การที่มันรู้จำอะไรได้หลายอย่างก็ดูเจ๋ง แต่ไม่รู้ว่าเดโมนี้มีประโยชน์จริงแค่ไหน
  คนที่มีกล่องเครื่องมือกับคู่มืออยู่แล้ว ถามคำถามพื้นฐานมาก ๆ อย่างวิธีลดอานจักรยาน ใครกันที่มีคู่มือจักรยานอยู่กับตัว แถมเป็นงานที่ลูกฉันอายุ 5 ขวบก็ทำได้
  น่าจะมีวิธีที่ดีกว่านี้แน่ ๆ ในการแสดงผลกระทบแบบก้าวกระโดดของ AI ต่อมนุษยชาติ หรืออย่างน้อยสอนผูกเชือกรองเท้าก็ยังได้
- ก็จริง แต่ รอยเท้าทางนิเวศ มหาศาลมาก
  ไม่เหมาะแม้แต่กับหุ่นยนต์ขนาดเล็กและเบาอย่างโดรน
- ส่วนนี้แหละที่ฉันตั้งตารอที่สุด เมื่อเร็ว ๆ นี้มีความก้าวหน้าเล็ก ๆ เกิดขึ้น: https://pressroom.toyota.com/toyota-research-institute-unvei...
การประกาศครั้งนี้ดูเหมือนจะทำให้สตาร์ทอัพจำนวนไม่น้อยที่พยายามทำ มัลติโมดัล บน ChatGPT ต้องจบลง
เมื่อดูความเร็วที่แก้ use case ด้านภาพและเสียงได้ ก็อาจกลายเป็นแอปเดียวที่ครองทุกอย่างในอีกไม่นาน
เริ่มเห็นแล้วทั้งการแทนที่ Alexa/Siri/Google Home, การแทนที่ Google Image Search และการล่มสลายของสตาร์ทอัพ edtech ที่ให้ถ่ายรูปแล้วใช้ AI แก้โจทย์ และน่าจะตามมาอีกเรื่อย ๆ
- เมื่อมองย้อนกลับไป สตาร์ทอัพแบบนั้นควรระวังให้มากกว่านี้ ควรรู้อยู่แล้วว่า OpenAI มี Whisper และ GPT-4 ถูกออกแบบโดยคำนึงถึงรูปแบบข้อมูลภาพด้วย
  คงพูดไม่ได้ว่า OpenAI ตั้งใจส่งสัญญาณชัด ๆ แต่คำถามเชิงกลยุทธ์ข้อแรกควรเป็น “ทำไม OpenAI ยังไม่ทำสิ่งนี้ และถ้าพวกเขาตัดสินใจทำ เราจะทำอะไร?”
- ปีนี้การคุยกับ Google และ Siri น่าหงุดหงิดจริง ๆ ตอนขับรถคนเดียวนาน ๆ แค่อยากสนทนาเพื่อเรียนรู้หัวข้อสุ่ม ๆ
  ตลอดฤดูร้อนอยาก “คุย” กับ ChatGPT เพื่อเรียนรู้ภาษาฝรั่งเศส ทฤษฎีดนตรี ประวัติศาสตร์ คณิตศาสตร์ และเรื่องทำนองนี้ให้มากขึ้น ฟีเจอร์นี้น่าจะตอบโจทย์พอดี
- การสร้างเครื่องมือหรือแอป AI แบบทั่วไปยิ่งดูเหมือนเป็นทางเลือกที่แย่ลงเรื่อย ๆ โมเดลธุรกิจ AI ที่ทำได้จริงดูเหมือนมีสองแบบ
  1. AI เฉพาะโดเมน: ฝึกโมเดล AI ด้วยหัวข้อที่มีความเชิงเทคนิคสูงและเฉพาะเจาะจง ซึ่งโมเดล AI ทั่วไปทำได้ไม่ดี
  2. การผสานรวม: ถ้าสร้างบนโมเดล AI ที่มีอยู่แล้ว อย่าเน้นเพิ่มฟีเจอร์ แต่ให้เน้นผสานเข้ากับเวิร์กโฟลว์เดิมขององค์กรและผู้ใช้ การทำให้กระบวนการภายในเป็นอัตโนมัติ และเชื่อมระบบต่าง ๆ ในแบบที่ก่อนหน้านี้เป็นไปไม่ได้ สามารถสร้างคุณค่าได้มาก และยังเป็นสิ่งที่บริษัทโมเดล AI ทำเองได้ยาก
    สองอย่างนี้มักจะไปด้วยกัน
- ใครที่ติดตามการออกฟีเจอร์ของ OpenAI คงไม่ได้คาดไม่ถึงว่า ChatGPT จะกลายเป็น มัลติโมดัล
  ในแอปมีการป้อนเสียงอยู่แล้ว ตอนนี้ยังแปลงเสียงเป็นข้อความก่อนส่ง แต่ทำได้ดีมากจนแทบไม่ต้องตรวจหรือแก้ด้วยซ้ำ ถึงขั้นสงสัยด้วยซ้ำว่าทำไมยังไม่ตอบกลับด้วยเสียง
  ฟีเจอร์ป้อนภาพเป็นแกนหลักและไฮไลต์ของการประกาศ GPT-4 เมื่อเดือนมีนาคม: https://openai.com/research/gpt-4
- แทนที่จะตายไปเลย จะ pivot ไปทำมัลติโมดัลบน Llama 2 หรือ โมเดลโอเพนซอร์ส อื่น ๆ ไม่ได้หรือ? ไม่น่าจะเป็นการเปลี่ยนแปลงที่ใหญ่โตนัก
  บริษัทและหน่วยงานรัฐจำนวนมากใช้ OpenAI ที่ส่งข้อมูลไปยังบริการบุคคลที่สามไม่ได้เพราะนโยบายของตัวเอง พวกเขาน่าจะยอมจ่ายให้สิ่งที่รันได้แบบ on-premises หรือบน private cloud ของตัวเอง
นี่จะเป็นกริชที่แทงให้ การศึกษาออนไลน์ เป็นไปไม่ได้
แค่ ChatGPT อย่างเดียว หากคัดลอกและวางโจทย์ข้อความเฉพาะทาง ก็ได้รับคำตอบที่ถูกต้องราว 90% แล้ว จุดอ่อนเพียงอย่างเดียวคือโจทย์ที่มีแผนภูมิหรือรูปภาพ
เมื่อรองรับภาพ นักเรียนก็แค่อัปโหลดสกรีนช็อตหรือสแกนเอกสาร แล้วให้ ChatGPT ให้คำตอบที่ใช้ได้ ในมุมมองของผม นักเรียนจำนวนมากยินดีจะใช้ฟีเจอร์นี้ในทางที่ผิด หากจะรับมือก็ต้องเลิกระบบการให้คะแนน หรือบังคับให้เป็นการศึกษาแบบพบหน้า โดยทำงานเฉพาะในโรงเรียนภายใต้การควบคุมและไม่มีการบ้าน
- ยังมีทางเลือกอื่นด้วย สิ่งนี้อาจไม่ได้มาแทนที่งานของนักเรียน แต่แทนที่ งานของครู ได้
  การใช้งานที่ใหญ่ที่สุดของ ChatGPT คือการเรียนรู้หัวข้อต่าง ๆ ด้วยตัวเอง สามารถใช้เหมือนสัมมนาแบบโสเครติส โดยถาม ChatGPT เพื่อเรียน X
  แน่นอนว่ามันจะเปลี่ยนความสามารถของนักเรียนในการสร้างการบ้านอย่างรุนแรง แต่ตั้งแต่แรกก็อาจเปลี่ยนวิธีที่นักเรียนเรียนรู้อย่างรุนแรงได้เช่นกัน ด้วยการติวที่มี AI ช่วย โรงเรียนออนไลน์อาจกลายเป็นอะไรได้มากกว่าปัจจุบันมาก
  อนาคตที่การศึกษากระจายศูนย์มากขึ้น นักเรียนเลือกหลักสูตรและวิธีการเอง และมีความรู้สึกเป็นเจ้าของและควบคุมงานของตัวเอง จนไม่มองว่าเป็นแค่ “งานยุ่ง ๆ” ก็ดูเป็นไปได้
- จริง
  ถ้าคนเก่งที่สุดในยุคเราตัดสินใจแล้วว่าเพื่อความก้าวหน้าของสปีชีส์ ทางที่ดีที่สุดคือให้มนุษย์ถูกเครื่องจักรแทนที่ ก็อดคิดไม่ได้ว่าการเรียนหนังสือไปมีความหมายอะไร
  ถ้าตอนนี้อายุ 16 ปี รู้แผนของ ChatGPT และ OpenAI และในขณะเดียวกันก็ถูกบอกให้ตั้งใจเรียนเพื่อให้ได้งานดี ๆ แต่ก็อ่านอนาคตในสายตาของเหล่านักเทคโนแครตอยู่ด้วย คงสับสนไม่น้อย
  ตอนนี้การอยากเรียนไปพร้อม ๆ กับพยายามไม่โกงน่าจะยากจริง ๆ
- กำลังพลาดประเด็นที่ว่าอีกไม่นานครูจะเป็น LLM ที่มีกล้องมองนักเรียน
  ในคลาสออนไลน์ มีเหตุผลอะไรที่ต้องดูวิดีโอคนจริง ๆ? มีเหตุผลอะไรที่ต้องให้เด็กสร้างอะไรบางอย่างในห้องมืด ๆ?
  การประเมินนักเรียนจะไม่ได้อิงจากการบ้าน แต่อิงจากบทสนทนาระหว่างผู้ช่วย AI กับนักเรียน การสอนทำให้อัตโนมัติได้ แต่การเรียนรู้ทำให้อัตโนมัติไม่ได้
  ตอนนี้เป็นเพียงช่วงเวลาหน่วงที่การศึกษายังตามไม่ทัน และเพราะการศึกษามีราคาแพง เรื่องนี้จะถูกแก้เร็ว พ่อแม่ควรกระตุ้นให้ลูก ๆ ฝึกเรียนรู้แบบเดิมจริง ๆ และให้ใช้ ChatGPT เหมือน Wikipedia ในช่วงเปลี่ยนผ่าน คนหนึ่งเจเนอเรชันจะต้องเจ็บปวด
- เมื่อพูดถึงการใช้ ChatGPT ในทางที่ผิดในบริบทโรงเรียน โดยมากหมายถึงนักเรียนมัธยมปลายขึ้นไปหรือนักศึกษาในระดับอุดมศึกษา พวกเขารู้ว่าอะไรถูกผิด และมีทักษะทางการเคลื่อนไหวกับสิทธิ์เข้าถึงเครื่องมือ
  ความต้องการเฉพาะที่พวกเขาพยายามแก้คือกำจัดการบ้านหรือเรียงความให้พ้นทาง แล้วไปทำ XYZ บางที XYZ อาจไม่ได้ใช้ ChatGPT ถ้าอย่างนั้นก็ทำให้สิ่งนั้นเป็นสิ่งที่พวกเขาใช้เวลากับมัน
  เมื่อถึงจุดหนึ่ง พวกเขาจะย้อนกลับไปหาทักษะที่จำเป็นเพื่อเรียนรู้ และต้องการคำแนะนำกับโครงสร้างทางการศึกษา มันไม่ง่าย และจะไม่เกิดขึ้นหากไม่มีเวลาและทรัพยากร แต่การปรับตัวจะดำเนินไปในลักษณะนั้น
- ตอนสอบใบรับรอง เคยมีครั้งหนึ่งที่ต้องรันแอปบนคอมพิวเตอร์ของผมเพื่อตรวจว่าไม่ได้เปิดอย่างอื่นอยู่ และต้องเปิดกล้องตลอดการสอบให้เห็นตัวกับมือของผม
  มีวิธีทำให้การโกงยากจนไม่คุ้มที่จะโกงอยู่ เพียงแต่เทคโนโลยีนี้จะเปลี่ยนอย่างมากว่าเราจะเรียนรู้อะไรและเรียนรู้อย่างไร มันเป็นการเปลี่ยนแปลงครั้งใหญ่และความเร็วก็ไม่ได้ชะลอลง
ผมไม่ชอบวิธีที่ฟีเจอร์แชตสำหรับเว็บบราวซิง หรือก็คือ Bing Browsing ถูกปิดใช้งานไปหลายเดือน แล้วก็ถูกเอาออกไปเงียบ ๆ
ถ้ามีประกาศชัดเจนว่าจะเอาฟีเจอร์นี้ออกก็คงดี ผมอาจพลาดไปก็ได้ แต่ข่าวทางการล่าสุดที่เห็นคือปิดใช้งานชั่วคราวระหว่างแก้บางอย่าง พอรู้ตัวอีกทีมันก็หายไปจากแพลตฟอร์มแบบไม่มีคำอธิบายแล้ว
- ตอนนี้บัญชีของผมเปิดใช้ Browsing with Bing เป็นปลั๊กอินอยู่ มันหายไปหลายเดือนแล้วจู่ ๆ ก็กลับมาเมื่อประมาณ 1–2 สัปดาห์ก่อน
- น่าผิดหวัง และผมเห็นด้วยว่าดูเหมือนจะไม่เปิดใช้อีกในเร็ว ๆ นี้
  แต่ Perplexity AI ใช้การค้นเว็บได้ดีกว่า ChatGPT เลยทำให้ผมใช้มันมากกว่า ChatGPT ด้วยเหตุผลนั้น
- ผมสร้างบัญชีมาเพื่อพูดเรื่องนี้โดยเฉพาะ ตอนนี้ผมมีฟีเจอร์นี้อยู่ มันหายไปหลายเดือน แล้วเหมือนจะกลับมาเมื่อราวสัปดาห์ที่แล้ว
  ไม่ใช่ปลั๊กอินด้วย แต่เป็น “โมเดล” แยกต่างหากที่เลือกได้
- เห็นด้วย ตอนนี้ต้องพึ่ง ปลั๊กอินของบุคคลที่สาม แล้ว
จนถึงตอนนี้ ประสบการณ์ผู้ใช้ระดับ killer app ที่เข้าใจง่ายที่สุดดูจะเป็น แชตข้อความ
การให้ดูภาพแล้วโต้ตอบกันก็น่าสนใจ เพราะให้ความรู้สึกเหมือนคุยกับเพื่อนเรื่องใดเรื่องหนึ่ง แต่ก็ต้องรอดูว่าจะให้ความรู้สึกเหมือนคุยกับคนที่ฉลาดมากอย่าง ChatGPT หรือเหมือนคุยกับคนที่ทึ่มมากแต่พอรู้จักวัตถุได้บ้าง
การจำประแจได้ไม่น่าประทับใจเท่าการคุยเรื่องประวัติศาสตร์กับ ChatGPT หรือให้มันเขียนโค้ดที่ใช้งานได้จริง
OpenAI ทำได้ดีอยู่ ผู้คนคิด use case ที่น่าสนใจออกมาได้ แต่ดูเหมือนว่าวิธีหลักที่คนส่วนใหญ่โต้ตอบกับ AI ก็ยังเป็น ChatGPT
อย่างไรก็ตาม การสร้างภาพยังดูเหมือนพวกเขายังจับทางได้ไม่ค่อยอยู่ และของเจ๋ง ๆ ก็ยังออกมาจากฝั่ง MidJourney กับ Stable Diffusion อย่างต่อเนื่อง
- OpenAI เองก็มีกำหนดจะปล่อย DALL-E 3 “ต้นเดือนตุลาคม” และภาพที่เลือกมาเดโมแสดงให้เห็นความเข้าใจพรอมป์ต์ในระดับที่ไม่เคยมีมาก่อน
  ดูเหมือนจะทำได้ถึงขั้นใส่ข้อความเป็นประโยคสมบูรณ์ลงในภาพเอาต์พุตได้
ผมกำลังทำโปรเจกต์งานอดิเรกอยู่หลายตัวที่เอาบริการ AI หลายเจ้าเข้ามาต่อกันเพื่อทำสิ่งนี้ เลยตั้งตารอที่ความซับซ้อนและดีเลย์จากการวนไปวนมาหลายรอบจะลดลง
ถ้า API ออกมาตรงเวลา คือราว ๆ ฮาโลวีน งานฝั่งซอฟต์แวร์ของโปรเจกต์มัลติโมดัล หัวกะโหลกพูดได้ ที่มีกล้อง ESP32 และคอยดูชุดคอสตูมของคนแล้วแซะ ก็น่าจะง่ายขึ้นเล็กน้อย
- น่าขันที่เพราะเหตุผลแบบนั้นแหละ ผมเลยไม่ได้ลองทำอะไรแบบนี้เลย
- ถ้าทำขึ้นมาได้ อยากให้แชร์ขั้นตอนหรือรายละเอียดด้วย ดูเท่มาก และผมก็อยากลองทำอะไรคล้าย ๆ กัน
- อยากเห็นโปรเจกต์ที่เสร็จแล้วจริง ๆ อีเมลของผมอยู่ในโปรไฟล์
ในฐานะคนที่อยู่ลึกในสายงาน automation สำหรับการทดสอบซอฟต์แวร์ สิ่งที่รออยู่คือ การรู้จำภาพด้วย AI ที่แข็งแรงสำหรับอินเทอร์เฟซผู้ใช้ของแอป
เมื่อรวมกับความสามารถของ AI ในการเขียนโค้ด automation สำหรับทดสอบ ผมหวังว่าจะสามารถสร้างโค้ดทดสอบ Selenium หรือ Appium ที่รันได้จากสกรีนช็อตเดียวหรือชุดสกรีนช็อตได้ รู้สึกเหมือนใกล้จะถึงแล้ว
- ขอแนะนำ งานวิจัย Spotlight ของ Google[1] ชุดข้อมูลที่สร้างมาเพื่อจุดประสงค์นี้น่าสนใจมาก
  เขาบอกว่ามีชุดข้อมูล screen-action-screen ภายใน แต่คงไม่น่าจะเปิดเผย นี่คงเป็นข้อดีของการเป็นเจ้าของ Android
  ยังมีงานวิจัยล่าสุดของ Hugging Face อย่าง IDEFICS[2] ด้วย ซึ่งอ้างว่าเป็นการใช้งานแบบโอเพนซอร์สของงานวิจัยเก่าที่ชื่อ Flamingo ว่าด้วยการเข้าใจงานมัลติโมดัลแบบ few-shot สาขานี้น่าจะร้อนแรงขึ้นเร็ว ๆ นี้
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
สิ่งที่ผมไม่พอใจที่สุดเกี่ยวกับ OpenAI/ChatGPT คือ การตลาด ที่แย่มาก
พอประกาศฟีเจอร์หรือปลั๊กอินแบบนี้ ผมก็คาดหวังและเข้าไปลองใช้ แต่ยังไม่ได้ถูกปล่อยให้บัญชีผม ในฐานะลูกค้าที่จ่ายเงินมันน่าหงุดหงิด และสิ่งเดียวที่ทำได้คือเข้าไปเช็กทุกวัน
พวกเขาไม่ส่งอีเมลอย่าง “ตอนนี้คุณใช้ปลั๊กอินได้แล้ว” หรือ “เปิดใช้งานแชตเสียงให้บัญชีของคุณแล้ว” ด้วยซ้ำ ทำให้หลายครั้งผมลืมฟีเจอร์ใหม่ไปจนกระทั่งบังเอิญกลับไปเห็นทีหลัง
เมื่อกี้เปิดแอปแล้วไปที่ “New Features” ในการตั้งค่า พบว่า Bing Browsing ถูกปิดอยู่ ผมไม่รู้ด้วยซ้ำว่ามันเคยใช้งานได้ เลยคิดว่าอาจต้องอัปเดตแอป จึงไปที่ App Store แต่ก็เป็นเวอร์ชันล่าสุด พอปิดแอปแล้วเปิดใหม่ ตอนนี้รายการ “New Features” ก็หายไปเลย
ผมคงไม่มาคุ้ยการตั้งค่าแอปเป็นประจำเพื่อดูว่ามีฟีเจอร์ใหม่ไหม การที่ไม่มีแม้แต่ข้อความในแอป ไม่ต้องพูดถึงอีเมลหรือ push notification นี่เป็นเรื่องที่เข้าใจยากจริง ๆ
- จากบริษัทวิจัยเฉพาะทาง กลายเป็นสตาร์ทอัพที่อาจเติบโตเร็วที่สุดในประวัติศาสตร์
  คงไม่ใช่ว่าไม่ใส่ใจการสื่อสารกับลูกค้า แต่ภายในน่าจะวุ่นวายและโกลาหลสุด ๆ
- การตลาดทำเหมือนสตาร์ทอัพ 3 คนที่หา SaaS starter template มา ต่อ Stripe แบบลวก ๆ แล้วไม่หันกลับไปดูอีกเลย
  ผมต้องยกเลิกสมาชิกแล้วสมัครใหม่จริง ๆ เพื่อเริ่มใช้ API ได้ น่าจะอยู่ในแพ็กเกจโมเดลการคิดเงินรุ่นก่อนหน้า
  ผมชอบบริษัทที่ประสบความสำเร็จได้ทั้งที่ไม่ได้เกิดจากการตลาดและดีไซน์ แต่สำเร็จทั้ง ๆ ที่สองอย่างนั้นไม่ดี เพราะแปลว่าต้องมีอะไรที่พิเศษจริง ๆ
- เรากำลังมุ่งหน้าไปสู่ singularity แล้วคุณบ่นเรื่องการตลาดเหรอ?
- ถ้า “สิ่งเดียวที่ทำได้คือเข้าไปเช็กทุกวัน” งั้นการตลาดก็ดูเหมือนจะทำได้ดีนะ
  ถ้าคุณแค่เลิกใช้แล้วลืมไป เขาก็ควรปรับปรุง retention แต่คุณคงไม่ทำแบบนั้น ดังนั้นเขาก็ไม่จำเป็นต้องทำ
- ถ้าข้อร้องเรียนใหญ่ที่สุดของผู้ใช้คือหงุดหงิดเพราะยังใช้ฟีเจอร์ที่ยังไม่ได้สิทธิ์ไม่ได้ นั่นก็ถือว่าทำได้ดีมาก ๆ แล้ว
ผมไม่เข้าใจเลยว่าพวกเขาจะรวมทั้งหมดนี้เป็นแพ็กเกจในราคา 20 ดอลลาร์ ต่อเดือนได้อย่างไร พอขยายสเกลแล้วต้นทุนการประมวลผลมันถูกขนาดนั้นจริง ๆ เหรอ?
ผมก็สงสัยเหมือนกันว่า Apple กับ Google จะให้บริการสิ่งนี้ฟรีได้อย่างไร อยากแอบเข้าไปอยู่ในการประชุมนั้นเหมือนแมลงวันคอยฟังจริง ๆ คงมีการถกเถียงแบบภาวะกลืนไม่เข้าคายไม่ออกของนักนวัตกรรมกันหนักมาก ระหว่าง “ต้องทำ” กับ “มันกัดกินมาร์จิน”
อาจจะเป็นความคิดที่ล้ำไปหน่อย แต่ผมว่า Apple กำลังเลือกถูกแล้วที่ปล่อยให้ฝุ่นควันสงบลงก่อน เหมือนตอน Zuckerberg เผาเงิน 20,000 ล้านดอลลาร์ แล้ว Apple ก็เปิดตัว Vision Pro ผมคิดว่าเรื่องคล้าย ๆ กันอาจเกิดขึ้นกับ Llama ได้ เพียงแต่ซอฟต์แวร์เป็นสนามหลักของ Facebook ส่วนฮาร์ดแวร์ไม่ใช่ เลยไม่ค่อยมั่นใจนัก
- ต้นทุนการประมวลผลไม่ได้ถูก อย่างที่ Altman เคยพูด เป็นที่รู้กันดีว่า OpenAI กำลังเผาเงินจำนวนมากอยู่ในตอนนี้
  แต่เมื่อพิจารณาการลงทุน 10,000 ล้านดอลลาร์จาก Microsoft รวมถึงรายได้จากการสมัครสมาชิกและ API ตอนนี้ก็ยังพอไหว นี่เป็นช่วงเวลาสำคัญสำหรับบริษัท AI และ OpenAI ก็กำลังพยายามคว้าส่วนแบ่งตลาดให้ได้มากที่สุด โดยแทบจะให้คุณค่า 10 เท่าในราคาที่ต่ำกว่าโมเดลเชิงพาณิชย์อื่น ๆ
- เหตุผลเดียวกับที่ Uber ในนิวยอร์กเมื่อก่อนวิ่งเส้นทางเดิมราคา 20 ดอลลาร์ แต่ตอนนี้เป็น 80 ดอลลาร์
  เงินทุนเวนเจอร์ กำลังอุดหนุนการยึดตลาดอยู่
- ก็มีความเป็นไปได้ค่อนข้างมากว่าพวกเขาคิดราคาใกล้ต้นทุนหรือต่ำกว่าต้นทุน เพราะต้องการข้อมูลของผู้ใช้
  ลองคิดดูว่าถ้าจะจ้างผู้ทดสอบจำนวนมหาศาล จะต้องจ่ายเงินเท่าไร
- น่าจะอาศัยเงินทุนจาก Microsoft อัดฉีดจนกวาดตลาดให้ราบ แล้วค่อยขึ้นราคา
- ผมคิดว่าถ้าประมวลผลคำถามจำนวนมากแบบ ขนาน ก็อาจถูกกว่าการประมวลผลทีละรายการมาก

ChatGPT เพิ่มฟีเจอร์สนทนาด้วยเสียงและรับภาพเป็นอินพุต

รูปแบบการป้อนข้อมูลใหม่ของ ChatGPT: พูด แสดง แล้วถาม

ผู้ใช้และแพลตฟอร์มที่จะได้ใช้ก่อน

วิธีการทำงานของฟีเจอร์เสียง

วิธีการทำงานของฟีเจอร์ภาพ

การทยอยปล่อยและมาตรการความปลอดภัย

ความเสี่ยงและข้อจำกัดที่เกี่ยวกับเสียง

ความเสี่ยงและข้อจำกัดที่เกี่ยวกับอินพุตภาพ

ข้อจำกัดของโมเดลและข้อควรระวังในการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News