Show HN: รีเมกเดโม Google Gemini ปลอมด้วย GPT-4 คราวนี้ทำได้จริง

(sagittarius.greg.technology)

2 คะแนน โดย GN⁺ 2023-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รีเมกเดโม Google Gemini ปลอมด้วย GPT-4 คราวนี้ของจริง

โปรเจ็กต์ที่นำเดโมปลอมของ Google Gemini มารีเมกใหม่โดยใช้ GPT-4
มีเดโมที่ใช้งานได้จริงให้ลอง และสามารถดูโค้ดที่เกี่ยวข้องได้ใน GitHub repository
โปรเจ็กต์นี้สร้างโดย Greg Technology

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือการมีอยู่ของโปรเจ็กต์ที่ใช้ GPT-4 นำเดโมปลอมในอดีตมาสร้างให้ใช้งานได้จริง
น่าสนใจในฐานะกรณีตัวอย่างที่แสดงให้เห็นว่าความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์สามารถสร้างผลลัพธ์เชิงนวัตกรรมที่นำไปใช้ได้จริงอย่างไร

1 ความคิดเห็น

GN⁺ 2023-12-12

ความคิดเห็นจาก Hacker News

ส่วนที่ทำให้เดโม Gemini ปลอม ดูเหมือนเวทมนตร์ คือมันทำให้ดูราวกับว่า LLM รับอินพุตเสียงและวิดีโออย่างต่อเนื่อง และรู้ว่าควรจังหวะแทรกเข้ามาตอบเมื่อไร
มันดูเหมือนรอจนผู้ใช้วาดรูปเสร็จ หรือแทรกเข้ามาก่อนจะเสร็จเล็กน้อย และระหว่างตอบ เมื่อผู้ใช้ระบายเป็ดเป็นสีน้ำเงิน มันก็พูดว่าดูเหมือนเป็ดสีน้ำเงินด้วย
มันยังดูเหมือนรู้ด้วยว่าเมื่อผู้ใช้แค่เห็นด้วย ก็ไม่จำเป็นต้องตอบ
พอตรวจดูซอร์สโค้ดก็พบว่าเดโมนี้จับภาพหน้าจอจากฟีดวิดีโอ ทุก ๆ 800ms แล้วรอจนผู้ใช้พูดจบก่อนส่งภาพหน้าจอ 3 ภาพสุดท้าย
ตัวเดโมเองก็น่าประทับใจ แต่ก็แสดงให้เห็นด้วยว่าการโต้ตอบกับ LLM แบบนี้นั้นไม่เป็นธรรมชาติแค่ไหน เมื่อไม่มีอินพุตเสียงและวิดีโอแบบต่อเนื่อง
ในเชิงเทคนิคแล้ว นี่เป็นสิ่งที่ทำได้มาสักพักหนึ่งแล้ว แต่ก็มีเหตุผลที่ไม่มีใครนำเสนอให้เหมือนเป็นผลิตภัณฑ์
- เดโมนี้ทำขึ้นในเวลาแค่ 2~3 ชั่วโมง และใช้เทคนิคแบบ “รอจนผลการถอดเสียงถูกยืนยันแล้ว”
  วิธีนี้ปลอดภัยกว่าเพราะข้อความถอดเสียงมีความเสถียรกว่า แต่ก็ช้ากว่า
  ในเดโมอีกอัน https://www.youtube.com/watch?v=fxS7OKh_4vc มีการป้อนผลถอดเสียงที่ “กำลังดำเนินอยู่” เข้า GPT อย่างต่อเนื่อง ซึ่งเร็วมากและยอดเยี่ยมจริง ๆ
  แต่ก็ยังต้องทำงานเพิ่มเพื่อจัดการจังหวะเวลาหลายอย่าง เช่น คำพูดจริงของคน เวลาในการถอดเสียง การส่งคำขอไปยัง GPT และการซิงก์ให้ตรงกับจุดที่ผู้ใช้กำลังพูดและกำลังคิดอยู่ตอนที่ GPT จะตอบ
  ถึงอย่างนั้น บทสนทนาแบบเรียลไทม์และต่อเนื่อง ก็ดูเป็นแก่นสำคัญอย่างชัดเจน และทำให้นึกว่าอยากให้ GPT ให้บริการผ่าน WebSocket
- ในฐานะคนหูหนวก ฉันเห็นเดโม การรู้จำเสียงพูดแบบเรียลไทม์ มาตลอด 20~30 ปี และทุกอันก็ดูดีในเดโม
  แต่พอใช้ในชีวิตประจำวัน แค่ผิด 1 ครั้งในทุก 10 คำ ความหงุดหงิดก็จะสะสมจนรุนแรงมากเมื่อเวลาผ่านไป
- ผมเคยคุยกับเพื่อนเรื่อง multimodal LLM ที่รับ อินพุตสตรีมต่อเนื่อง เหมือนกัน
  ตัวอย่างเช่น มันคอยฟังการฝึกกีตาร์ แล้วพอถึงจุดหนึ่งก็พูดว่า “โอเค กลับไปตรงส่วนนั้นแล้วซ้อมอีกครั้งกันเถอะ”
  เมื่อมีสตรีมโทเค็นต่อเนื่องไหลเข้า และต้องการเอาต์พุตแค่เป็นครั้งคราว วิธีทำนายโทเค็นถัดไปแบบทั่วไปก็ดูไม่ค่อยเหมาะ
  เลยสงสัยว่าในงานวิจัยเขาเรียกอินพุตแบบนี้ว่าอะไร และมีงานอะไรศึกษาบ้าง
- ในกรณีแบบนี้ ดูเหมือนว่าหัวใจสำคัญน่าจะเป็นการฝึกด้วยอะไรอย่าง pause token
  หรืออาจไม่จำเป็นต้องมีเลยก็ได้
  ถ้าสั่ง GPT-4 ให้พิมพ์อะไรอย่าง .... ทุกครั้งที่มันตัดสินว่าควรรอตอบ ก็อาจไม่ต้องรอจนผู้ใช้พูดจบ และทำให้ลื่นไหลขึ้นมาก
- ผมเคยอยากเอาแชตบอต GPT-4 ไปใส่ใน แชตกลุ่ม เพื่อให้มันตอบสนองต่อสิ่งที่คนพูด แต่การตัดสินว่าเมื่อไรควรพูด และเมื่อไรควรปล่อยให้คนคุยกันเองนั้นยากเกินไป สุดท้ายเลยเลิก
ผมไม่เข้าใจว่าทำไมบริษัทต่าง ๆ ถึงโกหกกันแบบนี้
ไม่รู้ว่าผลประโยชน์ที่ได้มันมากแค่ไหนถึงยอมทำ และกลับกันดูเหมือนสิ่งที่จะเสียมีมากกว่า
ที่แปลกกว่านั้นคือ เครื่องมือพวกนี้ก็น่าทึ่งมากอยู่แล้วแม้ไม่ต้องพูดเกินจริง
ในฐานะนักวิจัยแมชชีนเลิร์นนิง ผมคิดว่ามีผลงานเจ๋ง ๆ มากมาย แต่แทบทุกอย่างตั้งแต่งานวิจัยไปจนถึงผลิตภัณฑ์ล้วน ถูกปั่นเกินจริง
ระยะสั้นมันอาจช่วยบางคนได้ แต่ดูเหมือนจะสร้างการแข่งขันแบบแข่งกันถอยต่ำที่ไม่เป็นผลดีกับทุกคน
โดยเฉพาะบริษัทอย่าง Google การเล่นเกมระยะสั้นแบบนี้ไม่ใช่ทางเลือกที่ฉลาด และบางทีผมอาจเข้าใจสภาพแวดล้อมที่เราอยู่ผิดไปทั้งหมดก็ได้
ดูจากการถกเถียงในเธรดนี้[0] เหมือนจะมีคนจำนวนมากที่เสื่อมด้านจริยธรรมจนไม่รู้ด้วยซ้ำว่าสิ่งที่ตัวเองทำอยู่เป็นการหลอกลวง และนั่นก็เป็นอีกปัญหาหนึ่งที่แย่กว่าเดิมมาก
[0] https://news.ycombinator.com/item?id=38559582
- วันเดียวกับที่วิดีโอออกมา CEO ก็ส่งข้อความมาว่าเทคโนโลยีใหม่ของ Google ดีกว่า GPT-4 มาก และเราควรรีบใช้มันด้วย
  ผมตอบไปว่าผมมองเดโมแบบกังขา แต่เหมือนกับความก้าวหน้าอื่น ๆ ในวงการนี้ พอมันออกจริงแล้วผมจะลองใช้ด้วยตัวเอง
- ที่บอกว่า “บริษัทอย่าง Google เล่นเกมระยะสั้นไม่ฉลาด” อาจอธิบายได้ด้วย ปัญหาตัวการ-ตัวแทน
  ตัวแทนอย่างพนักงานและผู้บริหารมุ่งเพิ่มผลประโยชน์ด้านอาชีพระยะสั้นของตัวเองให้สูงสุด และไม่ได้จงรักภักดีต่อผู้ถือหุ้นของ Google
  พวกเขาอาจลาออกในอีก 3 ปีข้างหน้า ดังนั้นความเสียหายต่อชื่อเสียงของ Google อาจไม่ได้สำคัญกับพวกเขานัก
  ขณะที่ผู้ถือหุ้นต้องการเพิ่มปัจจัยระยะยาวอย่างชื่อเสียงให้สูงสุด
  พวกเขาพยายามทำให้สอดคล้องกันผ่านธรรมาภิบาลที่ดีและค่าตอบแทนแบบ vesting ที่ผูกกับราคาหุ้น แต่ความไม่สอดคล้องกันระดับหนึ่งก็ยังคงเกิดขึ้น
  ตรงนี้เองที่ วัฒนธรรมการจัดแนวแบบคลั่งไคล้พันธกิจ อาจสร้างคุณค่าได้
  ถ้าทำให้พนักงานเชื่อในพันธกิจจริง ๆ หรือคัดเลือกคนแบบนั้นเข้ามา ความสอดคล้องก็จะตามมา
- ถ้าอยากรู้ว่าทำไมบริษัทต่าง ๆ ถึงทำแบบนี้ แค่ดูพาดหัวของ Business Today ก็พอ
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  ทั้งหมดนี้คือ การตลาด
  ด้วยเหตุผลเดียวกับที่ Satya โพสต์สาธารณะว่า ถ้างานที่ OpenAI ไม่เป็นไปด้วยดี sama และคนอื่น ๆ จะเข้าร่วมทีมใหม่ของ MSFT แล้วเดินหน้าต่อ
- หลังเดโมออก ราคาหุ้น Google ไม่ได้ขยับทันที แต่โดยรวมขึ้นไปราว 5% และหลังข่าวการจัดฉากออกมาก็ย่อลงไปราว 1%
- เหตุการณ์นี้ทำให้รู้สึกแรงกว่าครั้งไหน ๆ ว่าตอนนี้ Google ถูกขับเคลื่อนโดย บุคลากรสายธุรกิจที่ไม่ใช่สายเทคนิค มากกว่าคนที่เข้าใจเทคโนโลยี
  คนที่พอรู้บ้างว่าเทคโนโลยีนี้ทำงานอย่างไร ซึ่งก็คือคนที่มีแนวโน้มจะอยู่ในกระบวนการตัดสินใจว่าจะใช้เทคโนโลยีนี้และผลิตภัณฑ์อื่น ๆ ของ Google หรือไม่ สามารถมองออกได้ทันทีว่าเป็นการจัดฉาก
  และคนประเภทนั้นก็มักจะตอบสนองเชิงลบอย่างมากต่อพฤติกรรมหลอกลวงแบบนี้
เดโมนี้แหละคือสิ่งที่อยากจะพูดถึงตอนเปิดตัว Gemini
ดราม่าพวกนั้นทั้งหมดไม่จำเป็นเลย
GPT-4V ทรงพลังมาก และถ้าใครสนใจด้าน vision หรือ multimodal ก็แนะนำให้ลองใช้ LLaVA อย่างจริงจัง(https://github.com/haotian-liu/LLaVA)
ช่วงไม่กี่วันที่ผ่านมาได้ลองใช้ 7B q5_k variant แล้วค่อนข้างน่าประทับใจ ถึงขั้นดีพอจะทำเดโมแอปหรือ proof of concept สำหรับบริษัทได้เลย
แต่ต้องเช็กไลเซนส์ก่อน ไม่อย่างนั้นก็คงใช้แค่เดโมภายในเพื่อสื่อประเด็นหลัก
- ใช้ llava ผ่าน https://github.com/Mozilla-Ocho/llamafile อยู่ และถ้าเป็นระบบสมัยใหม่ก็รันได้แทบทุกที่
- อัปเดตสำหรับคนที่สงสัยเรื่องการใช้งานเชิงพาณิชย์ของ LLaVA: ใช้ไลเซนส์ Apache 2.0 ดังนั้นใช้เชิงพาณิชย์ได้ถ้าแสดงที่มา: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
เรื่องนี้ทำได้ด้วย GPT-4V อยู่แล้ว
พูดง่าย ๆ คือแค่แคปหน้าจอ แล้วใส่ภาพกับข้อความแบบแชต หรือก็คือ interleaved format
ไม่นานมานี้ก็ทำอะไรคล้ายกันในแฮกกาธอน(https://x.com/swyx/status/1722662234680340823)
จุดที่แปลกคือ Google ก็ทำแบบนั้นได้เหมือนกัน และทุกคนก็คงจะทึ่งกันอย่างเหมาะสม แต่กลับเลือกทำวิดีโอมาร์เก็ตติ้งที่ทำให้คนทั่วไปเข้าใจผิด
เลยกลายเป็นว่าพวกเนิร์ดที่เหลือต้องมารับงานสกปรก อธิบายว่า “เทคโนโลยียังไม่ได้เป็นแบบที่เห็นในทีวี”
แล้วดันดูเหมือนเป็นความผิดของพวกเราเองด้วย
ก็เลยสงสัยเหมือนกันว่าค่าใช้จ่ายในการรันแบบนี้เท่าไร
- ระหว่างพัฒนาและเดโมสิ่งนี้ มีการเรียก GPT-vision API 77 ครั้ง และค่าใช้จ่ายรวมคือ 0.47 ดอลลาร์
  ถือว่าสมเหตุสมผลทีเดียว
ตอนนี้เริ่มมั่นใจแล้วว่า Google DeepMind ไม่มีอะไรจริง ๆ ในด้าน state-of-the-art LLM และแค่คุยโวไปงั้น
จำได้ว่าตอน ChatGPT เปิดตัว Google บอกว่ามีโมเดลที่ดีกว่ามากแต่ไม่ปล่อยเพราะความปลอดภัยของ AI
จากนั้นก็ปล่อย PaLM กับ PaLM 2 พร้อมบอกว่าถึงเวลาปล่อยเพื่อต่อกรกับ ChatGPT แล้ว แต่ก็ไม่ได้เป็นโมเดลที่ดี
ต่อมาก็โปรโมต Gemini อย่างหนัก และถ้าสิ่งที่ดีที่สุดที่ Gemini Ultra มีคือเท่านี้ ก็ยากจะเชื่อว่ามีโมเดลที่ดีกว่าอยู่
เมื่อปีก่อนยังคิดว่า Google มีโมเดลที่ดีที่สุดแต่แค่ยังไม่เปิดเผย
หลังจากนั้นก็เริ่มคาดหวังว่าอย่างน้อยด้วยโครงสร้างพื้นฐาน ข้อมูล และบุคลากรที่มี ก็น่าจะสร้างโมเดลที่ดีที่สุดได้
แต่กลายเป็นว่าในความเป็นจริงไม่มีอะไรเลย
ไม่นานมานี้พยายามจะใช้ แอปแปลบทสนทนาด้วย AI ของ Google ที่เคยเปิดตัวไปนานแล้ว และหลังจากนั้นก็อัปเดตกับปรับปรุงมาหลายรอบ
แต่ในบทสนทนาจริงใช้งานไม่ได้เลย
ตอนนั้นอยู่ในสถานการณ์ที่มันน่าจะช่วยได้มากเลยคาดหวังไว้สูง จำได้ว่าเดโมเก่าดูเป็นธรรมชาติมาก แม้ไม่เคยลองใช้จริงมาก่อน
พอลองใช้ตอนนี้แล้วกลับไปดูเดโมเดิมอีกครั้ง ก็มั่นใจ 100% ว่าทั้งหมดหรือบางส่วนถูกจัดฉาก
มันไม่มีทางใช้งานได้จริงแบบนั้น
ถ้ายังทำระบบแปลบทสนทนาแบบเรียลไทม์ที่มีประโยชน์กว่าการวาดรูปเป็ดไม่สำเร็จ ก็ยิ่งน่าสงสัยว่า AI ตัวใหม่นี้จะเป็นของจริงแค่ไหน
มันดูเหมือนสถานการณ์เดิมทุกอย่าง และก็ไม่เข้าใจเลยว่าต้องหน้าด้านแค่ไหนถึงจะจัดฉากอะไรแบบนี้ทั้งชุดได้
- แอปนั้นชื่ออะไรนะ?
แยกจากเรื่องที่เดโมนี้เจ๋งมากนิดหน่อย การมีอินเทอร์เฟซที่ป้อนเข้า GPT-4 ได้แค่ ภาพ JPEG รู้สึกเหมือนสิ้นเปลือง
สายตามนุษย์ประมวลผล ความแตกต่าง ระหว่างเฟรมมากกว่าภาพนั้นเอง
เลยคิดว่าก้าวใหญ่ถัดไปที่จะทำให้การประมวลผลวิดีโอความละเอียดสูงแบบเรียลไทม์เป็นไปได้ อาจเป็นการให้สถานะภายในของโมเดลจัดการทั้ง keyframe และ delta คล้ายวิดีโอโคเดกอย่าง MPEG
- ตอน Google พูดถึง multimodal ของ Gemini ก็ใส่ “วิดีโอ” ไว้ในรายการโหมดด้วย
  แต่ก็เป็นไปได้มากว่าจริง ๆ ไม่ได้หมายถึงวิดีโอ แต่หมายถึงเฟรมแบบในเดโมนี้
  เท่าที่ผมเห็น พวกเขาไม่ได้อธิบายรายละเอียดเรื่องนี้ไว้ที่ไหนเลย
ตั้งชื่อว่า Sagittarius นี่ตลกดี
เพราะอยู่ตรงข้าม Gemini พอดีในจักรราศี
- เคยมีคนเดาว่า Facebook ตั้งชื่อคริปโตที่ไม่มีอยู่จริงในตอนนั้นว่า Libra และต่อมาคือ “Diem” เพื่อแขวะ Gemini ซึ่งเป็นตลาดแลกเปลี่ยนคริปโตของฝาแฝด Winklevoss คู่แข่งเก่า
  ไม่แน่ใจว่าในเชิงโหราศาสตร์ถือว่าคมแค่ไหน
ดูจากโค้ดแล้ว speech-to-text กับ text-to-speech น่าจะใช้ฟีเจอร์ที่มีอยู่ในเบราว์เซอร์
ชอบลืมไปตลอดว่ามีความสามารถแบบนี้อยู่ด้วย
อันนี้วิ่งผ่าน API เลยพอเข้าใจเรื่อง latency ได้
ถ้ารัน inference บนโครงสร้างพื้นฐานแบบโลคัล มันแทบจะตอบสนองทันที ดังนั้นถ้าคนนี้มีสิทธิ์เข้าถึง เดโมนี้ก็คงจะกลบตัวอื่นไปหมด

Show HN: รีเมกเดโม Google Gemini ปลอมด้วย GPT-4 คราวนี้ทำได้จริง

รีเมกเดโม Google Gemini ปลอมด้วย GPT-4 คราวนี้ของจริง

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News