9 คะแนน โดย xguru 2024-02-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • แทบไม่มีผู้ใช้ใดที่ ชอบ ซอฟต์แวร์เพื่อการทำงาน
    • แม้ผลิตภัณฑ์ที่ดีเยี่ยมที่สุดจำนวนมากก็ยังไม่ยืดหยุ่นเพียงพอหรือซับซ้อนเกินไปเมื่อใช้จริง มีเส้นโค้งการเรียนรู้สูงและเข้าถึงได้ยาก
  • Generative AI ให้โอกาสในการปฏิรูปเวิร์กโฟลว์ได้อย่างสิ้นเชิง และทำให้สร้างผลิตภัณฑ์ใหม่ได้จากศูนย์
  • เวิร์กโฟลว์ AI Native ช่วยให้ผู้ใช้ทำงานเดิมได้มีประสิทธิภาพมากขึ้น
  • แพลตฟอร์มเหล่านี้ช่วยให้ผู้ใช้สามารถมอบงานระดับต่ำให้ผู้ช่วย AI ดำเนินการ และมีเวลามากขึ้นในการคิดเชิงสูง
  • ช่วยปลดล็อกทักษะทางเทคนิคและสุนทรียศาสตร์แบบใหม่ ทำให้ทุกคนเป็นได้ทั้งโปรแกรมเมอร์ โปรดิวเซอร์ ดีไซเนอร์ และนักดนตรี
    • ช่องว่างระหว่างความคิดสร้างสรรค์กับความสามารถทางเทคนิคจึงค่อย ๆ ลดลง
    • หากใช้ “ผลิตภัณฑ์ที่มีระดับความเชี่ยวชาญแต่เป็นมิตรกับผู้บริโภค” ที่มีเวิร์กโฟลว์ด้วย AI ทุกคนก็สามารถเป็น “โปรซูเมอร์” รุ่นใหม่ได้
    • (โปรซูเมอร์: คนที่เป็นทั้งผู้ผลิตและผู้บริโภคไปพร้อมกัน คำนี้ถูกใช้โดย Alvin Toffler ใน “The Third Wave”)

โปรซูเมอร์ GenAI เนทีฟเป็นอย่างไร?

  • ผลิตภัณฑ์เวิร์กโฟลว์ GenAI Native ทุกตัวมีลักษณะร่วมคือการแปลง “โมเดลล้ำสมัยให้เข้าถึงได้ผ่าน UI ที่มีประสิทธิภาพ”
  • ผู้ใช้ให้ความสำคัญกับวิธีที่ผลิตภัณฑ์ช่วยเหลือมากกว่าโครงสร้างพื้นฐานเบื้องหลัง
  • การก้าวกระโดดทางเทคโนโลยีด้วย Gen AI น่าทึ่งมาก แต่ผลิตภัณฑ์ที่ประสบความสำเร็จยังคงเริ่มจากความเข้าใจเชิงลึกต่อผู้ใช้และปัญหาของผู้ใช้
  • ผลิตภัณฑ์ที่ประสบความสำเร็จจะเริ่มจาก
    • การทำความเข้าใจจุดเจ็บปวดของผู้ใช้แบบลึกซึ้ง
    • การระบุว่ามีอะไรบ้างที่ AI สามารถทำเป็นนามธรรมได้
    • จุดตัดสินใจใดที่ต้องผ่านการอนุมัติ
    • และจุดที่ให้ผลคูณสูงสุด (จุดคันโยก) อยู่ที่ไหน

คุณสมบัติหลักของโปรซูเมอร์เนทีฟ GenAI

  • เครื่องมือสร้างที่แก้ปัญหา “หน้าเปล่า”
    • ช่วยเริ่มงานได้ด้วยการสร้างสื่อจากพรอมต์ภาษาธรรมชาติ
    • ทำได้ด้วยโมเดลเฉพาะ หรือผสมหลายโมเดลเข้าด้วยกัน
    • ตัวอย่างเช่น เครื่องมือเรนเดอร์ของ Vizcom และตัวสร้างเว็บไซต์ของ Durable
  • การผสมผสานมัลติโมดัล (และมัลติมีเดีย)
    • โครงการสร้างสรรค์ส่วนใหญ่ต้องการสื่อมากกว่าหนึ่งประเภท: ภาพกับข้อความ, เพลงกับวิดีโอ, แอนิเมชันกับคำอธิบายเสียง
    • แต่ปัจจุบันยังไม่มีโมเดลใดสร้างประเภททรัพยากรทั้งหมดได้ในตัว
    • สิ่งนี้สร้างโอกาสให้เกิดเวิร์กโฟลว์ที่ผู้ใช้สามารถสร้าง ปรับปรุง และผสมผสานเนื้อหาหลายประเภทได้ในที่เดียว
    • ตัวอย่างเช่น HeyGen ที่ผสมอวาตาร์ของตัวเองกับ TTS ของ ElevenLabs เพื่อสร้างอวาตาร์ที่พูดได้สมจริง
  • ตัวแก้ไขอัจฉริยะที่เพิ่มความสามารถในการวนรอบมากขึ้น
    • คำตอบงานแบบ “ได้ครบในครั้งเดียว” แทบไม่เกิดขึ้นจริง
    • โดยเฉพาะกับ AI ที่มีความสุ่มเฉพาะตัว จึงแทบเป็นไปไม่ได้ที่จะได้ผลลัพธ์ตรงใจในการรันครั้งแรก
    • การกดปุ่ม regenerate หรือแก้พรอมต์เป็นเรื่องสำคัญ แต่มักใช้เวลามากและน่าเบื่อหน่าย
    • คลื่นแรกของผลิตภัณฑ์ AI ไม่เคยอำนวยการวนรอบ แม้รันพรอมต์เดียวกันซ้ำจะได้ผลลัพธ์ต่างไปโดยสิ้นเชิง
    • เริ่มเห็นฟีเจอร์ที่ให้ผู้ใช้ปรับผลลัพธ์เดิมแทนการเริ่มใหม่จากต้นทางได้
    • ตัวอย่างเช่น เครื่องมือ variation และ upscale ของ Midjourney, และฟีเจอร์แก้ไขบางพื้นที่ของ Pika
  • การ Refinement ภายในแพลตฟอร์ม
    • องค์ประกอบสำคัญอีกประการหนึ่งของการแก้ไขอัจฉริยะคือ Refinement
    • ขั้นตอนการขัดเกลา 10% สุดท้ายมักเป็นตัวตัดสินความต่างระหว่างการสร้างสิ่งที่ “ดี” กับ “ยอดเยี่ยม”
    • แต่ (1) หาข้อที่ควรปรับ และ (2) ปรับให้ดีขึ้นโดยไม่ต้องย้ายที่อื่นอาจเป็นเรื่องยากมาก
    • AI เวิร์กโฟลว์ช่วยผู้ใช้ระบุสิ่งที่ควรปรับและช่วยปรับปรุงให้อัตโนมัติ
    • คล้ายกับ “auto retouch” ของ Apple สำหรับภาพถ่าย แต่คิดได้ว่าทำงานได้กับทุกอย่าง
    • ตัวอย่างเช่น Krea โหมด upscaling และเวิร์กโฟลว์ audiobook ของ ElevenLabs
  • เอาต์พุตที่รีมิกซ์และแปลงต่อได้
    • เนื้อหาทุกชิ้นสามารถเป็น “จุดเริ่มต้น” ของรอบถัดไปได้
    • หากเคยคัดลอกพรอมต์ที่คนอื่นสร้างใน Midjourney/ChatGPT แล้วแก้ไขมาก่อน ก็ถือว่าเป็นส่วนหนึ่งของกระแสนี้แล้ว
    • แพลตฟอร์มที่ใช้ความยืดหยุ่นนี้อย่างเหมาะสมจะทำให้ผลิตภัณฑ์แข็งแรงและยิ่งอึดขึ้น
    • สำหรับผู้สร้างต้นทาง ค่าของมันอยู่ที่การแปลงงานข้ามหลายสื่อได้มากขึ้น เช่น เปลี่ยนวิดีโอเป็นบทความบล็อก หรือคำอธิบายการใช้งานเป็นวิดีโอนิยามชัด
    • ตัวอย่างเช่น คุณสมบัติหลักของแพลตฟอร์ม Gamma Publishing คือการสร้างเด็ค เอกสาร หรือเว็บเพจจากพรอมต์หรือไฟล์ที่อัปโหลด และแปลงรูปแบบเมื่อจำเป็น
    • การใช้ผลิตภัณฑ์เหล่านี้ยังทำให้สามารถเผยแพร่เวิร์กโฟลว์เพื่อให้ผู้อื่นทำซ้ำได้
      • อาจเป็นชุดพรอมต์หรือการผสมโมเดล หรือเป็นปุ่ม “คัดลอก” ให้ผู้ใช้ที่มีระดับเทคโนโลยีต่ำกว่าสามารถเลียนแบบเอาต์พุตหรือความงามได้
    • ตัวอย่างเช่น แพลตฟอร์มตัดต่อ Imagen AI สำหรับช่างภาพมืออาชีพ:
      • ฝึกโมเดลให้เข้ากับสไตล์เฉพาะของช่างภาพแต่ละคน เพื่อให้งานการตัดต่อแบบแบตช์ทำได้ง่ายขึ้น
      • นอกจากนี้ผู้ใช้ยังสามารถตัดต่อด้วยสไตล์ของช่างภาพชั้นแนวหน้าที่เปิดเผยโปรไฟล์บนแพลตฟอร์มได้

โปรซูเมอร์จะพัฒนาอย่างไร?

  • เครื่องมือโปรซูเมอร์รุ่นถัดไปยังอยู่ในช่วงเริ่มต้น
  • ความสามารถหลักในการสร้างทรัพยากรของเครื่องมือเดิมตอนนี้แข็งแกร่งพอที่จะเติมเวิร์กโฟลว์ที่มีความหมายได้ แต่ผลิตภัณฑ์ส่วนใหญ่ยังคงเน้นเนื้อหารูปแบบเดียว และค่อนข้างจำกัดด้านฟังก์ชัน
  • แพลตฟอร์มที่คาดหวังได้ในอนาคต
    • เครื่องมือแก้ไขที่ผสมผสานโมดาลิตีคอนเทนต์หลากหลาย
      • วิดีโออาจเป็นตัวอย่างที่ดีที่สุด
      • ปัจจุบันหากต้องการสร้างหนังสั้นด้วย AI ต้องสร้างคลิปจำนวนมากใน Pika หรือ Runway แล้วจึงย้ายไปยัง Capcut หรือ Kapwing เพื่อแก้ไขและผสมเสียงต่อ
      • ถ้าทำได้ครบทุกขั้นตอนในแพลตฟอร์มเดียวล่ะ?
      • สินค้าในยุคหน้าเหล่านี้บางส่วนอาจเพิ่มความสามารถเวิร์กโฟลว์มากขึ้น และขยายไปสู่การสร้างเนื้อหาแบบอื่น ๆ โดยฝึกโมเดลของตัวเอง ใช้โมเดลโอเพ่นซอร์ส หรือร่วมมือกับผู้เล่นรายอื่น
      • อาจเกิด AI Native editor แบบสแตนด์อโลนที่อนุญาตให้ผู้ใช้ติดตั้งโมเดลหลากหลายได้ผ่าน “ปลั๊กอิน”
    • เครื่องมือที่ใช้โหมดปฏิสัมพันธ์แบบอื่น
      • ข้อความพรอมต์อาจไม่ใช่วิธีที่มีประสิทธิภาพที่สุดเสมอในการสื่อสารกับผลิตภัณฑ์ AI
      • เหมือนกับการทำงานร่วมกับพาร์ตเนอร์ระดมสมองมนุษย์ผ่านเสียง ภาพร่าง หรือการแชร์รูปอ้างอิง ควรสามารถทำงานกับเครื่องมือสร้างสรรค์ได้ด้วยวิธีดังกล่าวด้วย
      • โดยเฉพาะอย่างยิ่งเรื่องเสียง มีความคาดหวังสูงเพราะผู้ใช้สามารถสื่อความคิดที่ละเอียดซับซ้อนมากขึ้น (หรือพูดคล้อยตามจังหวะที่เขียนข้อความทำไม่ได้)
      • Oasis, TalkNotes และ AudioPen ก็เริ่มเกิดขึ้นแล้วในการแปลงบันทึกเสียงเป็นอีเมล โพสต์บล็อก หรือทวีต
      • ในอนาคตคาดว่าจะมีเวิร์กโฟลว์เพิ่มขึ้นอีกมากที่ใช้เสียงและวิดีโอเป็นอินพุต ทำให้วิธีและจังหวะในการทำงานของผู้ใช้เปลี่ยนไป
    • เครื่องมือที่มองคอนเทนต์ของคนและ AI อย่างเสมอภาค
      • ควรมีเครื่องมือที่ใช้คอนเทนต์ที่ผู้คนและ AI สร้างได้อย่างเท่ากัน ทั่วไปแล้วเครื่องมือส่วนใหญ่ยังโฟกัสเฉพาะด้านใดด้านหนึ่ง
      • ตัวอย่างเช่น มีเครื่องมือที่เก่งมากกับการปรับแต่งภาพจริง แต่ทำอะไรกับภาพ AI ไม่ได้
      • หรือมีเครื่องมือที่สามารถสร้างวิดีโอใหม่ได้ แต่ทำไม่ได้กับการปรับแก้คลิปจาก iPhone หรือเปลี่ยนสไตล์
      • ในอนาคตคาดว่าโปรดิวเซอร์เนื้อหาเชิงมืออาชีพส่วนใหญ่จะผสมคอนเทนต์ที่ AI สร้างกับคอนเทนต์ที่คนสร้างเข้าด้วยกัน
      • เครื่องมือที่พวกเขาใช้จึงควรรองรับทั้งสองประเภทและผสมรวมกันได้ง่าย
      • เครื่องมือแก้ไขของ Runway แสดงแนวคิดนี้ได้ชัดเจน
        • นำคลิปและภาพจากโมเดลที่ตัวเองสร้าง และอัปโหลดทรัพยากรจริงเพื่อใช้บนไทม์ไลน์เดียวกัน
        • แล้วใช้เครื่องมือ “อันศักดิ์สิทธิ์” ของบริษัทอย่าง Inpainting และ Green Screen กับคอนเทนต์ทั้งสองประเภทได้พร้อมกัน
  • เวิร์กโฟลโวว์คอนเทนต์ที่เราเน้นดูในวันนี้เป็นเพียงหนึ่งในส่วนสำคัญที่หล่อหลอมอนาคตของซอฟต์แวร์โปรซูเมอร์
  • เราจะเจาะลึกผลิตภัณฑ์เสริมที่สองคือ productivity tools เพิ่มเติมและคาดว่าจะเห็นการเกิดใหม่ของเครื่องมือเหล่านี้อย่างต่อเนื่องในยุค AI

2 ความคิดเห็น

 
savvykang 2024-02-19

จุดเด่นของผลิตภัณฑ์ AI prosumer คือการนำเสนอการผสมผสาน workflow ซึ่งฉันคิดว่าในเชิงสาระแล้วมีข้อจำกัดเช่นเดียวกับแพลตฟอร์ม low-code แบบดั้งเดิม

ไม่ใช่งานทุกชิ้นที่มอบหมายให้กับผู้ปฏิบัติงานที่ต้องมีระดับความซับซ้อนที่เหมาะสมพอสำหรับการควบคุมด้วย low-code และบางครั้งความซับซ้อนของงานเองสูงมากจนการควบคุมด้วย low-code อาจไม่เหมาะสมเท่าการใช้ทักษะการเขียนโปรแกรมเชิงมืออาชีพเพื่อจัดการความซับซ้อนได้ดีกว่า

ถ้าเปรียบเทียบการเขียนโปรแกรมกับการจัดองค์ประกอบวงจรอิเล็กทรอนิกส์ Low-code solution ก็เทียบได้กับ breadboard เราสามารถต่อประกอบชิ้นส่วนต่างๆ บน breadboard เพื่อสร้าง prototype ของวงจรอิเล็กทรอนิกส์ที่ทำงานได้ทดลองได้ก่อนหน้าได้ แต่ไม่สามารถใช้ breadboard สร้างวงจรรวมที่ต้องการความน่าเชื่อถือได้

 
savvykang 2024-02-19

เมื่อนำไปใช้กับการผลิตเนื้อหา ก็มีความกังวลว่าจากข้อจำกัดของเครื่องมือสร้างด้วย AI อาจไม่สามารถควบคุมความเข้มงวดของความถูกต้องหรือความละเอียดของผลลัพธ์ได้เหมือนที่ควรได้ เหมือนอย่างภาพ AI ที่เพิ่งออกมาในตอนนี้ที่ยังวาดนิ้วมือไม่ถูกต้องอยู่ก็มี ตัวชี้วัดการเรียนรู้คงต่ำลงบ้าง แต่ก็ไม่น่าจะเปลี่ยนแปลงไปแบบสุดโต่งมากนัก