1 คะแนน โดย GN⁺ 2024-09-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Jeff Geerling พบว่าเสียงบรรยายในวิดีโอสอนเชิงโปรโมตบน YouTube ของ Elecrow คล้ายกับเสียงของเขามาก แต่เขา ไม่เคยพูดประโยคเหล่านั้นด้วยตัวเอง
  • ดูเหมือนว่าเสียงที่เป็นปัญหาถูกใช้ในวิดีโอหลายซีรีส์เกี่ยวกับ ESP32 และ RP2040 และ Jeff สงสัยว่าวิดีโอ YouTube ของเขาอาจถูกนำไปใช้กับ เครื่องมือโคลนเสียง AI
  • Elecrow เป็นบริษัทที่ผลิตอุปกรณ์เสริม Raspberry Pi และอุปกรณ์อิเล็กทรอนิกส์ อีกทั้ง Jeff เคยรีวิว CrowPi 2 มาก่อน ทำให้บริบทความสัมพันธ์ซับซ้อนกว่าข้อพิพาทกับผู้รับเหมาภายนอกทั่วไป
  • แม้บรรทัดฐานทางกฎหมายเกี่ยวกับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาตยังไม่ชัดเจน แต่ประเด็นการใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอมนั้นเชื่อมโยงกับคดี Midler vs. Ford
  • ก่อนจะยื่นคำขอลบหรือดำเนินการทางกฎหมาย Jeff ได้ส่งอีเมลถึง Elecrow เพื่อขอคำอธิบายและให้ลบวิดีโอออก และมองว่าบริษัทควรแก้ปัญหาด้วยการจ้างนักพากย์หรือร่วมงานกันอย่างเป็นทางการ

เสียงที่คล้ายกับ Jeff Geerling ที่ได้ยินในวิดีโอของ Elecrow

  • Jeff Geerling ได้ฟัง คลิป YouTube หนึ่งของ Elecrow แล้วเห็นว่าเสียงบรรยายฟังดู คุ้นหูอย่างมาก เหมือนเสียงของเขา
  • วิดีโอนี้ไม่ใช่วิดีโอจาก ช่อง Jeff Geerling แต่เป็นวิดีโอของ Elecrow และ Jeff ไม่เคยพูดประโยคในนั้น
  • มีคนส่งลิงก์วิดีโอของ Elecrow ทางอีเมลมาบอกว่าเสียงฟังดูแปลก และ Jeff มองว่าเพราะช่องของเขาก็ทำเนื้อหาในหัวข้อเดียวกัน ผู้ชมบางส่วนอาจคิดว่าเขา ยินยอมให้ใช้เสียง ในวิดีโอของ Elecrow
  • Elecrow เป็นบริษัทที่ผลิตอุปกรณ์อิเล็กทรอนิกส์และอุปกรณ์เสริม Raspberry Pi และ Jeff เคยรีวิว CrowPi 2 ของ Elecrow มาก่อน
  • ก่อนหน้านี้เขาไม่ได้มีความสัมพันธ์ที่ไม่ดีกับ Elecrow ดังนั้น Jeff จึงยังไม่มั่นใจ 100% ว่าเรื่องนี้เป็นการกระทำโดยเจตนาหรือไม่
  • ใน เวอร์ชันวิดีโอ ของบทความนี้ สามารถเปรียบเทียบคลิปของ Elecrow กับเสียงตามธรรมชาติของ Jeff ได้โดยตรง

ข้อสงสัยเรื่องการโคลนเสียงด้วย AI และการตอบสนอง

  • แม้ Jeff จะตั้งเงื่อนไขไว้ว่าพิสูจน์ได้ยาก แต่เขามองว่ามีความเป็นไปได้สูงที่ Elecrow จะนำวิดีโอ YouTube ของเขาไปใส่ใน เครื่องมือโคลนเสียง AI บางอย่าง แล้วใช้เสียงนั้นบรรยายวิดีโอสอนเชิงโปรโมตหลายรายการ
  • หลังจาก เหตุการณ์ที่ OpenAI แทบจะโคลนเสียงของ Scarlett Johansson เขาคาดว่าบริษัทต่าง ๆ จะระมัดระวังมากขึ้นกับเสียง AI สำหรับเดโมผลิตภัณฑ์หรือวิดีโอสอน แต่กรณีนี้กลับสวนทางกับความคาดหวังนั้น
  • เท่าที่ Jeff ทราบ ยังไม่มี บรรทัดฐานทางกฎหมาย ที่ชัดเจนสำหรับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาต แต่เขาอ้างถึง Midler vs. Ford เป็นบรรทัดฐานว่าห้ามใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอม
  • การตอบโต้ผ่านทนายมีค่าใช้จ่าย และก็ยังไม่แน่ชัดว่าการโคลนเสียงโดยไม่ได้รับความยินยอมละเมิดข้อกำหนดการให้บริการของ YouTube หรือไม่
  • ข้อเรียกร้องของ Jeff ชัดเจน
    • ห้ามขโมย เสียงหรือภาพลักษณ์ ของผู้อื่นไปติดกับผลิตภัณฑ์หรือวิดีโอ
    • แบรนด์ควรจ้างนักพากย์ หรือจ่ายเงินให้ครีเอเตอร์เพื่อร่วมงานกัน
  • Jeff ส่งอีเมลถึง Elecrow ขอให้ลบอย่างน้อย 2 ซีรีส์ที่มีเสียง AI คล้ายกับเขาออก
    • เขาถามว่าเสียงนั้นถูกทำให้คล้ายกับเขาโดยเจตนาหรือไม่
    • และขอให้ยืนยันด้วยว่าได้นำวิดีโอหรือคอนเทนต์เสียงของเขาไปฝึกเสียงหรือไม่
  • เขาต้องการเริ่มด้วยอีเมลก่อนยื่นคำขอลบบน YouTube หรือดำเนินการทางกฎหมาย และยังเปิดความเป็นไปได้ว่าอาจเป็นความผิดพลาดโดยสุจริต เนื่องจากที่ผ่านมาไม่เคยมีปัญหากัน
  • อย่างไรก็ตาม เป็นที่ชัดเจนว่า Elecrow รู้จักช่องของ Jeff
    • ตั้งแต่ปี 2020 จนถึงปัจจุบัน มีอีเมลที่เขาแลกเปลี่ยนกับเจ้าหน้าที่การตลาดของ Elecrow 5 คนมากกว่า 43 ฉบับ
    • ในจำนวนนั้น 22 ฉบับเป็นอีเมลในปีนี้
    • เมื่อวันที่ 2 เมษายน 2024 เจ้าหน้าที่การตลาดของ Elecrow ส่งอีเมลมาว่าต้องการหารือเรื่องพาร์ตเนอร์ชิปแบบมีค่าใช้จ่าย
  • ในอัปเดตวันที่ 23 กันยายน CEO ของ Elecrow ได้ตอบกลับ และ Jeff ได้โพสต์บทความติดตามที่มีทั้งคำตอบนั้นและความเห็นของเขาเกี่ยวกับการโคลนเสียงด้วย AI

1 ความคิดเห็น

 
GN⁺ 2024-09-23
ความคิดเห็นบน Hacker News
  • ความกลัวต่อ AI ของแต่ละคนอาจต่างกัน แต่สิ่งที่น่ากลัวเป็นพิเศษคือกรณีที่ ใช้ AI ปลอมให้ดูเหมือนว่าใครบางคนพูดจาหมิ่นศาสนา
    ในประเทศของผม แค่ดูเหมือนเป็นการดูหมิ่นเล็กน้อยมาก ๆ ไม่ว่าจะจริงหรือจินตนาการขึ้น ก็มี ฝูงชนรุมประชาทัณฑ์ในข้อหาหมิ่นศาสนา เกิดขึ้นแล้ว พวกเขาจะกรูกันมา รุมทำร้าย เผาศพ จากนั้นขณะที่ครอบครัวต้องหลบซ่อนและอัดวิดีโอประกาศปฏิเสธเหยื่อพร้อมให้อภัยฝูงชน พวกฝูงชนก็แบ่งขนมหวานกันกิน
    เรื่องนี้เกิดขึ้นอยู่แล้วตั้งแต่ก่อนที่ AI จะเข้าถึงได้ง่าย อาจพูดได้ว่าเป็น “เรื่องของประเทศล้าหลัง” แต่จะไม่หยุดอยู่แค่นั้น มันจะแพร่กระจายออกไป เราโทษทารกที่เอามีดไปให้ถือแล้วแทงคนไม่ได้
    เรื่องนี้ไม่เกี่ยวกับชื่อเสียง ความปลอดภัย หรือ copyright แต่มันทำให้คนตายได้ และไม่มีเครื่องมือควบคุม
    https://x.com/search?q=blasphemy
    ผมกลัวอนาคต

    • ตรงข้ามกับสัญชาตญาณ ผมคิดว่าคำตอบคือการทำให้ เครื่องมือ AI เหล่านี้เปิดกว้างและเข้าถึงได้มากขึ้น
      ถ้ายังคงถูกจำกัด ถูกควบคุม หรือเข้าถึงยาก ผู้คนก็จะยังคิดต่อไปว่าวิดีโอและเสียงบันทึกนั้นปลอมแปลงไม่ได้ แต่ถ้าทำให้การโคลนเสียงด้วยแอป 1 ดอลลาร์เป็นเรื่องง่ายและเป็นมุกเล่นสนุก ๆ แล้วปล่อยให้วัยรุ่นลองโทรแกล้งกัน ไม่นานมันก็จะฝังอยู่ในการรับรู้ของสาธารณะ
      สัปดาห์ที่แล้ว แม่ผมวัย 70 ถามว่าควรลบข้อความทักทายในวอยซ์เมลไหม เพราะกลัวว่าจะมีคนใช้มันขโมยเสียงของเธอได้ ผมแปลกใจมาก น่าจะได้ยินมาจากช่องอย่าง Fox
      คงลำบากอยู่หลายปี แต่หวังว่ามันจะผ่านไปเร็ว
    • ในกรณีนั้น ปัญหาไม่ได้อยู่ที่ AI แต่อยู่ที่ ประเทศนั้น
    • เพราะความคิดที่ว่า “ถ้าใช้ AI ปลอมให้ดูเหมือนว่าใครบางคนพูดจาหมิ่นศาสนาล่ะ?” ผมเลยเคยคิดว่าจะเขียนจดหมายเปิดผนึกถึง Dang เพื่อขอให้ลบบัญชีของผมดีไหม
      ตอนนี้ ถ้าเป็นผู้ใช้ที่มีคอมเมนต์อยู่พอสมควร ก็น่าจะสามารถ เปิดเผยตัวตนนิรนาม ได้ด้วยการวิเคราะห์ความสัมพันธ์ ถึงจะไม่แม่น 100% ก็ยังขโมยสำนวนการพูดได้ อาจเป็นแค่ความระแวดระวัง แต่ไม่มีอะไรรับประกันว่าเราจะไม่เดินเข้าสู่ป่ามืด และก็มีเหตุผลให้เชื่อได้ว่าเรากำลังมุ่งไปทางนั้น
      ในขณะเดียวกัน ผมก็คิดอยู่ว่าการไม่ถอยกลับเข้าเงามืดอาจเป็นท่าทีของการไม่ยอมแพ้หรือเปล่า
    • ทางที่ดีที่สุดน่าจะเป็นการพยายามหลีกเลี่ยงเรื่องแบบนี้เป็นการส่วนตัวในช่วง ประมาณ 5 ปี แรก จากนั้นมันจะแพร่หลายและทำได้ง่ายเกินไป จนทุกคนเริ่มสงสัยวิดีโอที่เห็น
      คล้ายกับในโซเชียลมีเดียอย่าง Reddit ที่เคยมีการ “ตามหาตัวคนผิด” หรือ “เปิดเผยข้อมูลส่วนตัว” อยู่หลายปี ก่อนที่ผู้ดูแลจะตระหนักว่าฝูงชนออนไลน์มักผิดพลาดบ่อย และมักสั่งห้ามในที่สุด
      แต่จนกว่าจะมีกฎหมายผ่าน หรือจนกว่าความเข้าใจว่าโอกาสที่วิดีโอจะปลอมมีมากกว่าจริงกลายเป็นสามัญสำนึก คนจำนวนมากจะได้รับความเสียหาย อาจใช้เวลามากกว่า 5 ปีด้วยซ้ำ และปัญหาคือโดยทั่วไปกฎหมายมักถูกสร้างขึ้นหลังจากพิสูจน์ได้แล้วว่ามีคนได้รับความเสียหาย
    • ถ้าอย่างนั้นก็คงเหลือแค่ใช้ AI ทำวิดีโอให้แกนนำฝูงชนรุมประชาทัณฑ์ทุกคนทำการหมิ่นศาสนา แล้วให้พวกเขาไปจัดการกันเองภายในหรือเปล่า
  • ผมไม่เห็นว่าการใช้ AI จะทำให้หลีกเลี่ยงบรรทัดฐานคดี Midler vs. Ford ได้อย่างไร
    กลับกัน ถ้าไม่ได้ให้นักพากย์คนอื่นมาเลียนเสียง แต่ใช้ AI โคลนเสียง เหตุผลในการป้องกันตัวยิ่งดูอ่อนลง

    • บรรทัดฐานคดีนั้นใช้ได้เฉพาะในรัฐที่อยู่ภายใต้เขตอำนาจของ ศาลอุทธรณ์ภาคที่ 9 เท่านั้น
      ในรัฐอื่น ๆ หลายแห่ง กฎหมายและคำพิพากษาที่เกี่ยวกับสิ่งที่เรียกว่าสิทธิในชื่อเสียงและภาพลักษณ์ยังแตกกระจัดกระจายกันไป การจะยอมรับแนวคิดนั้นและกำหนดขอบเขตหรือไม่ และจะทำอย่างไร ยังห่างไกลจากฉันทามติทั่วไปในหมู่รัฐต่าง ๆ
    • ในคดีนั้น ศาลจำกัดคำวินิจฉัยไว้อย่างชัดเจนที่ เสียงของนักร้องอาชีพ
      “...ข้อสังเกตนี้ใช้กับการร้องเพลง โดยเฉพาะการร้องเพลงของนักร้องชื่อดัง นักร้องเผยตัวตนของตนผ่านบทเพลง การแอบอ้างเสียงของเธอคือการปล้นอัตลักษณ์ของเธอ...”
      “เราไม่จำเป็นต้องตัดสิน และไม่ได้ตัดสินว่า การเลียนเสียงทุกกรณีเพื่อโฆษณาสินค้าจะเป็นเหตุให้ฟ้องร้องได้ เราตัดสินเพียงว่า เมื่อผู้ขายจงใจเลียนแบบเสียงอันโดดเด่นของนักร้องอาชีพที่เป็นที่รู้จักอย่างกว้างขวางเพื่อขายสินค้า ผู้ขายได้ยึดเอาสิ่งที่ไม่ใช่ของตนมาใช้...”
    • ทางออกที่แท้จริงคือการกีดกันพวกเขาตั้งแต่แรกด้วยการ ไม่จ้างนักพากย์ซ้ำ
  • ขอบคุณที่ชี้บรรทัดฐานคดีให้ แต่บรรทัดฐานเป็นเพียงจุดเริ่มต้น และสุดท้ายเราต้องสร้าง หลักการที่ไปไกลกว่าบรรทัดฐานคดี
    เมื่อเทคโนโลยีนำความสามารถที่ไม่เคยมีมาก่อนเข้ามา สังคมก็ต้องขีดเส้นแบ่งให้มันทำงานเป็นประโยชน์ต่อผู้คน ไม่ใช่เป็นโทษต่อพวกเขา หรือไม่ก็ปล่อยให้เราเข้าใกล้โลกที่ผู้แข็งแกร่งทำอะไรก็ได้ตามใจ ส่วนผู้ที่อ่อนแอหรือคนที่พอมีรถ Camry ขับต้องเป็นฝ่ายแบกรับมากขึ้น

    • California เพิ่งบังคับใช้ร่างกฎหมายที่เกี่ยวข้อง และถือเป็นจุดเริ่มต้น สภาคองเกรสก็กำลังทำงานกับ “No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act” อยู่
      ยังอยู่ระหว่างการพัฒนาในสภาผู้แทนราษฎร แต่ได้รับการสนับสนุนจากทั้งสองพรรค คุณสามารถติดต่อ ส.ส. เขตของคุณและขอให้ร่วมเสนอร่างหรือโหวตสนับสนุนได้
      https://www.cbsnews.com/losangeles/news/california-bills-pro...
      https://salazar.house.gov/media/press-releases/salazar-intro...
      https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
    • การเป็นคู่ความในคดีที่จะกลายเป็นบรรทัดฐานคงไม่ใช่เรื่องสนุกหรือเรื่องง่าย
      ต้องหาองค์กรไม่แสวงหากำไรทางการเมืองอย่าง ACLU ที่จะออกค่าใช้จ่ายในการอุทธรณ์ซ้ำ ๆ ให้ และระหว่างนั้นก็ต้องทนรับข่าวเชิงลบกับความสนใจจากสื่อ
      ผมเห็นด้วยอย่างยิ่งว่าชนชั้นระดับ Camry ต้องมีผู้สนับสนุน แต่หนึ่งในหลักการสำคัญของการปฏิบัติสมัยใหม่คือ ต้องปล่อยให้ผู้คนเลือกระดับการมีส่วนร่วมที่ตนรับไหว ส่งเสริม ยกย่อง และให้กำลังใจ แต่อย่าทำให้อับอาย
      อย่างไรก็ตาม แค่บทความบล็อกนี้ก็น่าจะเพียงพอแล้ว คนที่เข้าข้างการขโมยเสียงมนุษย์มีน้อยมาก และต่างจากการกวาดคลังข้อมูล NYT หรือ deviantart มาเป็นข้อมูลฝึก มันให้ความรู้สึกไม่สบายใจอย่างชัดเจนในเชิงสัญชาตญาณ การประจานต่อสาธารณะคงไม่ได้ทำให้ได้ค่าเสียหายก้อนใหญ่ แต่ก็ดูเหมือนไม่ใช่สิ่งที่ต้องการอยู่แล้ว
  • ถ้าโมเดลภาษาขนาดใหญ่คือเครื่องรีมิกซ์ขั้นสุดยอด ก็อดคิดไม่ได้ว่าใครก็ตามที่มีการสร้างคำตอบเสริมด้วยการค้นคืน (RAG) ก็คงเป็นดีเจดิจิทัลหรือเปล่า
    ในโลกข้อมูลดิจิทัล แม้แต่คำว่า การขโมยคืออะไร ก็ยิ่งยากจะรู้แล้ว เพราะบรรทัดฐานทางกฎหมายยังมีน้อย จึงรู้สึกเหมือนยุคบุกเบิกตะวันตกของกฎหมายทรัพย์สินทางปัญญาและลิขสิทธิ์
    ถ้าแม้แต่ซูเปอร์สตาร์อย่าง Scarlett Johansson ยังทำได้แค่เขียนจดหมายที่เจ็บปวดถึงเรื่องที่ OpenAI พยายามเลียนแบบบุคลิกจาก “Her” แล้วคนธรรมดา ๆ ในวงเฉพาะกลุ่มจะทำอะไรได้
    ก็คงทำได้ประมาณเดียวกับ Geerling คือทั้งเศร้า โกรธ และผิดหวัง แล้วพูดว่า “ขอเถอะ ช่วยทำตามกติกาแห่งเกียรติยศด้วยเจตนาดีหน่อย”

    • การใช้ในทางที่ผิดแบบนี้จะน่าสนใจก็ต่อเมื่อมี ชื่อเสียง ให้ขโมย
      ในกรณีนั้น ก็สามารถใช้ชื่อเสียงนั้นเอาคืนได้เช่นกัน เช่น ยากจะจินตนาการว่าเรื่องนี้จะส่งผลดีต่อชื่อเสียงของ Elecrow ในที่สุด ครั้งหน้าที่เห็นชื่อบริษัทนี้ ก็คงนึกว่า “อ๋อ บริษัทที่หลอกคนอื่นนั่นเอง” ซึ่งไม่เป็นผลดีกับพวกเขา
      สิ่งที่น่ากังวลกว่าคือการใช้เพื่อกำจัดคนที่ไม่ชอบ เช่น ลองนึกภาพอาจารย์มหาวิทยาลัยที่ไม่ได้ทำอะไรผิด แต่มีนักศึกษาที่ไม่พอใจเกรดใช้การโคลนเสียงทำให้เหมือนว่าอาจารย์พูดบางอย่างที่ทำให้ถูกไล่ออกได้ ถ้าการโคลนเสียงดีขึ้นมาก ๆ คนแบบนั้นจะปกป้องตัวเองได้อย่างไร คงยากจนกว่ามันจะแพร่หลายจนตัวบันทึกเสียงเองไม่น่าเชื่อถืออีกต่อไป
    • ไม่มีการขโมย มีแต่ใบอนุญาตเอกชนปล้นเรือที่เปิดทางให้ปล้นคนที่ไม่จ่ายเงินเพราะใช้ มีมและกลุ่มมีม ที่มีคนอ้างสิทธิ์ก่อนเท่านั้น
      การขโมยต้องมีเงื่อนไขว่าเหยื่อต้องสูญเสียประโยชน์จากของที่ถูกขโมยไป การคัดลอก-วางเพียงแต่พังระบบบ้านไพ่ที่ใช้ข่มขู่คนด้วยคุกและความยากจน หากพวกเขาใช้มีมที่ถูกอ้างสิทธิ์แล้วไม่จ่ายเงิน
      ถ้าได้เป็นคณะลูกขุนในคดีละเมิดลิขสิทธิ์ที่จำเลยเป็นมนุษย์ ไม่ใช่บริษัท ก็จะตัดสินให้เป็นการลบล้างโดยคณะลูกขุนทั้งหมด
    • เรื่องนี้ดูไม่ใช่แค่ปัญหาดิจิทัลเท่านั้น
      Eric Schmidt เพิ่งไม่ได้พูดหรือว่าให้ขโมยไปก่อน แล้วถ้าประสบความสำเร็จค่อยให้ทนายจัดการทีหลัง?[0,1]
      [0] https://x.com/alexeheath/status/1823873344133062680
      [1] พูดให้ตรงคือเขาหมายถึงให้ขโมยอย่างถูกกฎหมาย แต่ก็ไม่รู้เหมือนกันว่านั่นหมายความว่าอะไร
    • ดูเหมือนลิขสิทธิ์จะมี ยุคบุกเบิกตะวันตก แบบใดแบบหนึ่งอยู่เสมอ
      ถ้าโลกยังคงกระโดดและเตะจากข้างล่างเพื่อให้ตกลงมา ก็อาจเป็นไปได้ว่าจุดที่ยืนอยู่นั้นผิดเสียเอง
    • คำว่า “การขโมยคืออะไร” ถูกลากผ่านมาหลายขั้นตอน แต่สุดท้ายก็เป็นแค่การฉายเจตจำนงออกไปเท่านั้น
      วัตถุที่มีอินเทอร์เฟซ .copy() นั้น นิยามการขโมยไม่ได้ แต่ถ้ามองให้ละเอียด มันก็ยังมีอยู่
      ผู้คนควรปรับความคาดหวัง ไม่ใช่กฎหมาย คอมพิวเตอร์แทนที่แคชเชียร์ไปแล้ว และตอนนี้การแสดงเสียงก็แทนที่นักพากย์เสียง ความดังจริง ๆ แล้วไม่ได้มีความหมายอะไรมาก และถ้ามีแต่คนดังเท่านั้นที่รักษางานไว้ได้ นั่นก็ไม่ยุติธรรมไม่ใช่หรือ
  • ต่อให้ตัดส่วน AI ออกไป ก็ยังรู้สึกว่านี่อาจเป็นการบิดเบือนความเห็นของ Jeff อย่างรุนแรง หรือใช้ภาพลักษณ์ของเขาโดยไม่ได้รับอนุญาต
    การใช้เสียงนั้นสร้าง การรับรองโดยนัยที่ถูกปรุงแต่งขึ้น ให้กับผลิตภัณฑ์ ซึ่งรู้สึกว่าเป็นเรื่องผิดมาก ๆ กฎหมายที่จัดการกรณีแบบนี้น่าจะมีอยู่ตั้งแต่ก่อน AI เกิดขึ้นนานแล้ว

    • ช่วงนี้ก็คิดคล้าย ๆ กัน
      ตั้งแต่ก่อนก็มีคนที่เลียนเสียงได้ดี และโดยทั่วไปพวกเขาใช้ความสามารถนั้นเพื่อคอมเมดี้หรือเสียดสี ไม่ใช่เพื่อบิดเบือนความเห็นของคนอื่น ผมไม่ใช่นักกฎหมาย แต่เรื่องนี้น่าจะมีฐานทางกฎหมายที่ค่อนข้างแน่น และการแอบอ้างแทนคนอื่นอย่างผิด ๆ ก็น่าจะจัดการทางกฎหมายได้ค่อนข้างง่าย
      ความแตกต่างคือ การทำให้เป็นประชาธิปไตย จากเดิมที่มีคนเพียงหยิบมือมีความสามารถแบบนี้ กลายเป็นเกือบทุกคนที่มีคอมพิวเตอร์ก็ทำสิ่งคล้ายกันได้ ดังนั้นการบังคับใช้จึงยากขึ้นมาก และถ้าต้องใช้มาตรการทางกฎหมายในการแก้ไข คนอย่าง Jeff Geerling ก็อาจรับภาระไม่ไหว
  • อาจเป็นผมที่แปลกก็ได้ แต่ผมไม่คิดว่าเสียงนั้นเหมือนเขามากขนาดนั้น
    คล้ายอยู่นิดหน่อยแต่ก็แตกต่าง ระดับเสียงสูงกว่าเล็กน้อย มีเสียงขึ้นจมูกมากกว่า และสำเนียงก็แตกต่างไปเล็กน้อย

    • ในฐานะคนที่ไม่เคยฟังเขามาก่อน แค่ฟังไม่กี่วินาทีแรกของวิดีโอนี้ ก็ฟังดูคล้ายพอที่จะมองว่าเป็น เสียงโคลน AI ที่ไม่สมบูรณ์ได้
      https://www.youtube.com/watch?v=UMofZIT9FcQ
    • ในฐานะคนที่ดูวิดีโอและไลฟ์สดของเขาทั้งหมด ผมคิดว่ามันคล้ายมากจริง ๆ
    • ชัดเจนว่ามันฝึกจากเสียงของเขา
      ความแตกต่างด้านสำเนียงและระดับเสียงที่พูดถึง ก็เป็นแค่ความแตกต่างที่เกิดจากการเป็น เสียงที่ AI สร้าง ไม่ใช่คำพูดของมนุษย์
    • ผมดูวิดีโอของเขามาหลายร้อยคลิปแล้ว และมันฟังดูคล้ายเขามากจริง ๆ
    • เครื่องมือที่ผมรู้จักคือถ้าใส่คลิปเสียงหลายประเภทที่อยากผสมเข้าไป มันจะผสมองค์ประกอบทั้งหมดในนั้นในระดับที่ไม่อาจรู้หรือควบคุมได้ทั้งหมด และยังเพิ่มความสุ่มของระบบเข้าไปด้วย
      ฝั่งนั้นคงจะอธิบายว่าได้ผสมเสียงที่ฟังไพเราะกว่าเข้าไป จนเกิดความแตกต่างมากพอ
      ปัญหาคือใครจะตัดสินว่าต้องต่างแค่ไหนถึงจะพ้นจาก การนำภาพลักษณ์หรือความคล้ายคลึงของเสียงไปใช้โดยมิชอบ “ราชาแห่งเสียงเนิร์ดทั่วไป” อ้างว่าคล้ายกันเกินไป ส่วนฝ่ายที่ถูกสงสัยก็คงไม่เปิดเผยกระบวนการทั้งหมด
      อีกไม่นานการปรับแต่งเสียง AI ด้วยหูก็น่าจะเป็นไปได้ ดังนั้นต่อให้ขอให้ยกเว้นจากการฝึกเพราะเป็นเสียงตัวแทนของสาขาหนึ่ง ๆ ก็ไม่ได้ทำให้ปลอดภัยขึ้น อะไรอย่างหน่วยงานกำกับอำนาจเสียงฟังดูมืดมนมาก
  • ในฐานะ YouTuber สายเทคโนโลยีรายเล็ก ผมเคยติดต่อกับ Elecrow ด้วย
    เท่าที่ผมรู้ พนักงานของหลายบริษัท ไม่ใช่แค่ Elecrow จะได้รับรางวัล การเลื่อนตำแหน่ง หรือค่าคอมมิชชัน หากปิดดีลพาร์ตเนอร์ระยะยาวหรือความร่วมมือทำวิดีโอกับ YouTuber ได้ อาจมีใครบางคนคิดว่าเนื่องจากช่องของ Jeff ค่อนข้างมีชื่อเสียงในวงการนี้ การ โคลนเสียงของ Jeff ก็น่าจะเป็นไอเดียที่ฉลาด
    ตอนนี้จากมุมของ Elecrow แน่นอนว่านี่ไม่ใช่การประชาสัมพันธ์ที่ดี และก็สงสัยเหมือนกันว่าพวกเขาจะยอมรับไหมว่าตั้งใจทำ

  • แนวคิดที่ว่าโทนเสียงที่ขโมยมาจะสำคัญ เป็นหนึ่งในส่วนที่สายตาสั้นที่สุดของการลงทุนใน AI เลย แรงขับเคลื่อนก็คือความคิดแบบ Hollywood ที่ว่า “อย่าสร้างอะไรใหม่เด็ดขาด”
    อีกประมาณ 5 ปี เสียง AI จะถูกปรับให้เหมาะกับแต่ละคน และฟังไพเราะกว่าเสียงมนุษย์จริง ๆ ด้วยซ้ำ ไม่ถูกจำกัดด้วยความล้าของเส้นเสียง เปลี่ยนได้ตามใจ และปรับแก้ได้ง่ายจากการสำรวจการมีส่วนร่วมของผู้ใช้
    ต่อไปสิ่งสำคัญจะเป็นการ ปรับแต่งเอาต์พุตเสียงอย่างละเอียด แล้วเฝ้าดูการมีส่วนร่วม

    • สิ่งที่ถูกขโมยตรงนี้ไม่ใช่ตัวเสียงมากเท่ากับความคล้ายตัวผู้เขียน ชื่อเสียง ที่เขาสั่งสมในสายเทคโนโลยีบน YouTube และความน่าเชื่อถือเกี่ยวกับผลิตภัณฑ์เชิงพาณิชย์ที่เขาเคยรีวิวไว้
      นั่นแหละคือเหตุผลที่พวกเขาเลือกเสียงของเขาโดยเฉพาะ
      เสียง AI อาจแยกไม่ออกในเชิงสุนทรียะ หรืออาจเป็นที่ชอบมากกว่าก็ได้ แต่ไม่สามารถบรรจุชื่อเสียงหรือความจริงใจไว้ได้ สิ่งเหล่านั้นมีคุณค่าเพราะโดยแก่นแล้วมันหายาก ตรงกันข้าม ในทะเลของคอนเทนต์คุณภาพต่ำที่ถูกทำให้เป็นสินค้าทั่วไป ความต้องการคนที่มีคุณค่าแบรนด์เฉพาะตัวอาจไม่ลดลง แต่เพิ่มขึ้นด้วยซ้ำ นั่นก็เป็นเหตุผลที่ทุกวันนี้อินฟลูเอนเซอร์ทำเงินก้อนใหญ่จากโฆษณาได้
    • “เพื่อวัตถุประสงค์ด้านการประกันคุณภาพและการฝึกอบรม การโทรนี้อาจถูกตรวจสอบหรือบันทึกเสียง”
      “การฝึกอบรม” เนี่ยนะ
    • ไม่แน่ใจด้วยซ้ำว่าจะต้องใช้เวลาถึง 5 ปีไหม เคยทดสอบ elevenlabs หรือยัง?
      ตอนนี้ก็มีเทคนิคโคลนเสียงหลายแบบที่เริ่มจากอินพุตเสียง 30 วินาทีแล้ว แบบ 30 วินาทีจะคล้ายเสียงเป้าหมายในระดับหนึ่งแต่ยังไม่เหมือนเป๊ะ ส่วนถ้าใส่เสียงหลายชั่วโมงเข้าไปก็จะฟังเหมือนคนจริง ๆ นอกจากนี้ยังปรับเสียงด้วยพารามิเตอร์บางอย่างได้ หรือสร้างเสียงใหม่จากการกำหนดพารามิเตอร์ล้วน ๆ ก็ได้
      เสียงในวิดีโอ เมื่อดูจากคุณภาพแล้ว อาจเป็นเสียง “โคลนทันที” ที่สร้างจากอินพุตไม่กี่วินาที หากต้องการโคลนขั้นสูงกว่านั้น ต้องมีหลักฐานว่าเป็นเสียงของตัวเอง
      [1] https://elevenlabs.io
    • ผมเดิมพันระยะยาวกับมนุษย์อยู่ และคิดว่าในฐานะปฏิกิริยาตอบโต้ต่อการแพร่กระจายล้นเกินของคอนเทนต์ที่สร้างโดย AI หลายคนน่าจะเริ่มชอบ ความไม่สมบูรณ์แบบ
    • ประเทศเรามีการพากย์เยอะ และมีนักพากย์ที่ผู้คนนับล้านโตมากับเสียงของพวกเขาในอนิเมชันและอื่น ๆ
      ในสถานการณ์แบบนั้น บริษัทต่าง ๆ อาจอยากซื้อเสียงของพวกเขา ไม่ใช่แค่เรื่องฟังเพราะ แต่คุณค่าของ ความคุ้นเคย นั้นสูงมาก ตัวอย่างเช่น ElevenLabs เคยซื้อสิทธิ์เสียงของผู้เสียชีวิตจากครอบครัวของพวกเขาด้วย
      แต่ถ้าไม่นับบริบทพิเศษที่เจือด้วยความคิดถึงแบบนี้ ก็ไม่เห็นเหตุผลว่าทำไมถึงไม่สร้างเสียงสังเคราะห์ขึ้นมาตั้งแต่ต้น
  • ทุกคนคงมองเป็นเรื่องสนุก จนกว่าจะมีใครสักคนสร้างเสียงบันทึกที่ดูเหมือนอีกคนยอมรับอาชญากรรม แล้วมันถูกนำไปใช้ในศาล
    นี่แหละคือส่วนของ AI ที่ผมไม่ชอบ

    • ช่วงไม่กี่ปีแรกคงแย่ แต่สักวันหนึ่งมันอาจถูกปรับแต่งได้ง่ายเกินไปจน รับเป็นพยานหลักฐานในศาลไม่ได้ ไม่ใช่หรือ?
      แต่ถ้าพยานหลักฐานวิดีโอและเสียงใช้ไม่ได้แล้ว เราควรทำอย่างไรต่อ
    • แย่กว่านั้นอีก ผู้คนจะเริ่มอ้างว่าเสียงบันทึกจริงที่เป็นผลเสียต่อตัวเองก็เป็นของปลอม
      แต่ทั้งสองกรณีดูเหมือนจะสำคัญใน ศาลแห่งความคิดเห็นสาธารณะ มากกว่าในศาลจริง
    • ถ้าไม่ได้เกลียดโปรแกรมแก้ไขภาพด้วย ผมก็ไม่ค่อยเข้าใจประเด็นนี้
      เวลาประเมินเทคโนโลยีใหม่ที่มีประโยชน์ การรักษารูปแบบหลักฐานไว้คงไม่ใช่ประเด็นหลักที่ต้องสนใจ
  • ในเมื่อมีเครื่องมือโคลนเสียงเป็นร้อย ๆ ตัว การมี คอนเทนต์เสียงโคลน ออกมาก็เป็นเรื่องธรรมดา
    คล้ายกับกรณีที่มีคนใช้ภาพลักษณ์ของผู้อื่นโดยไม่ได้รับอนุญาต แพลตฟอร์มและทีมปฏิบัติการมีกระบวนการแจ้งรายงานและลบอยู่แล้ว ดูเหมือนว่าเสียงก็ควรมีสิ่งที่คล้ายกัน