เสียงของฉันที่ถูก AI ขโมยไป

(jeffgeerling.com)

1 คะแนน โดย GN⁺ 2024-09-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Jeff Geerling พบว่าเสียงบรรยายในวิดีโอสอนเชิงโปรโมตบน YouTube ของ Elecrow คล้ายกับเสียงของเขามาก แต่เขา ไม่เคยพูดประโยคเหล่านั้นด้วยตัวเอง
ดูเหมือนว่าเสียงที่เป็นปัญหาถูกใช้ในวิดีโอหลายซีรีส์เกี่ยวกับ ESP32 และ RP2040 และ Jeff สงสัยว่าวิดีโอ YouTube ของเขาอาจถูกนำไปใช้กับ เครื่องมือโคลนเสียง AI
Elecrow เป็นบริษัทที่ผลิตอุปกรณ์เสริม Raspberry Pi และอุปกรณ์อิเล็กทรอนิกส์ อีกทั้ง Jeff เคยรีวิว CrowPi 2 มาก่อน ทำให้บริบทความสัมพันธ์ซับซ้อนกว่าข้อพิพาทกับผู้รับเหมาภายนอกทั่วไป
แม้บรรทัดฐานทางกฎหมายเกี่ยวกับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาตยังไม่ชัดเจน แต่ประเด็นการใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอมนั้นเชื่อมโยงกับคดี Midler vs. Ford
ก่อนจะยื่นคำขอลบหรือดำเนินการทางกฎหมาย Jeff ได้ส่งอีเมลถึง Elecrow เพื่อขอคำอธิบายและให้ลบวิดีโอออก และมองว่าบริษัทควรแก้ปัญหาด้วยการจ้างนักพากย์หรือร่วมงานกันอย่างเป็นทางการ

เสียงที่คล้ายกับ Jeff Geerling ที่ได้ยินในวิดีโอของ Elecrow

Jeff Geerling ได้ฟัง คลิป YouTube หนึ่งของ Elecrow แล้วเห็นว่าเสียงบรรยายฟังดู คุ้นหูอย่างมาก เหมือนเสียงของเขา
วิดีโอนี้ไม่ใช่วิดีโอจาก ช่อง Jeff Geerling แต่เป็นวิดีโอของ Elecrow และ Jeff ไม่เคยพูดประโยคในนั้น
มีคนส่งลิงก์วิดีโอของ Elecrow ทางอีเมลมาบอกว่าเสียงฟังดูแปลก และ Jeff มองว่าเพราะช่องของเขาก็ทำเนื้อหาในหัวข้อเดียวกัน ผู้ชมบางส่วนอาจคิดว่าเขา ยินยอมให้ใช้เสียง ในวิดีโอของ Elecrow
Elecrow เป็นบริษัทที่ผลิตอุปกรณ์อิเล็กทรอนิกส์และอุปกรณ์เสริม Raspberry Pi และ Jeff เคยรีวิว CrowPi 2 ของ Elecrow มาก่อน
ก่อนหน้านี้เขาไม่ได้มีความสัมพันธ์ที่ไม่ดีกับ Elecrow ดังนั้น Jeff จึงยังไม่มั่นใจ 100% ว่าเรื่องนี้เป็นการกระทำโดยเจตนาหรือไม่
ใน เวอร์ชันวิดีโอ ของบทความนี้ สามารถเปรียบเทียบคลิปของ Elecrow กับเสียงตามธรรมชาติของ Jeff ได้โดยตรง

ข้อสงสัยเรื่องการโคลนเสียงด้วย AI และการตอบสนอง

แม้ Jeff จะตั้งเงื่อนไขไว้ว่าพิสูจน์ได้ยาก แต่เขามองว่ามีความเป็นไปได้สูงที่ Elecrow จะนำวิดีโอ YouTube ของเขาไปใส่ใน เครื่องมือโคลนเสียง AI บางอย่าง แล้วใช้เสียงนั้นบรรยายวิดีโอสอนเชิงโปรโมตหลายรายการ
- ยกตัวอย่างเช่น ซีรีส์ ESP32 และ ซีรีส์ RP2040
หลังจาก เหตุการณ์ที่ OpenAI แทบจะโคลนเสียงของ Scarlett Johansson เขาคาดว่าบริษัทต่าง ๆ จะระมัดระวังมากขึ้นกับเสียง AI สำหรับเดโมผลิตภัณฑ์หรือวิดีโอสอน แต่กรณีนี้กลับสวนทางกับความคาดหวังนั้น
เท่าที่ Jeff ทราบ ยังไม่มี บรรทัดฐานทางกฎหมาย ที่ชัดเจนสำหรับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาต แต่เขาอ้างถึง Midler vs. Ford เป็นบรรทัดฐานว่าห้ามใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอม
การตอบโต้ผ่านทนายมีค่าใช้จ่าย และก็ยังไม่แน่ชัดว่าการโคลนเสียงโดยไม่ได้รับความยินยอมละเมิดข้อกำหนดการให้บริการของ YouTube หรือไม่
ข้อเรียกร้องของ Jeff ชัดเจน
- ห้ามขโมย เสียงหรือภาพลักษณ์ ของผู้อื่นไปติดกับผลิตภัณฑ์หรือวิดีโอ
- แบรนด์ควรจ้างนักพากย์ หรือจ่ายเงินให้ครีเอเตอร์เพื่อร่วมงานกัน
Jeff ส่งอีเมลถึง Elecrow ขอให้ลบอย่างน้อย 2 ซีรีส์ที่มีเสียง AI คล้ายกับเขาออก
- เขาถามว่าเสียงนั้นถูกทำให้คล้ายกับเขาโดยเจตนาหรือไม่
- และขอให้ยืนยันด้วยว่าได้นำวิดีโอหรือคอนเทนต์เสียงของเขาไปฝึกเสียงหรือไม่
เขาต้องการเริ่มด้วยอีเมลก่อนยื่นคำขอลบบน YouTube หรือดำเนินการทางกฎหมาย และยังเปิดความเป็นไปได้ว่าอาจเป็นความผิดพลาดโดยสุจริต เนื่องจากที่ผ่านมาไม่เคยมีปัญหากัน
อย่างไรก็ตาม เป็นที่ชัดเจนว่า Elecrow รู้จักช่องของ Jeff
- ตั้งแต่ปี 2020 จนถึงปัจจุบัน มีอีเมลที่เขาแลกเปลี่ยนกับเจ้าหน้าที่การตลาดของ Elecrow 5 คนมากกว่า 43 ฉบับ
- ในจำนวนนั้น 22 ฉบับเป็นอีเมลในปีนี้
- เมื่อวันที่ 2 เมษายน 2024 เจ้าหน้าที่การตลาดของ Elecrow ส่งอีเมลมาว่าต้องการหารือเรื่องพาร์ตเนอร์ชิปแบบมีค่าใช้จ่าย
ในอัปเดตวันที่ 23 กันยายน CEO ของ Elecrow ได้ตอบกลับ และ Jeff ได้โพสต์บทความติดตามที่มีทั้งคำตอบนั้นและความเห็นของเขาเกี่ยวกับการโคลนเสียงด้วย AI

1 ความคิดเห็น

GN⁺ 2024-09-23

ความคิดเห็นบน Hacker News

ความกลัวต่อ AI ของแต่ละคนอาจต่างกัน แต่สิ่งที่น่ากลัวเป็นพิเศษคือกรณีที่ ใช้ AI ปลอมให้ดูเหมือนว่าใครบางคนพูดจาหมิ่นศาสนา
ในประเทศของผม แค่ดูเหมือนเป็นการดูหมิ่นเล็กน้อยมาก ๆ ไม่ว่าจะจริงหรือจินตนาการขึ้น ก็มี ฝูงชนรุมประชาทัณฑ์ในข้อหาหมิ่นศาสนา เกิดขึ้นแล้ว พวกเขาจะกรูกันมา รุมทำร้าย เผาศพ จากนั้นขณะที่ครอบครัวต้องหลบซ่อนและอัดวิดีโอประกาศปฏิเสธเหยื่อพร้อมให้อภัยฝูงชน พวกฝูงชนก็แบ่งขนมหวานกันกิน
เรื่องนี้เกิดขึ้นอยู่แล้วตั้งแต่ก่อนที่ AI จะเข้าถึงได้ง่าย อาจพูดได้ว่าเป็น “เรื่องของประเทศล้าหลัง” แต่จะไม่หยุดอยู่แค่นั้น มันจะแพร่กระจายออกไป เราโทษทารกที่เอามีดไปให้ถือแล้วแทงคนไม่ได้
เรื่องนี้ไม่เกี่ยวกับชื่อเสียง ความปลอดภัย หรือ copyright แต่มันทำให้คนตายได้ และไม่มีเครื่องมือควบคุม
https://x.com/search?q=blasphemy
ผมกลัวอนาคต
- ตรงข้ามกับสัญชาตญาณ ผมคิดว่าคำตอบคือการทำให้ เครื่องมือ AI เหล่านี้เปิดกว้างและเข้าถึงได้มากขึ้น
  ถ้ายังคงถูกจำกัด ถูกควบคุม หรือเข้าถึงยาก ผู้คนก็จะยังคิดต่อไปว่าวิดีโอและเสียงบันทึกนั้นปลอมแปลงไม่ได้ แต่ถ้าทำให้การโคลนเสียงด้วยแอป 1 ดอลลาร์เป็นเรื่องง่ายและเป็นมุกเล่นสนุก ๆ แล้วปล่อยให้วัยรุ่นลองโทรแกล้งกัน ไม่นานมันก็จะฝังอยู่ในการรับรู้ของสาธารณะ
  สัปดาห์ที่แล้ว แม่ผมวัย 70 ถามว่าควรลบข้อความทักทายในวอยซ์เมลไหม เพราะกลัวว่าจะมีคนใช้มันขโมยเสียงของเธอได้ ผมแปลกใจมาก น่าจะได้ยินมาจากช่องอย่าง Fox
  คงลำบากอยู่หลายปี แต่หวังว่ามันจะผ่านไปเร็ว
- ในกรณีนั้น ปัญหาไม่ได้อยู่ที่ AI แต่อยู่ที่ ประเทศนั้น
- เพราะความคิดที่ว่า “ถ้าใช้ AI ปลอมให้ดูเหมือนว่าใครบางคนพูดจาหมิ่นศาสนาล่ะ?” ผมเลยเคยคิดว่าจะเขียนจดหมายเปิดผนึกถึง Dang เพื่อขอให้ลบบัญชีของผมดีไหม
  ตอนนี้ ถ้าเป็นผู้ใช้ที่มีคอมเมนต์อยู่พอสมควร ก็น่าจะสามารถ เปิดเผยตัวตนนิรนาม ได้ด้วยการวิเคราะห์ความสัมพันธ์ ถึงจะไม่แม่น 100% ก็ยังขโมยสำนวนการพูดได้ อาจเป็นแค่ความระแวดระวัง แต่ไม่มีอะไรรับประกันว่าเราจะไม่เดินเข้าสู่ป่ามืด และก็มีเหตุผลให้เชื่อได้ว่าเรากำลังมุ่งไปทางนั้น
  ในขณะเดียวกัน ผมก็คิดอยู่ว่าการไม่ถอยกลับเข้าเงามืดอาจเป็นท่าทีของการไม่ยอมแพ้หรือเปล่า
- ทางที่ดีที่สุดน่าจะเป็นการพยายามหลีกเลี่ยงเรื่องแบบนี้เป็นการส่วนตัวในช่วง ประมาณ 5 ปี แรก จากนั้นมันจะแพร่หลายและทำได้ง่ายเกินไป จนทุกคนเริ่มสงสัยวิดีโอที่เห็น
  คล้ายกับในโซเชียลมีเดียอย่าง Reddit ที่เคยมีการ “ตามหาตัวคนผิด” หรือ “เปิดเผยข้อมูลส่วนตัว” อยู่หลายปี ก่อนที่ผู้ดูแลจะตระหนักว่าฝูงชนออนไลน์มักผิดพลาดบ่อย และมักสั่งห้ามในที่สุด
  แต่จนกว่าจะมีกฎหมายผ่าน หรือจนกว่าความเข้าใจว่าโอกาสที่วิดีโอจะปลอมมีมากกว่าจริงกลายเป็นสามัญสำนึก คนจำนวนมากจะได้รับความเสียหาย อาจใช้เวลามากกว่า 5 ปีด้วยซ้ำ และปัญหาคือโดยทั่วไปกฎหมายมักถูกสร้างขึ้นหลังจากพิสูจน์ได้แล้วว่ามีคนได้รับความเสียหาย
- ถ้าอย่างนั้นก็คงเหลือแค่ใช้ AI ทำวิดีโอให้แกนนำฝูงชนรุมประชาทัณฑ์ทุกคนทำการหมิ่นศาสนา แล้วให้พวกเขาไปจัดการกันเองภายในหรือเปล่า
ผมไม่เห็นว่าการใช้ AI จะทำให้หลีกเลี่ยงบรรทัดฐานคดี Midler vs. Ford ได้อย่างไร
กลับกัน ถ้าไม่ได้ให้นักพากย์คนอื่นมาเลียนเสียง แต่ใช้ AI โคลนเสียง เหตุผลในการป้องกันตัวยิ่งดูอ่อนลง
- บรรทัดฐานคดีนั้นใช้ได้เฉพาะในรัฐที่อยู่ภายใต้เขตอำนาจของ ศาลอุทธรณ์ภาคที่ 9 เท่านั้น
  ในรัฐอื่น ๆ หลายแห่ง กฎหมายและคำพิพากษาที่เกี่ยวกับสิ่งที่เรียกว่าสิทธิในชื่อเสียงและภาพลักษณ์ยังแตกกระจัดกระจายกันไป การจะยอมรับแนวคิดนั้นและกำหนดขอบเขตหรือไม่ และจะทำอย่างไร ยังห่างไกลจากฉันทามติทั่วไปในหมู่รัฐต่าง ๆ
- ในคดีนั้น ศาลจำกัดคำวินิจฉัยไว้อย่างชัดเจนที่ เสียงของนักร้องอาชีพ
  “...ข้อสังเกตนี้ใช้กับการร้องเพลง โดยเฉพาะการร้องเพลงของนักร้องชื่อดัง นักร้องเผยตัวตนของตนผ่านบทเพลง การแอบอ้างเสียงของเธอคือการปล้นอัตลักษณ์ของเธอ...”
  “เราไม่จำเป็นต้องตัดสิน และไม่ได้ตัดสินว่า การเลียนเสียงทุกกรณีเพื่อโฆษณาสินค้าจะเป็นเหตุให้ฟ้องร้องได้ เราตัดสินเพียงว่า เมื่อผู้ขายจงใจเลียนแบบเสียงอันโดดเด่นของนักร้องอาชีพที่เป็นที่รู้จักอย่างกว้างขวางเพื่อขายสินค้า ผู้ขายได้ยึดเอาสิ่งที่ไม่ใช่ของตนมาใช้...”
- ทางออกที่แท้จริงคือการกีดกันพวกเขาตั้งแต่แรกด้วยการ ไม่จ้างนักพากย์ซ้ำ
ขอบคุณที่ชี้บรรทัดฐานคดีให้ แต่บรรทัดฐานเป็นเพียงจุดเริ่มต้น และสุดท้ายเราต้องสร้าง หลักการที่ไปไกลกว่าบรรทัดฐานคดี
เมื่อเทคโนโลยีนำความสามารถที่ไม่เคยมีมาก่อนเข้ามา สังคมก็ต้องขีดเส้นแบ่งให้มันทำงานเป็นประโยชน์ต่อผู้คน ไม่ใช่เป็นโทษต่อพวกเขา หรือไม่ก็ปล่อยให้เราเข้าใกล้โลกที่ผู้แข็งแกร่งทำอะไรก็ได้ตามใจ ส่วนผู้ที่อ่อนแอหรือคนที่พอมีรถ Camry ขับต้องเป็นฝ่ายแบกรับมากขึ้น
- California เพิ่งบังคับใช้ร่างกฎหมายที่เกี่ยวข้อง และถือเป็นจุดเริ่มต้น สภาคองเกรสก็กำลังทำงานกับ “No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act” อยู่
  ยังอยู่ระหว่างการพัฒนาในสภาผู้แทนราษฎร แต่ได้รับการสนับสนุนจากทั้งสองพรรค คุณสามารถติดต่อ ส.ส. เขตของคุณและขอให้ร่วมเสนอร่างหรือโหวตสนับสนุนได้
  https://www.cbsnews.com/losangeles/news/california-bills-pro...
  https://salazar.house.gov/media/press-releases/salazar-intro...
  https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
- การเป็นคู่ความในคดีที่จะกลายเป็นบรรทัดฐานคงไม่ใช่เรื่องสนุกหรือเรื่องง่าย
  ต้องหาองค์กรไม่แสวงหากำไรทางการเมืองอย่าง ACLU ที่จะออกค่าใช้จ่ายในการอุทธรณ์ซ้ำ ๆ ให้ และระหว่างนั้นก็ต้องทนรับข่าวเชิงลบกับความสนใจจากสื่อ
  ผมเห็นด้วยอย่างยิ่งว่าชนชั้นระดับ Camry ต้องมีผู้สนับสนุน แต่หนึ่งในหลักการสำคัญของการปฏิบัติสมัยใหม่คือ ต้องปล่อยให้ผู้คนเลือกระดับการมีส่วนร่วมที่ตนรับไหว ส่งเสริม ยกย่อง และให้กำลังใจ แต่อย่าทำให้อับอาย
  อย่างไรก็ตาม แค่บทความบล็อกนี้ก็น่าจะเพียงพอแล้ว คนที่เข้าข้างการขโมยเสียงมนุษย์มีน้อยมาก และต่างจากการกวาดคลังข้อมูล NYT หรือ deviantart มาเป็นข้อมูลฝึก มันให้ความรู้สึกไม่สบายใจอย่างชัดเจนในเชิงสัญชาตญาณ การประจานต่อสาธารณะคงไม่ได้ทำให้ได้ค่าเสียหายก้อนใหญ่ แต่ก็ดูเหมือนไม่ใช่สิ่งที่ต้องการอยู่แล้ว
ถ้าโมเดลภาษาขนาดใหญ่คือเครื่องรีมิกซ์ขั้นสุดยอด ก็อดคิดไม่ได้ว่าใครก็ตามที่มีการสร้างคำตอบเสริมด้วยการค้นคืน (RAG) ก็คงเป็นดีเจดิจิทัลหรือเปล่า
ในโลกข้อมูลดิจิทัล แม้แต่คำว่า การขโมยคืออะไร ก็ยิ่งยากจะรู้แล้ว เพราะบรรทัดฐานทางกฎหมายยังมีน้อย จึงรู้สึกเหมือนยุคบุกเบิกตะวันตกของกฎหมายทรัพย์สินทางปัญญาและลิขสิทธิ์
ถ้าแม้แต่ซูเปอร์สตาร์อย่าง Scarlett Johansson ยังทำได้แค่เขียนจดหมายที่เจ็บปวดถึงเรื่องที่ OpenAI พยายามเลียนแบบบุคลิกจาก “Her” แล้วคนธรรมดา ๆ ในวงเฉพาะกลุ่มจะทำอะไรได้
ก็คงทำได้ประมาณเดียวกับ Geerling คือทั้งเศร้า โกรธ และผิดหวัง แล้วพูดว่า “ขอเถอะ ช่วยทำตามกติกาแห่งเกียรติยศด้วยเจตนาดีหน่อย”
- การใช้ในทางที่ผิดแบบนี้จะน่าสนใจก็ต่อเมื่อมี ชื่อเสียง ให้ขโมย
  ในกรณีนั้น ก็สามารถใช้ชื่อเสียงนั้นเอาคืนได้เช่นกัน เช่น ยากจะจินตนาการว่าเรื่องนี้จะส่งผลดีต่อชื่อเสียงของ Elecrow ในที่สุด ครั้งหน้าที่เห็นชื่อบริษัทนี้ ก็คงนึกว่า “อ๋อ บริษัทที่หลอกคนอื่นนั่นเอง” ซึ่งไม่เป็นผลดีกับพวกเขา
  สิ่งที่น่ากังวลกว่าคือการใช้เพื่อกำจัดคนที่ไม่ชอบ เช่น ลองนึกภาพอาจารย์มหาวิทยาลัยที่ไม่ได้ทำอะไรผิด แต่มีนักศึกษาที่ไม่พอใจเกรดใช้การโคลนเสียงทำให้เหมือนว่าอาจารย์พูดบางอย่างที่ทำให้ถูกไล่ออกได้ ถ้าการโคลนเสียงดีขึ้นมาก ๆ คนแบบนั้นจะปกป้องตัวเองได้อย่างไร คงยากจนกว่ามันจะแพร่หลายจนตัวบันทึกเสียงเองไม่น่าเชื่อถืออีกต่อไป
- ไม่มีการขโมย มีแต่ใบอนุญาตเอกชนปล้นเรือที่เปิดทางให้ปล้นคนที่ไม่จ่ายเงินเพราะใช้ มีมและกลุ่มมีม ที่มีคนอ้างสิทธิ์ก่อนเท่านั้น
  การขโมยต้องมีเงื่อนไขว่าเหยื่อต้องสูญเสียประโยชน์จากของที่ถูกขโมยไป การคัดลอก-วางเพียงแต่พังระบบบ้านไพ่ที่ใช้ข่มขู่คนด้วยคุกและความยากจน หากพวกเขาใช้มีมที่ถูกอ้างสิทธิ์แล้วไม่จ่ายเงิน
  ถ้าได้เป็นคณะลูกขุนในคดีละเมิดลิขสิทธิ์ที่จำเลยเป็นมนุษย์ ไม่ใช่บริษัท ก็จะตัดสินให้เป็นการลบล้างโดยคณะลูกขุนทั้งหมด
- เรื่องนี้ดูไม่ใช่แค่ปัญหาดิจิทัลเท่านั้น
  Eric Schmidt เพิ่งไม่ได้พูดหรือว่าให้ขโมยไปก่อน แล้วถ้าประสบความสำเร็จค่อยให้ทนายจัดการทีหลัง?[0,1]
  [0] https://x.com/alexeheath/status/1823873344133062680
  [1] พูดให้ตรงคือเขาหมายถึงให้ขโมยอย่างถูกกฎหมาย แต่ก็ไม่รู้เหมือนกันว่านั่นหมายความว่าอะไร
- ดูเหมือนลิขสิทธิ์จะมี ยุคบุกเบิกตะวันตก แบบใดแบบหนึ่งอยู่เสมอ
  ถ้าโลกยังคงกระโดดและเตะจากข้างล่างเพื่อให้ตกลงมา ก็อาจเป็นไปได้ว่าจุดที่ยืนอยู่นั้นผิดเสียเอง
- คำว่า “การขโมยคืออะไร” ถูกลากผ่านมาหลายขั้นตอน แต่สุดท้ายก็เป็นแค่การฉายเจตจำนงออกไปเท่านั้น
  วัตถุที่มีอินเทอร์เฟซ .copy() นั้น นิยามการขโมยไม่ได้ แต่ถ้ามองให้ละเอียด มันก็ยังมีอยู่
  ผู้คนควรปรับความคาดหวัง ไม่ใช่กฎหมาย คอมพิวเตอร์แทนที่แคชเชียร์ไปแล้ว และตอนนี้การแสดงเสียงก็แทนที่นักพากย์เสียง ความดังจริง ๆ แล้วไม่ได้มีความหมายอะไรมาก และถ้ามีแต่คนดังเท่านั้นที่รักษางานไว้ได้ นั่นก็ไม่ยุติธรรมไม่ใช่หรือ
ต่อให้ตัดส่วน AI ออกไป ก็ยังรู้สึกว่านี่อาจเป็นการบิดเบือนความเห็นของ Jeff อย่างรุนแรง หรือใช้ภาพลักษณ์ของเขาโดยไม่ได้รับอนุญาต
การใช้เสียงนั้นสร้าง การรับรองโดยนัยที่ถูกปรุงแต่งขึ้น ให้กับผลิตภัณฑ์ ซึ่งรู้สึกว่าเป็นเรื่องผิดมาก ๆ กฎหมายที่จัดการกรณีแบบนี้น่าจะมีอยู่ตั้งแต่ก่อน AI เกิดขึ้นนานแล้ว
- ช่วงนี้ก็คิดคล้าย ๆ กัน
  ตั้งแต่ก่อนก็มีคนที่เลียนเสียงได้ดี และโดยทั่วไปพวกเขาใช้ความสามารถนั้นเพื่อคอมเมดี้หรือเสียดสี ไม่ใช่เพื่อบิดเบือนความเห็นของคนอื่น ผมไม่ใช่นักกฎหมาย แต่เรื่องนี้น่าจะมีฐานทางกฎหมายที่ค่อนข้างแน่น และการแอบอ้างแทนคนอื่นอย่างผิด ๆ ก็น่าจะจัดการทางกฎหมายได้ค่อนข้างง่าย
  ความแตกต่างคือ การทำให้เป็นประชาธิปไตย จากเดิมที่มีคนเพียงหยิบมือมีความสามารถแบบนี้ กลายเป็นเกือบทุกคนที่มีคอมพิวเตอร์ก็ทำสิ่งคล้ายกันได้ ดังนั้นการบังคับใช้จึงยากขึ้นมาก และถ้าต้องใช้มาตรการทางกฎหมายในการแก้ไข คนอย่าง Jeff Geerling ก็อาจรับภาระไม่ไหว
อาจเป็นผมที่แปลกก็ได้ แต่ผมไม่คิดว่าเสียงนั้นเหมือนเขามากขนาดนั้น
คล้ายอยู่นิดหน่อยแต่ก็แตกต่าง ระดับเสียงสูงกว่าเล็กน้อย มีเสียงขึ้นจมูกมากกว่า และสำเนียงก็แตกต่างไปเล็กน้อย
- ในฐานะคนที่ไม่เคยฟังเขามาก่อน แค่ฟังไม่กี่วินาทีแรกของวิดีโอนี้ ก็ฟังดูคล้ายพอที่จะมองว่าเป็น เสียงโคลน AI ที่ไม่สมบูรณ์ได้
  https://www.youtube.com/watch?v=UMofZIT9FcQ
- ในฐานะคนที่ดูวิดีโอและไลฟ์สดของเขาทั้งหมด ผมคิดว่ามันคล้ายมากจริง ๆ
- ชัดเจนว่ามันฝึกจากเสียงของเขา
  ความแตกต่างด้านสำเนียงและระดับเสียงที่พูดถึง ก็เป็นแค่ความแตกต่างที่เกิดจากการเป็น เสียงที่ AI สร้าง ไม่ใช่คำพูดของมนุษย์
- ผมดูวิดีโอของเขามาหลายร้อยคลิปแล้ว และมันฟังดูคล้ายเขามากจริง ๆ
- เครื่องมือที่ผมรู้จักคือถ้าใส่คลิปเสียงหลายประเภทที่อยากผสมเข้าไป มันจะผสมองค์ประกอบทั้งหมดในนั้นในระดับที่ไม่อาจรู้หรือควบคุมได้ทั้งหมด และยังเพิ่มความสุ่มของระบบเข้าไปด้วย
  ฝั่งนั้นคงจะอธิบายว่าได้ผสมเสียงที่ฟังไพเราะกว่าเข้าไป จนเกิดความแตกต่างมากพอ
  ปัญหาคือใครจะตัดสินว่าต้องต่างแค่ไหนถึงจะพ้นจาก การนำภาพลักษณ์หรือความคล้ายคลึงของเสียงไปใช้โดยมิชอบ “ราชาแห่งเสียงเนิร์ดทั่วไป” อ้างว่าคล้ายกันเกินไป ส่วนฝ่ายที่ถูกสงสัยก็คงไม่เปิดเผยกระบวนการทั้งหมด
  อีกไม่นานการปรับแต่งเสียง AI ด้วยหูก็น่าจะเป็นไปได้ ดังนั้นต่อให้ขอให้ยกเว้นจากการฝึกเพราะเป็นเสียงตัวแทนของสาขาหนึ่ง ๆ ก็ไม่ได้ทำให้ปลอดภัยขึ้น อะไรอย่างหน่วยงานกำกับอำนาจเสียงฟังดูมืดมนมาก
ในฐานะ YouTuber สายเทคโนโลยีรายเล็ก ผมเคยติดต่อกับ Elecrow ด้วย
เท่าที่ผมรู้ พนักงานของหลายบริษัท ไม่ใช่แค่ Elecrow จะได้รับรางวัล การเลื่อนตำแหน่ง หรือค่าคอมมิชชัน หากปิดดีลพาร์ตเนอร์ระยะยาวหรือความร่วมมือทำวิดีโอกับ YouTuber ได้ อาจมีใครบางคนคิดว่าเนื่องจากช่องของ Jeff ค่อนข้างมีชื่อเสียงในวงการนี้ การ โคลนเสียงของ Jeff ก็น่าจะเป็นไอเดียที่ฉลาด
ตอนนี้จากมุมของ Elecrow แน่นอนว่านี่ไม่ใช่การประชาสัมพันธ์ที่ดี และก็สงสัยเหมือนกันว่าพวกเขาจะยอมรับไหมว่าตั้งใจทำ
แนวคิดที่ว่าโทนเสียงที่ขโมยมาจะสำคัญ เป็นหนึ่งในส่วนที่สายตาสั้นที่สุดของการลงทุนใน AI เลย แรงขับเคลื่อนก็คือความคิดแบบ Hollywood ที่ว่า “อย่าสร้างอะไรใหม่เด็ดขาด”
อีกประมาณ 5 ปี เสียง AI จะถูกปรับให้เหมาะกับแต่ละคน และฟังไพเราะกว่าเสียงมนุษย์จริง ๆ ด้วยซ้ำ ไม่ถูกจำกัดด้วยความล้าของเส้นเสียง เปลี่ยนได้ตามใจ และปรับแก้ได้ง่ายจากการสำรวจการมีส่วนร่วมของผู้ใช้
ต่อไปสิ่งสำคัญจะเป็นการ ปรับแต่งเอาต์พุตเสียงอย่างละเอียด แล้วเฝ้าดูการมีส่วนร่วม
- สิ่งที่ถูกขโมยตรงนี้ไม่ใช่ตัวเสียงมากเท่ากับความคล้ายตัวผู้เขียน ชื่อเสียง ที่เขาสั่งสมในสายเทคโนโลยีบน YouTube และความน่าเชื่อถือเกี่ยวกับผลิตภัณฑ์เชิงพาณิชย์ที่เขาเคยรีวิวไว้
  นั่นแหละคือเหตุผลที่พวกเขาเลือกเสียงของเขาโดยเฉพาะ
  เสียง AI อาจแยกไม่ออกในเชิงสุนทรียะ หรืออาจเป็นที่ชอบมากกว่าก็ได้ แต่ไม่สามารถบรรจุชื่อเสียงหรือความจริงใจไว้ได้ สิ่งเหล่านั้นมีคุณค่าเพราะโดยแก่นแล้วมันหายาก ตรงกันข้าม ในทะเลของคอนเทนต์คุณภาพต่ำที่ถูกทำให้เป็นสินค้าทั่วไป ความต้องการคนที่มีคุณค่าแบรนด์เฉพาะตัวอาจไม่ลดลง แต่เพิ่มขึ้นด้วยซ้ำ นั่นก็เป็นเหตุผลที่ทุกวันนี้อินฟลูเอนเซอร์ทำเงินก้อนใหญ่จากโฆษณาได้
- “เพื่อวัตถุประสงค์ด้านการประกันคุณภาพและการฝึกอบรม การโทรนี้อาจถูกตรวจสอบหรือบันทึกเสียง”
  “การฝึกอบรม” เนี่ยนะ
- ไม่แน่ใจด้วยซ้ำว่าจะต้องใช้เวลาถึง 5 ปีไหม เคยทดสอบ elevenlabs หรือยัง?
  ตอนนี้ก็มีเทคนิคโคลนเสียงหลายแบบที่เริ่มจากอินพุตเสียง 30 วินาทีแล้ว แบบ 30 วินาทีจะคล้ายเสียงเป้าหมายในระดับหนึ่งแต่ยังไม่เหมือนเป๊ะ ส่วนถ้าใส่เสียงหลายชั่วโมงเข้าไปก็จะฟังเหมือนคนจริง ๆ นอกจากนี้ยังปรับเสียงด้วยพารามิเตอร์บางอย่างได้ หรือสร้างเสียงใหม่จากการกำหนดพารามิเตอร์ล้วน ๆ ก็ได้
  เสียงในวิดีโอ เมื่อดูจากคุณภาพแล้ว อาจเป็นเสียง “โคลนทันที” ที่สร้างจากอินพุตไม่กี่วินาที หากต้องการโคลนขั้นสูงกว่านั้น ต้องมีหลักฐานว่าเป็นเสียงของตัวเอง
  [1] https://elevenlabs.io
- ผมเดิมพันระยะยาวกับมนุษย์อยู่ และคิดว่าในฐานะปฏิกิริยาตอบโต้ต่อการแพร่กระจายล้นเกินของคอนเทนต์ที่สร้างโดย AI หลายคนน่าจะเริ่มชอบ ความไม่สมบูรณ์แบบ
- ประเทศเรามีการพากย์เยอะ และมีนักพากย์ที่ผู้คนนับล้านโตมากับเสียงของพวกเขาในอนิเมชันและอื่น ๆ
  ในสถานการณ์แบบนั้น บริษัทต่าง ๆ อาจอยากซื้อเสียงของพวกเขา ไม่ใช่แค่เรื่องฟังเพราะ แต่คุณค่าของ ความคุ้นเคย นั้นสูงมาก ตัวอย่างเช่น ElevenLabs เคยซื้อสิทธิ์เสียงของผู้เสียชีวิตจากครอบครัวของพวกเขาด้วย
  แต่ถ้าไม่นับบริบทพิเศษที่เจือด้วยความคิดถึงแบบนี้ ก็ไม่เห็นเหตุผลว่าทำไมถึงไม่สร้างเสียงสังเคราะห์ขึ้นมาตั้งแต่ต้น
ทุกคนคงมองเป็นเรื่องสนุก จนกว่าจะมีใครสักคนสร้างเสียงบันทึกที่ดูเหมือนอีกคนยอมรับอาชญากรรม แล้วมันถูกนำไปใช้ในศาล
นี่แหละคือส่วนของ AI ที่ผมไม่ชอบ
- ช่วงไม่กี่ปีแรกคงแย่ แต่สักวันหนึ่งมันอาจถูกปรับแต่งได้ง่ายเกินไปจน รับเป็นพยานหลักฐานในศาลไม่ได้ ไม่ใช่หรือ?
  แต่ถ้าพยานหลักฐานวิดีโอและเสียงใช้ไม่ได้แล้ว เราควรทำอย่างไรต่อ
- แย่กว่านั้นอีก ผู้คนจะเริ่มอ้างว่าเสียงบันทึกจริงที่เป็นผลเสียต่อตัวเองก็เป็นของปลอม
  แต่ทั้งสองกรณีดูเหมือนจะสำคัญใน ศาลแห่งความคิดเห็นสาธารณะ มากกว่าในศาลจริง
- ถ้าไม่ได้เกลียดโปรแกรมแก้ไขภาพด้วย ผมก็ไม่ค่อยเข้าใจประเด็นนี้
  เวลาประเมินเทคโนโลยีใหม่ที่มีประโยชน์ การรักษารูปแบบหลักฐานไว้คงไม่ใช่ประเด็นหลักที่ต้องสนใจ
ในเมื่อมีเครื่องมือโคลนเสียงเป็นร้อย ๆ ตัว การมี คอนเทนต์เสียงโคลน ออกมาก็เป็นเรื่องธรรมดา
คล้ายกับกรณีที่มีคนใช้ภาพลักษณ์ของผู้อื่นโดยไม่ได้รับอนุญาต แพลตฟอร์มและทีมปฏิบัติการมีกระบวนการแจ้งรายงานและลบอยู่แล้ว ดูเหมือนว่าเสียงก็ควรมีสิ่งที่คล้ายกัน

เสียงของฉันที่ถูก AI ขโมยไป

เสียงที่คล้ายกับ Jeff Geerling ที่ได้ยินในวิดีโอของ Elecrow

ข้อสงสัยเรื่องการโคลนเสียงด้วย AI และการตอบสนอง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News