เสียงของฉันที่ถูก AI ขโมยไป
(jeffgeerling.com)- Jeff Geerling พบว่าเสียงบรรยายในวิดีโอสอนเชิงโปรโมตบน YouTube ของ Elecrow คล้ายกับเสียงของเขามาก แต่เขา ไม่เคยพูดประโยคเหล่านั้นด้วยตัวเอง
- ดูเหมือนว่าเสียงที่เป็นปัญหาถูกใช้ในวิดีโอหลายซีรีส์เกี่ยวกับ ESP32 และ RP2040 และ Jeff สงสัยว่าวิดีโอ YouTube ของเขาอาจถูกนำไปใช้กับ เครื่องมือโคลนเสียง AI
- Elecrow เป็นบริษัทที่ผลิตอุปกรณ์เสริม Raspberry Pi และอุปกรณ์อิเล็กทรอนิกส์ อีกทั้ง Jeff เคยรีวิว CrowPi 2 มาก่อน ทำให้บริบทความสัมพันธ์ซับซ้อนกว่าข้อพิพาทกับผู้รับเหมาภายนอกทั่วไป
- แม้บรรทัดฐานทางกฎหมายเกี่ยวกับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาตยังไม่ชัดเจน แต่ประเด็นการใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอมนั้นเชื่อมโยงกับคดี Midler vs. Ford
- ก่อนจะยื่นคำขอลบหรือดำเนินการทางกฎหมาย Jeff ได้ส่งอีเมลถึง Elecrow เพื่อขอคำอธิบายและให้ลบวิดีโอออก และมองว่าบริษัทควรแก้ปัญหาด้วยการจ้างนักพากย์หรือร่วมงานกันอย่างเป็นทางการ
เสียงที่คล้ายกับ Jeff Geerling ที่ได้ยินในวิดีโอของ Elecrow
- Jeff Geerling ได้ฟัง คลิป YouTube หนึ่งของ Elecrow แล้วเห็นว่าเสียงบรรยายฟังดู คุ้นหูอย่างมาก เหมือนเสียงของเขา
- วิดีโอนี้ไม่ใช่วิดีโอจาก ช่อง Jeff Geerling แต่เป็นวิดีโอของ Elecrow และ Jeff ไม่เคยพูดประโยคในนั้น
- มีคนส่งลิงก์วิดีโอของ Elecrow ทางอีเมลมาบอกว่าเสียงฟังดูแปลก และ Jeff มองว่าเพราะช่องของเขาก็ทำเนื้อหาในหัวข้อเดียวกัน ผู้ชมบางส่วนอาจคิดว่าเขา ยินยอมให้ใช้เสียง ในวิดีโอของ Elecrow
- Elecrow เป็นบริษัทที่ผลิตอุปกรณ์อิเล็กทรอนิกส์และอุปกรณ์เสริม Raspberry Pi และ Jeff เคยรีวิว CrowPi 2 ของ Elecrow มาก่อน
- ก่อนหน้านี้เขาไม่ได้มีความสัมพันธ์ที่ไม่ดีกับ Elecrow ดังนั้น Jeff จึงยังไม่มั่นใจ 100% ว่าเรื่องนี้เป็นการกระทำโดยเจตนาหรือไม่
- ใน เวอร์ชันวิดีโอ ของบทความนี้ สามารถเปรียบเทียบคลิปของ Elecrow กับเสียงตามธรรมชาติของ Jeff ได้โดยตรง
ข้อสงสัยเรื่องการโคลนเสียงด้วย AI และการตอบสนอง
- แม้ Jeff จะตั้งเงื่อนไขไว้ว่าพิสูจน์ได้ยาก แต่เขามองว่ามีความเป็นไปได้สูงที่ Elecrow จะนำวิดีโอ YouTube ของเขาไปใส่ใน เครื่องมือโคลนเสียง AI บางอย่าง แล้วใช้เสียงนั้นบรรยายวิดีโอสอนเชิงโปรโมตหลายรายการ
- ยกตัวอย่างเช่น ซีรีส์ ESP32 และ ซีรีส์ RP2040
- หลังจาก เหตุการณ์ที่ OpenAI แทบจะโคลนเสียงของ Scarlett Johansson เขาคาดว่าบริษัทต่าง ๆ จะระมัดระวังมากขึ้นกับเสียง AI สำหรับเดโมผลิตภัณฑ์หรือวิดีโอสอน แต่กรณีนี้กลับสวนทางกับความคาดหวังนั้น
- เท่าที่ Jeff ทราบ ยังไม่มี บรรทัดฐานทางกฎหมาย ที่ชัดเจนสำหรับการโคลนเสียงด้วย AI โดยไม่ได้รับอนุญาต แต่เขาอ้างถึง Midler vs. Ford เป็นบรรทัดฐานว่าห้ามใช้เสียงของผู้อื่นในงานเชิงพาณิชย์โดยไม่ได้รับความยินยอม
- การตอบโต้ผ่านทนายมีค่าใช้จ่าย และก็ยังไม่แน่ชัดว่าการโคลนเสียงโดยไม่ได้รับความยินยอมละเมิดข้อกำหนดการให้บริการของ YouTube หรือไม่
- ข้อเรียกร้องของ Jeff ชัดเจน
- ห้ามขโมย เสียงหรือภาพลักษณ์ ของผู้อื่นไปติดกับผลิตภัณฑ์หรือวิดีโอ
- แบรนด์ควรจ้างนักพากย์ หรือจ่ายเงินให้ครีเอเตอร์เพื่อร่วมงานกัน
- Jeff ส่งอีเมลถึง Elecrow ขอให้ลบอย่างน้อย 2 ซีรีส์ที่มีเสียง AI คล้ายกับเขาออก
- เขาถามว่าเสียงนั้นถูกทำให้คล้ายกับเขาโดยเจตนาหรือไม่
- และขอให้ยืนยันด้วยว่าได้นำวิดีโอหรือคอนเทนต์เสียงของเขาไปฝึกเสียงหรือไม่
- เขาต้องการเริ่มด้วยอีเมลก่อนยื่นคำขอลบบน YouTube หรือดำเนินการทางกฎหมาย และยังเปิดความเป็นไปได้ว่าอาจเป็นความผิดพลาดโดยสุจริต เนื่องจากที่ผ่านมาไม่เคยมีปัญหากัน
- อย่างไรก็ตาม เป็นที่ชัดเจนว่า Elecrow รู้จักช่องของ Jeff
- ตั้งแต่ปี 2020 จนถึงปัจจุบัน มีอีเมลที่เขาแลกเปลี่ยนกับเจ้าหน้าที่การตลาดของ Elecrow 5 คนมากกว่า 43 ฉบับ
- ในจำนวนนั้น 22 ฉบับเป็นอีเมลในปีนี้
- เมื่อวันที่ 2 เมษายน 2024 เจ้าหน้าที่การตลาดของ Elecrow ส่งอีเมลมาว่าต้องการหารือเรื่องพาร์ตเนอร์ชิปแบบมีค่าใช้จ่าย
- ในอัปเดตวันที่ 23 กันยายน CEO ของ Elecrow ได้ตอบกลับ และ Jeff ได้โพสต์บทความติดตามที่มีทั้งคำตอบนั้นและความเห็นของเขาเกี่ยวกับการโคลนเสียงด้วย AI
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ความกลัวต่อ AI ของแต่ละคนอาจต่างกัน แต่สิ่งที่น่ากลัวเป็นพิเศษคือกรณีที่ ใช้ AI ปลอมให้ดูเหมือนว่าใครบางคนพูดจาหมิ่นศาสนา
ในประเทศของผม แค่ดูเหมือนเป็นการดูหมิ่นเล็กน้อยมาก ๆ ไม่ว่าจะจริงหรือจินตนาการขึ้น ก็มี ฝูงชนรุมประชาทัณฑ์ในข้อหาหมิ่นศาสนา เกิดขึ้นแล้ว พวกเขาจะกรูกันมา รุมทำร้าย เผาศพ จากนั้นขณะที่ครอบครัวต้องหลบซ่อนและอัดวิดีโอประกาศปฏิเสธเหยื่อพร้อมให้อภัยฝูงชน พวกฝูงชนก็แบ่งขนมหวานกันกิน
เรื่องนี้เกิดขึ้นอยู่แล้วตั้งแต่ก่อนที่ AI จะเข้าถึงได้ง่าย อาจพูดได้ว่าเป็น “เรื่องของประเทศล้าหลัง” แต่จะไม่หยุดอยู่แค่นั้น มันจะแพร่กระจายออกไป เราโทษทารกที่เอามีดไปให้ถือแล้วแทงคนไม่ได้
เรื่องนี้ไม่เกี่ยวกับชื่อเสียง ความปลอดภัย หรือ copyright แต่มันทำให้คนตายได้ และไม่มีเครื่องมือควบคุม
https://x.com/search?q=blasphemy
ผมกลัวอนาคต
ถ้ายังคงถูกจำกัด ถูกควบคุม หรือเข้าถึงยาก ผู้คนก็จะยังคิดต่อไปว่าวิดีโอและเสียงบันทึกนั้นปลอมแปลงไม่ได้ แต่ถ้าทำให้การโคลนเสียงด้วยแอป 1 ดอลลาร์เป็นเรื่องง่ายและเป็นมุกเล่นสนุก ๆ แล้วปล่อยให้วัยรุ่นลองโทรแกล้งกัน ไม่นานมันก็จะฝังอยู่ในการรับรู้ของสาธารณะ
สัปดาห์ที่แล้ว แม่ผมวัย 70 ถามว่าควรลบข้อความทักทายในวอยซ์เมลไหม เพราะกลัวว่าจะมีคนใช้มันขโมยเสียงของเธอได้ ผมแปลกใจมาก น่าจะได้ยินมาจากช่องอย่าง Fox
คงลำบากอยู่หลายปี แต่หวังว่ามันจะผ่านไปเร็ว
ตอนนี้ ถ้าเป็นผู้ใช้ที่มีคอมเมนต์อยู่พอสมควร ก็น่าจะสามารถ เปิดเผยตัวตนนิรนาม ได้ด้วยการวิเคราะห์ความสัมพันธ์ ถึงจะไม่แม่น 100% ก็ยังขโมยสำนวนการพูดได้ อาจเป็นแค่ความระแวดระวัง แต่ไม่มีอะไรรับประกันว่าเราจะไม่เดินเข้าสู่ป่ามืด และก็มีเหตุผลให้เชื่อได้ว่าเรากำลังมุ่งไปทางนั้น
ในขณะเดียวกัน ผมก็คิดอยู่ว่าการไม่ถอยกลับเข้าเงามืดอาจเป็นท่าทีของการไม่ยอมแพ้หรือเปล่า
คล้ายกับในโซเชียลมีเดียอย่าง Reddit ที่เคยมีการ “ตามหาตัวคนผิด” หรือ “เปิดเผยข้อมูลส่วนตัว” อยู่หลายปี ก่อนที่ผู้ดูแลจะตระหนักว่าฝูงชนออนไลน์มักผิดพลาดบ่อย และมักสั่งห้ามในที่สุด
แต่จนกว่าจะมีกฎหมายผ่าน หรือจนกว่าความเข้าใจว่าโอกาสที่วิดีโอจะปลอมมีมากกว่าจริงกลายเป็นสามัญสำนึก คนจำนวนมากจะได้รับความเสียหาย อาจใช้เวลามากกว่า 5 ปีด้วยซ้ำ และปัญหาคือโดยทั่วไปกฎหมายมักถูกสร้างขึ้นหลังจากพิสูจน์ได้แล้วว่ามีคนได้รับความเสียหาย
ผมไม่เห็นว่าการใช้ AI จะทำให้หลีกเลี่ยงบรรทัดฐานคดี Midler vs. Ford ได้อย่างไร
กลับกัน ถ้าไม่ได้ให้นักพากย์คนอื่นมาเลียนเสียง แต่ใช้ AI โคลนเสียง เหตุผลในการป้องกันตัวยิ่งดูอ่อนลง
ในรัฐอื่น ๆ หลายแห่ง กฎหมายและคำพิพากษาที่เกี่ยวกับสิ่งที่เรียกว่าสิทธิในชื่อเสียงและภาพลักษณ์ยังแตกกระจัดกระจายกันไป การจะยอมรับแนวคิดนั้นและกำหนดขอบเขตหรือไม่ และจะทำอย่างไร ยังห่างไกลจากฉันทามติทั่วไปในหมู่รัฐต่าง ๆ
“...ข้อสังเกตนี้ใช้กับการร้องเพลง โดยเฉพาะการร้องเพลงของนักร้องชื่อดัง นักร้องเผยตัวตนของตนผ่านบทเพลง การแอบอ้างเสียงของเธอคือการปล้นอัตลักษณ์ของเธอ...”
“เราไม่จำเป็นต้องตัดสิน และไม่ได้ตัดสินว่า การเลียนเสียงทุกกรณีเพื่อโฆษณาสินค้าจะเป็นเหตุให้ฟ้องร้องได้ เราตัดสินเพียงว่า เมื่อผู้ขายจงใจเลียนแบบเสียงอันโดดเด่นของนักร้องอาชีพที่เป็นที่รู้จักอย่างกว้างขวางเพื่อขายสินค้า ผู้ขายได้ยึดเอาสิ่งที่ไม่ใช่ของตนมาใช้...”
ขอบคุณที่ชี้บรรทัดฐานคดีให้ แต่บรรทัดฐานเป็นเพียงจุดเริ่มต้น และสุดท้ายเราต้องสร้าง หลักการที่ไปไกลกว่าบรรทัดฐานคดี
เมื่อเทคโนโลยีนำความสามารถที่ไม่เคยมีมาก่อนเข้ามา สังคมก็ต้องขีดเส้นแบ่งให้มันทำงานเป็นประโยชน์ต่อผู้คน ไม่ใช่เป็นโทษต่อพวกเขา หรือไม่ก็ปล่อยให้เราเข้าใกล้โลกที่ผู้แข็งแกร่งทำอะไรก็ได้ตามใจ ส่วนผู้ที่อ่อนแอหรือคนที่พอมีรถ Camry ขับต้องเป็นฝ่ายแบกรับมากขึ้น
ยังอยู่ระหว่างการพัฒนาในสภาผู้แทนราษฎร แต่ได้รับการสนับสนุนจากทั้งสองพรรค คุณสามารถติดต่อ ส.ส. เขตของคุณและขอให้ร่วมเสนอร่างหรือโหวตสนับสนุนได้
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
ต้องหาองค์กรไม่แสวงหากำไรทางการเมืองอย่าง ACLU ที่จะออกค่าใช้จ่ายในการอุทธรณ์ซ้ำ ๆ ให้ และระหว่างนั้นก็ต้องทนรับข่าวเชิงลบกับความสนใจจากสื่อ
ผมเห็นด้วยอย่างยิ่งว่าชนชั้นระดับ Camry ต้องมีผู้สนับสนุน แต่หนึ่งในหลักการสำคัญของการปฏิบัติสมัยใหม่คือ ต้องปล่อยให้ผู้คนเลือกระดับการมีส่วนร่วมที่ตนรับไหว ส่งเสริม ยกย่อง และให้กำลังใจ แต่อย่าทำให้อับอาย
อย่างไรก็ตาม แค่บทความบล็อกนี้ก็น่าจะเพียงพอแล้ว คนที่เข้าข้างการขโมยเสียงมนุษย์มีน้อยมาก และต่างจากการกวาดคลังข้อมูล NYT หรือ deviantart มาเป็นข้อมูลฝึก มันให้ความรู้สึกไม่สบายใจอย่างชัดเจนในเชิงสัญชาตญาณ การประจานต่อสาธารณะคงไม่ได้ทำให้ได้ค่าเสียหายก้อนใหญ่ แต่ก็ดูเหมือนไม่ใช่สิ่งที่ต้องการอยู่แล้ว
ถ้าโมเดลภาษาขนาดใหญ่คือเครื่องรีมิกซ์ขั้นสุดยอด ก็อดคิดไม่ได้ว่าใครก็ตามที่มีการสร้างคำตอบเสริมด้วยการค้นคืน (RAG) ก็คงเป็นดีเจดิจิทัลหรือเปล่า
ในโลกข้อมูลดิจิทัล แม้แต่คำว่า การขโมยคืออะไร ก็ยิ่งยากจะรู้แล้ว เพราะบรรทัดฐานทางกฎหมายยังมีน้อย จึงรู้สึกเหมือนยุคบุกเบิกตะวันตกของกฎหมายทรัพย์สินทางปัญญาและลิขสิทธิ์
ถ้าแม้แต่ซูเปอร์สตาร์อย่าง Scarlett Johansson ยังทำได้แค่เขียนจดหมายที่เจ็บปวดถึงเรื่องที่ OpenAI พยายามเลียนแบบบุคลิกจาก “Her” แล้วคนธรรมดา ๆ ในวงเฉพาะกลุ่มจะทำอะไรได้
ก็คงทำได้ประมาณเดียวกับ Geerling คือทั้งเศร้า โกรธ และผิดหวัง แล้วพูดว่า “ขอเถอะ ช่วยทำตามกติกาแห่งเกียรติยศด้วยเจตนาดีหน่อย”
ในกรณีนั้น ก็สามารถใช้ชื่อเสียงนั้นเอาคืนได้เช่นกัน เช่น ยากจะจินตนาการว่าเรื่องนี้จะส่งผลดีต่อชื่อเสียงของ Elecrow ในที่สุด ครั้งหน้าที่เห็นชื่อบริษัทนี้ ก็คงนึกว่า “อ๋อ บริษัทที่หลอกคนอื่นนั่นเอง” ซึ่งไม่เป็นผลดีกับพวกเขา
สิ่งที่น่ากังวลกว่าคือการใช้เพื่อกำจัดคนที่ไม่ชอบ เช่น ลองนึกภาพอาจารย์มหาวิทยาลัยที่ไม่ได้ทำอะไรผิด แต่มีนักศึกษาที่ไม่พอใจเกรดใช้การโคลนเสียงทำให้เหมือนว่าอาจารย์พูดบางอย่างที่ทำให้ถูกไล่ออกได้ ถ้าการโคลนเสียงดีขึ้นมาก ๆ คนแบบนั้นจะปกป้องตัวเองได้อย่างไร คงยากจนกว่ามันจะแพร่หลายจนตัวบันทึกเสียงเองไม่น่าเชื่อถืออีกต่อไป
การขโมยต้องมีเงื่อนไขว่าเหยื่อต้องสูญเสียประโยชน์จากของที่ถูกขโมยไป การคัดลอก-วางเพียงแต่พังระบบบ้านไพ่ที่ใช้ข่มขู่คนด้วยคุกและความยากจน หากพวกเขาใช้มีมที่ถูกอ้างสิทธิ์แล้วไม่จ่ายเงิน
ถ้าได้เป็นคณะลูกขุนในคดีละเมิดลิขสิทธิ์ที่จำเลยเป็นมนุษย์ ไม่ใช่บริษัท ก็จะตัดสินให้เป็นการลบล้างโดยคณะลูกขุนทั้งหมด
Eric Schmidt เพิ่งไม่ได้พูดหรือว่าให้ขโมยไปก่อน แล้วถ้าประสบความสำเร็จค่อยให้ทนายจัดการทีหลัง?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] พูดให้ตรงคือเขาหมายถึงให้ขโมยอย่างถูกกฎหมาย แต่ก็ไม่รู้เหมือนกันว่านั่นหมายความว่าอะไร
ถ้าโลกยังคงกระโดดและเตะจากข้างล่างเพื่อให้ตกลงมา ก็อาจเป็นไปได้ว่าจุดที่ยืนอยู่นั้นผิดเสียเอง
วัตถุที่มีอินเทอร์เฟซ
.copy()นั้น นิยามการขโมยไม่ได้ แต่ถ้ามองให้ละเอียด มันก็ยังมีอยู่ผู้คนควรปรับความคาดหวัง ไม่ใช่กฎหมาย คอมพิวเตอร์แทนที่แคชเชียร์ไปแล้ว และตอนนี้การแสดงเสียงก็แทนที่นักพากย์เสียง ความดังจริง ๆ แล้วไม่ได้มีความหมายอะไรมาก และถ้ามีแต่คนดังเท่านั้นที่รักษางานไว้ได้ นั่นก็ไม่ยุติธรรมไม่ใช่หรือ
ต่อให้ตัดส่วน AI ออกไป ก็ยังรู้สึกว่านี่อาจเป็นการบิดเบือนความเห็นของ Jeff อย่างรุนแรง หรือใช้ภาพลักษณ์ของเขาโดยไม่ได้รับอนุญาต
การใช้เสียงนั้นสร้าง การรับรองโดยนัยที่ถูกปรุงแต่งขึ้น ให้กับผลิตภัณฑ์ ซึ่งรู้สึกว่าเป็นเรื่องผิดมาก ๆ กฎหมายที่จัดการกรณีแบบนี้น่าจะมีอยู่ตั้งแต่ก่อน AI เกิดขึ้นนานแล้ว
ตั้งแต่ก่อนก็มีคนที่เลียนเสียงได้ดี และโดยทั่วไปพวกเขาใช้ความสามารถนั้นเพื่อคอมเมดี้หรือเสียดสี ไม่ใช่เพื่อบิดเบือนความเห็นของคนอื่น ผมไม่ใช่นักกฎหมาย แต่เรื่องนี้น่าจะมีฐานทางกฎหมายที่ค่อนข้างแน่น และการแอบอ้างแทนคนอื่นอย่างผิด ๆ ก็น่าจะจัดการทางกฎหมายได้ค่อนข้างง่าย
ความแตกต่างคือ การทำให้เป็นประชาธิปไตย จากเดิมที่มีคนเพียงหยิบมือมีความสามารถแบบนี้ กลายเป็นเกือบทุกคนที่มีคอมพิวเตอร์ก็ทำสิ่งคล้ายกันได้ ดังนั้นการบังคับใช้จึงยากขึ้นมาก และถ้าต้องใช้มาตรการทางกฎหมายในการแก้ไข คนอย่าง Jeff Geerling ก็อาจรับภาระไม่ไหว
อาจเป็นผมที่แปลกก็ได้ แต่ผมไม่คิดว่าเสียงนั้นเหมือนเขามากขนาดนั้น
คล้ายอยู่นิดหน่อยแต่ก็แตกต่าง ระดับเสียงสูงกว่าเล็กน้อย มีเสียงขึ้นจมูกมากกว่า และสำเนียงก็แตกต่างไปเล็กน้อย
https://www.youtube.com/watch?v=UMofZIT9FcQ
ความแตกต่างด้านสำเนียงและระดับเสียงที่พูดถึง ก็เป็นแค่ความแตกต่างที่เกิดจากการเป็น เสียงที่ AI สร้าง ไม่ใช่คำพูดของมนุษย์
ฝั่งนั้นคงจะอธิบายว่าได้ผสมเสียงที่ฟังไพเราะกว่าเข้าไป จนเกิดความแตกต่างมากพอ
ปัญหาคือใครจะตัดสินว่าต้องต่างแค่ไหนถึงจะพ้นจาก การนำภาพลักษณ์หรือความคล้ายคลึงของเสียงไปใช้โดยมิชอบ “ราชาแห่งเสียงเนิร์ดทั่วไป” อ้างว่าคล้ายกันเกินไป ส่วนฝ่ายที่ถูกสงสัยก็คงไม่เปิดเผยกระบวนการทั้งหมด
อีกไม่นานการปรับแต่งเสียง AI ด้วยหูก็น่าจะเป็นไปได้ ดังนั้นต่อให้ขอให้ยกเว้นจากการฝึกเพราะเป็นเสียงตัวแทนของสาขาหนึ่ง ๆ ก็ไม่ได้ทำให้ปลอดภัยขึ้น อะไรอย่างหน่วยงานกำกับอำนาจเสียงฟังดูมืดมนมาก
ในฐานะ YouTuber สายเทคโนโลยีรายเล็ก ผมเคยติดต่อกับ Elecrow ด้วย
เท่าที่ผมรู้ พนักงานของหลายบริษัท ไม่ใช่แค่ Elecrow จะได้รับรางวัล การเลื่อนตำแหน่ง หรือค่าคอมมิชชัน หากปิดดีลพาร์ตเนอร์ระยะยาวหรือความร่วมมือทำวิดีโอกับ YouTuber ได้ อาจมีใครบางคนคิดว่าเนื่องจากช่องของ Jeff ค่อนข้างมีชื่อเสียงในวงการนี้ การ โคลนเสียงของ Jeff ก็น่าจะเป็นไอเดียที่ฉลาด
ตอนนี้จากมุมของ Elecrow แน่นอนว่านี่ไม่ใช่การประชาสัมพันธ์ที่ดี และก็สงสัยเหมือนกันว่าพวกเขาจะยอมรับไหมว่าตั้งใจทำ
แนวคิดที่ว่าโทนเสียงที่ขโมยมาจะสำคัญ เป็นหนึ่งในส่วนที่สายตาสั้นที่สุดของการลงทุนใน AI เลย แรงขับเคลื่อนก็คือความคิดแบบ Hollywood ที่ว่า “อย่าสร้างอะไรใหม่เด็ดขาด”
อีกประมาณ 5 ปี เสียง AI จะถูกปรับให้เหมาะกับแต่ละคน และฟังไพเราะกว่าเสียงมนุษย์จริง ๆ ด้วยซ้ำ ไม่ถูกจำกัดด้วยความล้าของเส้นเสียง เปลี่ยนได้ตามใจ และปรับแก้ได้ง่ายจากการสำรวจการมีส่วนร่วมของผู้ใช้
ต่อไปสิ่งสำคัญจะเป็นการ ปรับแต่งเอาต์พุตเสียงอย่างละเอียด แล้วเฝ้าดูการมีส่วนร่วม
นั่นแหละคือเหตุผลที่พวกเขาเลือกเสียงของเขาโดยเฉพาะ
เสียง AI อาจแยกไม่ออกในเชิงสุนทรียะ หรืออาจเป็นที่ชอบมากกว่าก็ได้ แต่ไม่สามารถบรรจุชื่อเสียงหรือความจริงใจไว้ได้ สิ่งเหล่านั้นมีคุณค่าเพราะโดยแก่นแล้วมันหายาก ตรงกันข้าม ในทะเลของคอนเทนต์คุณภาพต่ำที่ถูกทำให้เป็นสินค้าทั่วไป ความต้องการคนที่มีคุณค่าแบรนด์เฉพาะตัวอาจไม่ลดลง แต่เพิ่มขึ้นด้วยซ้ำ นั่นก็เป็นเหตุผลที่ทุกวันนี้อินฟลูเอนเซอร์ทำเงินก้อนใหญ่จากโฆษณาได้
“การฝึกอบรม” เนี่ยนะ
ตอนนี้ก็มีเทคนิคโคลนเสียงหลายแบบที่เริ่มจากอินพุตเสียง 30 วินาทีแล้ว แบบ 30 วินาทีจะคล้ายเสียงเป้าหมายในระดับหนึ่งแต่ยังไม่เหมือนเป๊ะ ส่วนถ้าใส่เสียงหลายชั่วโมงเข้าไปก็จะฟังเหมือนคนจริง ๆ นอกจากนี้ยังปรับเสียงด้วยพารามิเตอร์บางอย่างได้ หรือสร้างเสียงใหม่จากการกำหนดพารามิเตอร์ล้วน ๆ ก็ได้
เสียงในวิดีโอ เมื่อดูจากคุณภาพแล้ว อาจเป็นเสียง “โคลนทันที” ที่สร้างจากอินพุตไม่กี่วินาที หากต้องการโคลนขั้นสูงกว่านั้น ต้องมีหลักฐานว่าเป็นเสียงของตัวเอง
[1] https://elevenlabs.io
ในสถานการณ์แบบนั้น บริษัทต่าง ๆ อาจอยากซื้อเสียงของพวกเขา ไม่ใช่แค่เรื่องฟังเพราะ แต่คุณค่าของ ความคุ้นเคย นั้นสูงมาก ตัวอย่างเช่น ElevenLabs เคยซื้อสิทธิ์เสียงของผู้เสียชีวิตจากครอบครัวของพวกเขาด้วย
แต่ถ้าไม่นับบริบทพิเศษที่เจือด้วยความคิดถึงแบบนี้ ก็ไม่เห็นเหตุผลว่าทำไมถึงไม่สร้างเสียงสังเคราะห์ขึ้นมาตั้งแต่ต้น
ทุกคนคงมองเป็นเรื่องสนุก จนกว่าจะมีใครสักคนสร้างเสียงบันทึกที่ดูเหมือนอีกคนยอมรับอาชญากรรม แล้วมันถูกนำไปใช้ในศาล
นี่แหละคือส่วนของ AI ที่ผมไม่ชอบ
แต่ถ้าพยานหลักฐานวิดีโอและเสียงใช้ไม่ได้แล้ว เราควรทำอย่างไรต่อ
แต่ทั้งสองกรณีดูเหมือนจะสำคัญใน ศาลแห่งความคิดเห็นสาธารณะ มากกว่าในศาลจริง
เวลาประเมินเทคโนโลยีใหม่ที่มีประโยชน์ การรักษารูปแบบหลักฐานไว้คงไม่ใช่ประเด็นหลักที่ต้องสนใจ
ในเมื่อมีเครื่องมือโคลนเสียงเป็นร้อย ๆ ตัว การมี คอนเทนต์เสียงโคลน ออกมาก็เป็นเรื่องธรรมดา
คล้ายกับกรณีที่มีคนใช้ภาพลักษณ์ของผู้อื่นโดยไม่ได้รับอนุญาต แพลตฟอร์มและทีมปฏิบัติการมีกระบวนการแจ้งรายงานและลบอยู่แล้ว ดูเหมือนว่าเสียงก็ควรมีสิ่งที่คล้ายกัน