Diapositiva anterior
Diapositiva siguiente
Diapositiva anterior
Diapositiva siguiente

Máquinas de éxitos, ¿el desastroso ascenso de la música con IA?

La música hecha por IA está en sus primeras etapas, pero desde las peleas por la clonación de voces hasta las inminentes disputas de derechos de autor y una posible ola de música no producida por humanos en las plataformas, ya parece todo un campo de batalla

Por  BRIAN HIATT

agosto 16, 2023

ILUSTRACIÓN DE IA POR BIA AI & TOMER HANUKA

Para la edición de este año de El futuro de la música, Rolling Stone profundizó en los artistas, las tendencias y la tecnología que dan forma a la música del mañana, desde la inteligencia artificial que redefine cómo se hacen las canciones hasta un orbe multimillonario en Las Vegas que podría cambiar la manera en la que experimentamos los conciertos; un vistazo bastante emocionante de lo que se viene, en nuestra opinión.

***

Para Benoit Carré, el futuro se le reveló en seis notas. En 2015, Carré, un compositor intelectual y con gafas, que entonces tenía más de 40 años, se convirtió en el artista residente del Laboratorio de informática de Sony en París. Allí fue guiado por su amigo Francois Paçhet, compositor y destacado investigador de inteligencia artificial, quien estaba desarrollando algunas de las herramientas de composición musical por IA más avanzadas del mundo, y quería probarlas. El primer proyecto lanzado por el dúo fue una imitación de los Beatles, compuesta principalmente por IA, ‘Daddy’s Car’, la cual fue noticia internacional en 2016 como un hito tecnológico. Pero Carré buscaba algo más profundo, algo nuevo.

“Siempre me ha interesado la música con cambios de acordes inesperados, melodías inesperadas”, comenta Carré. “También siempre he buscado ese tipo de sorpresas en mi propio trabajo, y eso significa perder el control en algún punto”. Poco después de la canción beatlesca, un día en el laboratorio, Carré alimentó un software de IA llamado Flow Machines con las partituras de 470 estándares de jazz diferentes. A medida que comenzó a generar nuevas composiciones basadas en esa información, una breve melodía cautivó a Carré, retumbando en su cabeza por días.

Esas notas se convirtieron en el núcleo de una canción genuinamente extraña, novedosa e inquietante: ‘Ballad of the Shadow’. Carré decidió que la IA se había fusionado con él para crear un nuevo artista, una combinación que nombró Skygge. La canción se convirtió en una pista del primer álbum compuesto por IA, Hello World (acreditado a Skygge), que recibió una publicidad decente, pero que no trascendió los límites artísticos de la cultura pop.

Cinco años después, la IA es el tema más discutido en la música, en gran parte gracias a una canción mucho más grande y a un uso diferente de la tecnología. En 2022, un grupo de investigadores comenzó a trabajar en una herramienta de código abierto conocida como SoftVC VITS Singing Voice Conversion.

Basándose en un software más primitivo que permitía a los usuarios generar versos de rap con, digamos, la voz de Eminem, al ingresar palabras en una interfaz, SVC permite la transformación de una voz en otra, de manera cada vez más convincente. Y a principios de 2023, las versiones de canciones hechas con esta herramienta inundaron TikTok. Pero toda nueva tecnología musical necesita un gran éxito, y para la clonación de voz de IA, este llegaría el 4 de abril de 2023.

Desde el comienzo, ‘Heart on My Sleeve’, una canción del compositor anónimo Ghostwriter977, en colaboración con las voces sintéticas de Drake y The Weeknd, fue malinterpretada y sobrevalorada. Uno de los tweets que la ayudó a volverse viral, describió la canción como “generada por una IA”, dato erróneo que los principales medios de comunicación ayudaron a difundir. El auge de ChatGPT y de las herramientas de generación de imágenes como MidJourney pudo generar la ilusión de que las IA ya tenían capacidades ilimitadas, y que Ghostwriter977 había escrito una descripción de una colaboración entre los dos grandes artistas en algún tipo de herramienta mágica que escupe canciones terminadas.

Dicha herramienta no existe, y los expertos coinciden en que ‘Heart on My Sleeve’ fue totalmente escrita, producida y cantada por un humano, con la única intervención de una IA en cuanto a la transformación de las voces de Drake y The Weeknd.

Las IA pueden ser capaces de producir ensayos universitarios decentes, y obras de arte, como pósteres de películas, sin ayuda humana. Pero ¿canciones de pop completas y convincentes, con voz y letra? Todavía no es posible, en parte por la cantidad de complejidades sutiles en una pieza musical; desde la composición subyacente hasta las inflexiones vocales y, por ejemplo, la cola de reverberación en el redoblante. “Es desalentador”, comenta Paçhet, cuya investigación musical con IA se remonta a los 90. “Es un nivel de complejidad increíble”.

Para varias personas en la industria la canción fue poco llamativa, las partes de The Weeknd no son lo suficientemente convincentes -o incluso racistas al copiar el estilo de los artistas afro-, pero el verso de Drake que abre la canción llamó la atención en TikTok. La canción reunió más de medio millón de streams antes de que Universal Music la bajara, alegando una cuestión técnica.  Tontamente, Ghostwriter977 usó una de las etiquetas de productor de Metro Boomin (un fragmento protegido por derechos de autor de Future rapeando “If Young Metro don’t trust you…”), lo que evitó que el sello tuviera que adentrarse en el debate de si la voz de un cantante tiene derechos de autor. (Ghostwriter977, quien afirmaba ser un compositor profesional mal pago, se ha mantenido en silencio desde entonces, y después de mostrar interés en una entrevista para este artículo, dejó de responder los correos).

Entretanto, la conversación sobre las inteligencias artificiales en la industria de la música se ha basado principalmente en la clonación de la voz, por encima de posibles amenazas y promesas de otras formas de música hecha a máquina. Incluso el lanzamiento en mayo para los probadores beta de MusicLM, una herramienta sorprendentemente sofisticada -pero inestable- de Google, pasó desapercibido. MusicLM genera archivos de audio de piezas instrumentales a partir de descripciones escritas, como lo opuesto a una reseña musical o como una versión inicial de la herramienta de generación de canciones ficticia que la gente imaginó que Ghostwriter977 tenía.

Algunos ven un océano de oportunidades y preocupaciones solo con la tecnología de la voz, pero Carré y Paçhet no creen lo mismo. “Es divertido hacer una canción y cambiar tu tono por el de Eminem”, comenta Carré, “pero desde el punto de vista de los músicos, de la creación, no veo lo interesante”. 

 No pasó mucho antes de que los productores novatos encontraran uno de los usos más tentadores, si no inquietante, de la clonación de voz: la resurrección de los muertos. Lamentablemente, la tecnología llevó a los usuarios a una profanación musical, ya sea haciendo que Notorious B.I.G. se ataque a sí mismo al cantar ‘Hit Em’ Up’ de Tupac Shakur, o cometiendo un crimen estético al obligar a Kurt Cobain a cantar canciones de Seether. También hay un cover de Jeff Buckley cantando Lana Del Rey que resultó bastante convincente. Y nadie parece haber intentado nada con la voz de Prince, quien, antes de su muerte, calificó las manipulaciones póstumas de IA como “demoníacas”.

Joel Weinshanker, socio gerente de Elvis Enterprises, ve un negocio allí. No está particularmente interesando en mandar a hacer canciones nuevas de Presley con IA para un lanzamiento comercial, puesto que cree que el resultado carecería de un alma real. Pero si surgen canciones así, está más interesado en monetizarlas que en silenciarlas. Y lo que realmente le emociona es algo más trivial: darles a los fans la posibilidad de cantar las canciones de Elvis en karaoke, con la misma voz de Elvis. “Vamos a ser los primeros en la fila cuando se logre la tecnología y cuando el sistema esté listo para compensar a los titulares de derechos”, explica. “Cada máquina de karaoke con licencia está pagando derechos de propiedad intelectual. Todo esto es un karaoke aumentado por mil”. 

Hasta el momento, solo una artista importante, viva o muerta, ha permitido el uso ilimitado de clones digitales de su voz: Grimes. Siguiendo los pasos de la artista pionera de IA Holly Herndon, quien ha ofrecido su voz para la clonación desde 2021, Grimes anunció en abril que permitiría grabar canciones con su voz, con la condición de darle el 50 % de los ingresos. Su sistema, con su propio sitio web (Elf tech), ya lleva varias canciones sólidas, pero como su propio mánager, Daouda Leonard, reconoce, Grimes enfrenta menos riesgo que la mayoría de los artistas de renombre de comprometer la viabilidad comercial o inundar el mercado, gracias a que nunca siquiera ha tenido un éxito de radio. “Igualmente, Grimes no es muy escuchada”, dice Leonard.

La artista canadiense también está defendiendo otras posiciones radicales, incluida la creencia de que los derechos de autor, en general, no deberían existir. Eso es ir demasiado lejos, incluso para algunas de las empresas de música generada por IA más atrevidas, incluso el emprendimiento Uberduck, que en el momento de la publicación se atrevió a dar a los usuarios fácil acceso a modelos de voces famosas desde Ariana Grande hasta Drake y Justin Bieber, realizó un concurso con un premio de $ 10.000 por el mejor uso de la voz de Grimes. “Estamos buscando vías de asociación con básicamente todas las grandes marcas”, dice el fundador de Uberduck, Zach Wener, de 31 años, “y no nos interesa ser el Napster de este movimiento. Simplemente estamos dispuestos a avanzar en este mundo, si encontramos un camino propicio y rentable para los artistas”. Uberduck ya ha recibido algunas amenazas legales, y “hemos cumplido con todas las peticiones de eliminación”.

Universal Music Group ha descrito la música de IA como un “fraude” y dijo que “dañará a los artistas”, pero para muchos en la industria, al menos fuera de las salas de juntas de los principales sellos, la idea de acabar con la clonación de voz parece tan imposible como lo fue cerrar todos los servicios de intercambio de archivos los primeros años. En cambio, imaginan un sistema de monitoreo y monetización idílico, con la posibilidad de que los artistas opten por no participar. Rohan Paul, CEO del emprendimiento Controlla, es uno de los muchos innovadores que trabajan en algoritmos para ayudar a los sellos a rastrear, por ejemplo, una canción con la voz de Drake que no fue etiquetada como tal.

“Será similar a la época de Napster, y llegará un punto en el que no tengamos elección”, comenta Paul. “Es lamentable, pero creo que dentro de cinco años será tan fácil robarle la voz a otra persona, que debe haber una manera de monetizarla. Entonces, creo que veremos algo así como regalías de voz”. Ya se está hablando de licencias obligatorias para las voces, así como cualquiera puede versionar una canción sin tener el permiso del escritor. Pero es difícil ver cómo se desarrollaría eso en casos como la versión de ‘America Has a Problem’ que está por ahí, en la que alguien logró que Ariana Grande cantara un insulto racial con IA. Incluso Grimes se ha reservado el derecho de dar de baja el contenido ofensivo.

Por otro lado, el declive de popularidad de ‘Heart on My Sleeve’ en las semanas siguientes, sugiere que -mientras se necesite talento humano para escribir canciones- la amenaza de la clonación de voces podría haber sido un poco exagerada después de lo que pasó con Ghostwriter977. Hay un mundo en el que esta tecnología podría permanecer escondida, como un truco divertido y no monetizable que podría beneficiarse del enfoque que tenían las disqueras en cuanto a los mixtapes de rap. “Esencialmente le estamos dando al mundo la capacidad de crear mixtapes”, dice la abogada de derechos de autor Ateara Garrison. O tal vez es algo aún más caprichoso. “Es probable que la sustitución de voz siga su curso poco a poco”, dice Wener de Uberduck. “No creo que desaparezca nunca. Pero, así como las mezclas, probablemente llegará a su punto máximo y luego pasará de moda. Pero, sí sabes que los mash-ups todavía existen, ¿verdad?”.

“Si tienes un gusto terrible, tu música seguirá siendo terrible, incluso con IA”, dice David Guetta. AIPA IMAGES/AP IMAGES.

Aun así, la IA se está moviendo rápido y es posible que aún no hayan surgido los casos de uso más consecuentes para la clonación de voz. Los aficionados en Internet ya están reemplazando la voz de Paul McCartney, con resultados prometedores, en algunas de sus canciones más recientes con clones de su voz en la era de los Beatles. En este momento, hay un retraso de 30 milisegundos en el mejor escenario de procesamiento, pero una vez que eso desaparezca, los artistas podrían comenzar a usar clones de sus propias voces en vivo, como una especie de AutoTune cargado. Y en el estudio, podrían usar Melodyne para afinar su voz y alcanzar diferentes notas, y luego usar el clon vocal para suavizarlas. Los productores podrían completar una o dos frases faltantes en los días en que los artistas se van temprano, y los compositores ya están hablando de proponer canciones a los artistas, usando sus propias voces. ¿Y quién se daría cuenta si los productores entierran capas y capas de voces de, digamos, Brian Wilson y Marvin Gaye en forma de un puñado de voces de apoyo?

Incluso hay posibilidades aún más salvajes, como sugiere Rob Abelow, fundador de la consultora Where Music’s Going: “¿Qué pasaría si, en lugar de crear un deep-fake de alguien, hicieran la voz sintética más hermosa a partir de una combinación de todas estas otras?”.

Mucho antes de las olas de canciones de IA, los principales sellos vieron razones para temer ahogarse. En enero, el CEO de Universal Music, Lucian Grainge, señaló que los servicios de streaming estaban recibiendo unas 100 000 cargas de archivos al día, y que “los consumidores están siendo guiados por algoritmos hacia un contenido funcional de menor calidad, que, en algunos casos, apenas puede pasar por ‘música’”. Cualquiera que haya escuchado el contenido genérico de algo como la popular lista de reproducción “Peaceful Piano” de Spotify (contenido por el que, usual y convenientemente, Spotify no tiene que pagar regalías) estaría de acuerdo.

Nuevamente, los humanos ya han hecho un buen trabajo al bombear contenido de “menor calidad” sin la asistencia de una IA, pero hay una compañía de la que incluso algunos partidarios de la tecnología sospechan. Boomy permite a los usuarios crear canciones de manera rápida y sencilla en sus teléfonos y con herramientas de inteligencia artificial, para luego subirlas a servicios de streaming. La empresa se jacta en su sitio web de que sus usuarios han grabado “15 477 480 canciones, alrededor del 14.7 por ciento de la música grabada del mundo”. En mayo, Spotify retiró algunas canciones de Boomy y prohibió temporalmente a la compañía publicar nuevas canciones, citando evidencia de actividad sospechosa y artificial del tipo “granja de streams”. Para algunos, eso planteó la posibilidad de un futuro distópico en el que las computadoras escuchan música hecha por computadoras; un círculo perfecto de inhumanidad.

Sin embargo, el CEO de Boomy, Alex Mitchell, tiene su propia perspectiva. Insiste en que su compañía no tuvo nada que ver con los streams irregulares, señala que hay un “latido” -un usuario humano- “detrás de cada canción de Boomy”, y aclara que, un “porcentaje de un solo dígito”, de esos 15 millones de canciones, ha llegado a los servicios de streaming, ya que la compañía evalúa la calidad primero. Aun así, afirma que, “le guste a quien le guste, o si Boomy está en este mercado o no, será inevitable que haya millones de músicos y cientos de millones, si no miles de millones, de canciones por día. Más personas van a hacer más música con herramientas de IA a medida que las barreras de entrada para crear y participar en el mercado vayan disminuyendo drásticamente”.

De todas formas, el producto de Boomy no era precisamente de lo que hablaba Grainge. Su preocupación se basa principalmente en la “música funcional”, sonidos diseñados con un propósito, usualmente de relajación o para estudiar. En su forma más pura, este contenido sí trasciende toda la música: ‘Clean white noise – Loopable with no fade’, del álbum Best White Noise for Baby Sleep, tiene más de mil millones de reproducciones en Spotify. La versión más sofisticada de la música funcional bien puede ser de Endel, que utiliza una IA generativa para crear bases musicales interminables que, según la compañía, están científicamente diseñadas para ayudar a dormir, hacer ejercicio y otras necesidades humanas (aún no hay para actividades sexuales o el baño).

Endel también ha trabajado con artistas como James Blake para hacer versiones de su música a través de una IA que la convierte en paisajes sonoros funcionales, y el cofundador y CEO de la compañía, Oleg Stavitsky, ve esta tecnología como una forma para que los sellos reclamen su participación en el mercado. “A lo que Lucian se refería es que estamos perdiendo la batalla contra el sonido blanco”, expresa Stavitsky. “Como es natural, la participación de las disqueras en el mercado se está reduciendo, gracias a que cada vez más personas recurren a este tipo de sonidos. Parte del problema es que las DSP (plataformas de demanda) están desviando la atención de los oyentes hacia este tipo de contenido, porque les resulta más económico. Pero los sellos [tampoco] tienen el suficiente contenido funcional. Así que, mi mensaje para UMG, es: ‘Pueden aprovechar la IA generativa para crear versiones de paisajes sonoros funcionales y producidos en masa de su propio catálogo. Pueden recuperar su participación en el mercado utilizando la IA generativa ya mismo’”.

La perspectiva de revertir el declive de su participación resultó irresistible incluso para una empresa reacia a la IA. Dos semanas después de la entrevista de Stavitsky con Rolling Stone, Universal anunció un acuerdo con Endel para “mejorar el bienestar de los oyentes” con paisajes sonoros creados con IA a partir del catálogo de la empresa.

A principios de 2023, en un gran festival, el veterano de EDM David Guetta presentó un fragmento de una nueva canción con un colaborador desconocido. Sobre un bajo de sintetizador retumbante, sonó la voz de Eminem, escupiendo una letra imposible de imaginar del artista que una vez rapeó que “nadie escucha techno”: “Este es el sonido rave del futuro, me estoy volviendo increíble y underground”. Al público le encantó.

Guetta utilizó ChatGPT para generar la letra, antes de pasar a Uberduck para poner esas palabras en la boca de Eminem, y tuvo que utilizar la tecnología de texto a voz, ya que el sitio todavía no ha añadido su funcionalidad de voz a voz. Guetta prometió no lanzar la canción comercialmente, y Eminem todavía no ha comentado nada al respecto. “Lo hice en un disco que, obviamente, no era de Eminem”, afirma. “Era para demostrar que, a un nivel técnico, es interesante lo que está pasando”.

Pero el artista está muy emocionado con la clonación de voz y la inteligencia artificial en general. “A mucha gente le asusta”, expresa Guetta. “Yo lo veo como una herramienta para grabar mejores discos y mejores demos”. También coincide con Mitchell, de Boomy, en que la IA continuará la democratización informática de la creación musical. “Pero si tienes un gusto terrible, tu música seguirá siendo terrible, incluso con IA”, añade. “Puedes usar la voz de Drake, The Weeknd, Michael [Jackson] y Prince al mismo tiempo. Si tu canción es mala, seguirá siendo mala”.

Guetta cree que es inevitable componer canciones con IA, especialmente porque considera que componer canciones es el resultado de reorganizar el corpus de música que los músicos han encontrado a lo largo de su vida. “Todos hacemos lo que hemos aprendido”, afirma. “La diferencia es que la IA va a ser capaz de aprenderlo todo. Así que, por supuesto, la IA va a ganar al final. Espero que un día podamos decir ‘Quiero hacer un disco de soul’, y la IA tendrá todas las progresiones de acordes de soul de la historia, con el porcentaje exacto de las que han tenido más éxito y la tonalidad más favorable para esa progresión. No se puede luchar contra esto, es imposible. Así que, nuevamente, creo que será cada vez más cuestión de gusto, y no solo de habilidades técnicas”.

El investigador de IA Paçhet rechaza esta opinión por completo. “Este argumento de la finitud del vocabulario musical fue esgrimido por la Escuela de Viena a principios del siglo XX”, afirma. “En 1910, dijeron: ‘La música tonal está muerta, porque todo está hecho’. Eso fue antes del jazz, antes de los Beatles, antes de Antônio Carlos Jobim, antes de todo lo que pasó después”.

El trabajo de Paçhet en el campo de la música generada por IA cumple ya cuatro décadas, y más recientemente, en conjunto con Spotify, trabajó en herramientas de creación musical que quizá nunca lleguen a ver la luz. A pesar de dedicar su vida a la tecnología, no puede evitar sentirse decepcionado hasta ahora. Como su amigo Carré, lo que quiere de la IA es algo realmente novedoso: “Si no se llega al punto de decir ‘Dios mío, ¿cómo han podido hacer eso?’, pierde todo sentido. Necesitamos una nueva tecnología que cree algo que la gente no entienda cómo lo ha podido hacer sin algún tipo de magia. Y no creo que estemos en ese punto todavía”.

Lo más cercano a la magia en la música con IA es una herramienta creada por una de las mayores empresas tecnológicas del mundo. En enero, Google anunció la existencia de MusicLM, que intenta hacer con música lo que ChatGPT hace con texto. El documento técnico que lo acompañaba afirmaba que Google “no tenía planes” de lanzarla públicamente, en parte por la posibilidad de que, una de cada 100 piezas musicales que genere, pueda ser rastreada hasta fuentes protegidas por derechos de autor. (Universal también expresó su preocupación por que su catálogo de canciones fuera utilizado para entrenar a la IA, lo que sugiere que se avecinan enormes batallas legales). Pero, a medida que el interés público por la IA se ha disparado este año, y Google empieza a dar la impresión de haberse quedado atrás con respecto a OpenAI, el creador de ChatGPT, la empresa empezó a actuar con menos cautela. En mayo, Google lanzó MusicLM en versión beta solo para los usuarios de prueba. (OpenAI lanzó su propia herramienta de generación de música, Jukebox, en 2020, pero solo funciona a nivel local y, al parecer, tarda 12 horas en hacer lo que MusicLM hace en segundos).

En su estado actual, MusicLM es tan increíble como horrible. (Google rechazó una entrevista sobre el software). El mero hecho de que genere archivos de audio de alta fidelidad a partir de la nada es asombroso, incluso cuando suena fatal. Pídele que se aproxime al blues del Delta de los años 30 o al rock de la invasión británica y te dará algo fragmentado y extraño, como si procediera de un vinilo no solo deformado, sino posiblemente derretido en una estufa. Pero es bastante decente a la hora de generar ritmos de trap genéricos, y casi espectacular con explosiones funk de música dance retrofuturista al estilo de Daft Punk. Dicho esto, si utilizas las palabras Daft Punk -o cualquier otro nombre de un artista- en tu descripción, te muestra un mensaje de “Oops, no puedo generar un audio de eso”, en un intento -creemos con casi toda seguridad- de proteger los derechos de autor. En cuanto a las voces, MusicLM aún no genera voces principales, ni letras de canciones por su cuenta. Pero en muchos clips, aunque no se lo hayas pedido, empiezan a surgir voces fantasmales. En un caso, un frontman que nunca vivió parece cantar con una banda inexistente. En otros, puedes oír los susurros formando algo más fuerte, más melódico. En algún lugar profundo de alguna granja de servidores, algo incalculablemente inteligente e inquietantemente poderoso se está preparando para cantar.

La línea del tiempo

La creación de canciones con IA se remonta décadas; aquí un breve repaso de la historia de la música y las IA.

1957: El ILLIAC I de la Universidad de Illinois en Urbana-Champaign generó la primera pieza musical escrita por un computador.

1983: David Cope creó Experiments in Musical Intelligence, que analiza a compositores clásicos y compone nuevas piezas en su estilo.

1995: David Bowie utilizó letras generadas por un software llamado Verbasizer en Outside.

2015: Yacht lanzó I Thought the Future Would Be Cooler, que contiene letras y melodías generadas por IA.

2016: Benoit Carré lanzó la canción ‘Daddy’s Car’, compuesta por IA y con el estilo de los Beatles, pero grabada por un humano.

2018: Carré encabezó todo un álbum (Hello World) compuesto por IA e interpretado por varios humanos, entre ellos Stromae y Kiesza.

2019: Holly Herndon lanzó el disco Proto, que utilizó la red neuronal Spawn para generar sonidos vocales.

03.2023: Investigadores lanzaron el programa de código abierto SoftVC VITS Singing Voice Conversion, que permite reemplazar una voz por otra.

04.2023: Google anunció el desarrollo de MusicLM, un tipo de herramienta de IA para escribir y crear música.

04.2023: El sitio web Uberduck ofreció fácil acceso a modelos de conversión de voz generados por usuarios.

04.2023: Ghostwriter977 lanzó ‘Heart on My Sleeve’, una canción creada por humanos con las “voces” clonadas de Drake y The Weeknd.