Diapositiva anterior
Diapositiva siguiente
Diapositiva anterior
Diapositiva siguiente

Ya está aquí un ChatGPT para música, la startup que lo está cambiando todo

Suno pretende que todo el mundo pueda producir sus propias canciones con un nivel profesional, pero ¿qué significa eso para los artistas?

Por  BRIAN HIATT

marzo 17, 2024

Ilustración de Harry Campbell

Ilustración de Harry Campbell

“Sólo soy un alma atrapada en este circuito”. La voz que canta esas letras es cruda y quejumbrosa, se sumerge en notas tristes. Una solitaria guitarra acústica resuena detrás, puntuando las frases vocales con toques de buen gusto. Pero no hay ningún ser humano detrás de la voz, ni manos en esa guitarra. De hecho, no hay guitarra. En el espacio de 15 segundos, esta canción de blues creíble, e incluso conmovedora, fue generada por el último modelo de inteligencia artificial de una startup llamada Suno. Todo lo que se necesitó para llamarla desde el vacío fue un simple mensaje de texto: “Blues acústico del delta del Mississippi sobre una IA triste”. Para ser más precisos, la canción es obra de dos modelos de IA en colaboración: el modelo de Suno crea toda la música por sí mismo, mientras recurre al ChatGPT de OpenAI para generar la letra e incluso un título: ‘Soul of the Machine’.

En línea, las creaciones de Suno están empezando a generar reacciones como, “¿Cómo carajo es esto real?”. Mientras esta pista en particular se reproduce en un altavoz Sonos en una sala de conferencias en la sede temporal de Suno, a unos pasos del campus de Harvard en Cambridge, Massachusetts, incluso algunas de las personas detrás de la tecnología están un poco nerviosas. Hay algunas risas nerviosas, junto con murmullos que dicen, “Mierda” y “Oh, muchacho”. Estamos a mediados de febrero y jugamos con su nuevo modelo, V3, al que todavía le faltan un par de semanas para su lanzamiento público. En este caso, sólo fueron necesarios tres intentos para obtener ese sorprendente resultado. Los dos primeros fueron decentes, pero un simple ajuste a mi mensaje (el cofundador Keenan Freyberg sugirió agregar la palabra “Mississippi”) dio origen a algo mucho más extraño.

Sólo durante el año pasado, la IA generativa ha logrado grandes avances en la producción de textos, imágenes (a través de servicios como Midjourney) e incluso videos creíbles, particularmente con la nueva herramienta Sora de OpenAI. Pero el audio, y la música en particular, se habían quedado atrás. Suno parece estar descifrando el código de la música con inteligencia artificial, y las ambiciones de sus fundadores son casi ilimitadas; esta gente imagina un mundo de creación musical tremendamente democratizada. El más locuaz de los cofundadores, Mikey Shulman, un hombre de 37 años, encantadoramente juvenil y con una mochila en la mano, con un doctorado en Harvard. en física, imagina mil millones de personas en todo el mundo pagando 10 dólares al mes para crear canciones con Suno. El hecho de que los oyentes de música superen ampliamente en número a los creadores de música en este momento es “demasiado desequilibrado”, argumenta, y considera que Suno está preparado para corregir ese desequilibrio percibido.

La mayor parte del arte generado por IA hasta ahora es, en el mejor de los casos, kitsch, al estilo de la basura de ciencia ficción hiperrealista, repleta de trajes espaciales ajustados, que tantos usuarios de Midjourney parecen decididos a generar. Pero ‘Soul of the Machine’ suena como algo diferente: la creación de IA más poderosa e inquietante que he encontrado en cualquier medio. Su existencia misma parece una fisura en la realidad, al mismo tiempo sobrecogedora y confusa.

Sigo pensando en la cita de Arthur C. Clarke que parece hecha para la era de la IA generativa: “Cualquier tecnología suficientemente avanzada no se diferencia de la magia”. Unas semanas después de regresar de Cambridge, le envío la canción al guitarrista de Living Color, Vernon Reid, quien ha hablado abiertamente de los peligros y posibilidades de la música con IA. Señala su “asombro, conmoción, horror” ante la “inquietante verosimilitud” de la canción. “El antiguo ideal distópico de separar el aspecto humano, difícil, desordenado, indeseable y despreciado, de la producción creativa está al alcance de la mano”, escribe, señalando la naturaleza problemática de una IA que canta blues, “un lenguaje afroamericano, profundamente ligado al trauma humano histórico y a la esclavitud”.

Suno tiene apenas dos años. Los cofundadores Shulman, Freyberg, Georg Kucsko y Martin Camacho, todos expertos en aprendizaje automático, trabajaron juntos hasta 2022 en otra empresa de Cambridge, Kensho Technologies, que buscaba soluciones de inteligencia artificial para problemas comerciales complejos. Shulman y Camacho son músicos que tocaban juntos en sus días de Kensho. Allí, el cuarteto trabajó en una tecnología de transcripción para las llamadas de las empresas públicas, una tarea complicada por la combinación de mala calidad de audio, además de la diversidad en las jergas y acentos.

En el camino, Shulman y sus colegas se enamoraron de las posibilidades inexploradas del audio con IA. Sobre la investigación de la IA, afirma, “el audio en general está muy por detrás de las imágenes y el texto. Aprendemos mucho de la comunidad de textos, cómo funcionan estos modelos y cómo se escalan”.

Los mismos intereses podrían haber llevado a los fundadores de Suno a un lugar muy diferente. Aunque siempre tuvieron la intención de terminar con un producto musical, su primera lluvia de ideas incluyó una idea para un audífono e incluso la posibilidad de encontrar maquinaria que no funcionaba correctamente mediante el análisis de audio. En cambio, su primer lanzamiento fue un programa de conversión de texto a voz, llamado Bark. Cuando encuestaron a los primeros usuarios de Bark, quedó claro que lo que realmente querían era un generador de música. “Así que comenzamos a realizar algunos experimentos iniciales y parecían prometedores”, dice Shulman.

Suno utiliza el mismo enfoque general que los grandes modelos de lenguaje, como ChatGPT, que descomponen el lenguaje humano en segmentos discretos conocidos como tokens, absorben sus millones de usos, estilos y estructuras, y luego lo reconstruyen según demanda. Pero el audio, particularmente la música, es casi insondablemente más complejo, razón por la cual, apenas el año pasado, expertos en inteligencia artificial en música le dijeron a ROLLING STONE que un servicio tan capaz como el de Suno podría tardar años en llegar. “El audio no es algo discreto como las palabras”, dice Shulman. “Es una ola. Es una señal continua”. La frecuencia de muestreo del audio de alta calidad es generalmente de 44 kHz o 48 Hz, lo que significa “48.000 tokens por segundo”, añade. “Ese es un gran problema, ¿verdad? Por eso es necesario descubrir cómo reducir eso a algo más razonable”. ¿Pero cómo? “Mucho trabajo, muchos ensayos y análisis, muchos trucos, modelos y cosas así. No creo que estemos ni cerca de terminar”. Con el tiempo, Suno quiere encontrar alternativas a la interfaz de texto a música, agregando entradas más avanzadas e intuitivas; una de sus ideas es generar canciones basadas en el canto del propio usuario.

OpenAI enfrenta múltiples demandas por el uso de libros, artículos de noticias y otro material protegido con derechos de autor por parte de ChatGPT en su vasto corpus de datos de entrenamiento. Los fundadores de Suno se niegan a revelar detalles sobre qué datos están incorporando a su propio modelo, aparte del hecho de que su capacidad para generar voces humanas convincentes se debe en parte a que aprende de grabaciones de voz, además de música. “El habla desnuda te ayudará a aprender las características de la voz humana que son difíciles”, dice Shulman.

Uno de los primeros inversionistas de Suno fue Antonio Rodríguez, socio de la firma de capital riesgo Matrix. Rodríguez solo había financiado una empresa musical anterior, EchoNest, que fue comprada por Spotify para impulsar su algoritmo. Con Suno, Rodríguez se involucró antes de que estuviera claro cuál sería el producto. “Apoyé al equipo”, dice Rodríguez, quien irradia la confianza de un hombre que ha hecho más de lo que le corresponde en apuestas exitosas. “Conocía al grupo, y especialmente a Mikey, por lo que lo habría respaldado para hacer casi cualquier cosa que fuera legal. Es muy creativo”.


“Estamos tratando de lograr que mil millones de personas se involucren mucho más con la música que ahora. No estamos tratando de reemplazar a los artistas”


Rodríguez está invirtiendo en Suno con pleno conocimiento de que los sellos discográficos y los editores podrían demandar, lo que él ve como “el riesgo que tuvimos que asumir cuando invertimos en la compañía, porque somos la billetera gorda que será demandada justo detrás de estos tipos… Honestamente, si hubiéramos tenido acuerdos con sellos disqueros cuando comenzó esta empresa, probablemente no habría invertido en ella. Creo que necesitaban fabricar este producto sin limitaciones”. (Un portavoz de Universal Music Group, que ha adoptado una postura agresiva sobre la IA, no respondió a una solicitud de comentarios).

Suno dice que está en comunicación con los principales sellos discográficos y profesa respeto por los artistas y la propiedad intelectual. Su herramienta no le permitirá solicitar estilos de artistas específicos en las directrices que recibe de los usuarios y no utiliza voces de artistas reales. Muchos empleados de Suno son músicos; hay un piano y guitarras disponibles en la oficina, y hay imágenes enmarcadas de compositores clásicos en las paredes. Los fundadores no muestran nada de la abierta hostilidad hacia el negocio de la música que caracterizó, digamos, a Napster antes de las demandas que la destruyeron. “Por cierto, eso no significa que no nos vayan a demandar”, añade Rodríguez. “Simplemente significa que no vamos a tener una actitud beligerante.

Rodríguez ve a Suno como un instrumento musical radicalmente capaz y fácil de usar, y cree que podría acercar la creación musical a todos de la misma manera que los teléfonos con cámara y Instagram democratizaron la fotografía. La idea, dice, es “mover el listón en el número de personas a las que se les permite ser creadores de cosas en lugar de consumidores de cosas en Internet”. Él y los fundadores se atreven a sugerir que Suno podría atraer una base de usuarios mayor que la de Spotify. Si esa perspectiva es difícil de entender, es algo bueno, dice Rodríguez; “Todas nuestras grandes empresas tienen esa combinación de talento excelente”, dice, “y luego algo que parece estúpido hasta que resulta tan obvio que no lo es”.

Mucho antes de la llegada de Suno, músicos, productores y compositores estaban abiertamente preocupados por el potencial de la IA para sacudir los negocios. “La música, hecha por humanos impulsados por circunstancias extraordinarias… aquellos que han sufrido y luchado por avanzar en su oficio, tendrán que lidiar con la automatización total del arte muy caro por el que han luchado”, escribe Vernon Reid. Pero los fundadores de Suno afirman que hay poco que temer, utilizando la metáfora de que la gente todavía lee a pesar de tener la capacidad de escribir. “La forma en que pensamos acerca de esto es que estamos tratando de lograr que mil millones de personas se involucren mucho más con la música de lo que lo están ahora”, dice Shulman. “Si la gente está mucho más interesada en la música, mucho más centrada en crear y desarrollar gustos mucho más diversos, esto obviamente es bueno para los artistas. La visión que tenemos del futuro de la música es que sea amigable para los artistas. No estamos tratando de reemplazarlos”.

Aunque Suno está hiperconcentrado solo en llegar a los fanáticos de la música que desean crear canciones por diversión, podría terminar causando una disrupción muy significativa. A corto plazo, el segmento del mercado de creadores humanos que parece más directamente amenazado es el lucrativo: las canciones creadas para anuncios e incluso programas de televisión. Lucas Keller, fundador de la empresa de gestión Milk and Honey, señala que el mercado de colocación de canciones conocidas no se verá afectado. “Pero en términos del resto, sí, definitivamente podría hacer mella en su negocio”, dice. “Creo que, en última instancia, permite que muchas agencias de publicidad, estudios cinematográficos, cadenas, etc., no tengan que pagar licencias para ciertas cosas”.

En ausencia de reglas estrictas contra el contenido creado por IA, también existe la perspectiva de un mundo en el que millones de usuarios de modelos como Suno inunden los servicios de streaming con sus creaciones robóticas. “Es posible que Spotify algún día diga ‘No puedes hacer eso’”, dice Shulman, señalando que hasta ahora los usuarios de Suno parecen más interesados en enviar sus canciones por mensaje de texto a algunos amigos.

Suno solo tiene aproximadamente 12 empleados en este momento, pero planean expandirse, con una sede permanente mucho más grande en construcción en el último piso del mismo edificio que su oficina temporal actual. Mientras recorremos el piso aún sin terminar, Schulman muestra un área que se convertirá en un estudio de grabación completo. Sin embargo, dado lo que Suno puede hacer, ¿por qué lo necesitan? “Es principalmente una sala de escucha”, reconoce. “Queremos un buen ambiente acústico. Pero a todos también nos gusta hacer música, sin IA”.

El mayor competidor potencial de Suno hasta ahora parece ser Dream Track de Google, que ha obtenido licencias que permiten a los usuarios crear sus propias canciones utilizando voces famosas, como la de Charlie Puth, a través de una interfaz similar basada en mensajes (prompts). Pero Dream Track solo se ha lanzado a una pequeña base de usuarios de prueba, y las muestras publicadas hasta ahora no suenan tan impresionantes como las de Suno, a pesar de las famosas voces adjuntas. “Simplemente no creo que hacer nuevas canciones de Billy Joel sea la forma en que la gente quiera interactuar con la música con la ayuda de la IA en el futuro”, dice Shulman. “Si pienso en cómo queremos que la gente haga música dentro de cinco años, son cosas que no existen. Son las cosas que tienen en la cabeza”.

CONTENIDO RELACIONADO