Cómo funciona Suno, el voluntarioso compositor de canciones basado en IA

Suno AI quiere ayudarte a producir tus propias canciones. Y los primeros resultados son un (estremecedor) hit

Por  BRIAN HIATT

abril 25, 2024

Getty Images

Soy sólo un alma atrapada en este circuito”, canta una voz cruda y quejumbrosa acurrucándose contra la séptima disminuida del blues. Una acústica fantasmal resuena atrás, sus punteos acuden a la línea vocal con un toque de brillo metálico. Pero no hay ningún ser humano detrás de esa voz, ni dedos en esa guitarra. De hecho, no hay guitarra. En el lapso de quince segundos, este blues creíble y hasta un poquito emotivo fue generado por el último modelo de inteligencia artificial de una startup llamada Suno.

Así se ve la portada de suno.com, el sitio web de la startup Suno. (Foto: Captura de pantalla)

Todo lo que hizo falta para traer la canción a la existencia desde el vacío absoluto fue una simple cadena de texto: “blues acústico solista del Delta del Mississippi, sobre una IA que está triste”. Para ser más precisos, la canción es obra de dos modelos de IA en colaboración: el modelo de Suno crea toda la música por sí mismo, y recurre ChatGPT de OpenAI para generar la letra y el título: “Soul of the Machine”.

En internet las creaciones de Suno ya están empezando a generar reacciones (la típica: “¿cómo carajo? ¿esto es real?”) cuando este tema en particular suena en un parlante portátil en la oficina temporal de la empresa, a unos pasos del campus de Harvard en Cambridge, Massachusetts. Incluso algunas de las personas que colaboraron en el desarrollo de esta tecnología están un poco ansiosas. Hay risas nerviosas, murmullos como “mierda…”.

Estamos a mediados de febrero y nos invitaron a probar su nuevo modelo, V3, al que todavía le faltan un par de ajustes (cuestión de semanas) hasta su lanzamiento público. En este caso, sólo fueron necesarios tres intentos para llegar a un resultado tan sorprendente. Los dos primeros blues fueron decentes. Pero con apenas un retoque a mi pedido original (Keenan Freyberg, uno de los fundadores de la compañía, sugirió agregar la palabra “Mississippi”), surgió algo mucho más extraño.

Sin ir más atrás del año pasado, la IA generativa ha logrado grandes avances en la producción de textos, imágenes (a través de servicios como Midjourney) e incluso videos creíbles, particularmente con la nueva herramienta Sora de OpenAI. Pero el audio y la música en particular habían quedado atrás. Ahora Suno parece estar descifrando el enigma de cómo generar música con IA. Y las ambiciones de sus fundadores son casi ilimitadas: imaginan un mundo en el que la creación musical esté absolutamente democratizada.

El más locuaz de los cofundadores, Mikey Shulman, un hombre de 37 años encantadoramente juvenil, con una mochila en el hombro y un doctorado en física en Harvard, imagina mil millones de personas en todo el mundo que paguen diez dólares al mes para crear canciones con Suno. El hecho de que, hasta hoy, los oyentes de la música hayan superado ampliamente en número a los creadores es “un desequilibrio muy grande”, argumenta, y considera que Suno está en condiciones de corregirlo.

La mayor parte del arte generado por IA hasta ahora es, en el mejor de los casos, kitsch. Bien en el estilo de la basura de ciencia ficción hiperrealista que tantos usuarios de Midjourney parecen decididos a generar. Pero “Soul of the Machine” es diferente: diría que es la creación generada por una IA más poderosa e inquietante que encontré. Su mera existencia parece una fisura en la realidad, al mismo tiempo sobrecogedora y vagamente impía. Y sigo pensando en la cita de Arthur C. Clarke que parece hecha para la era de la IA generativa: “Cualquier tecnología suficientemente avanzada es indistinguible de la magia”.

Unas semanas después de volver de Cambridge, le mando la canción al guitarrista de Living Colour, Vernon Reid, que tomó posición abiertamente respecto de los peligros y posibilidades de la música hecha con IA. A vuelta de mensaje Reid dice haber sentido “asombro, conmoción y horror” ante la “inquietante verosimilitud” de la canción.

“El antiguo sueño distópico de separar a una humanidad difícil de organizar, emocionalmente desordenada o políticamente indeseable de las cimas más altas de su producción creativa está al alcance de la mano”, escribe, señalando la naturaleza problemática de una IA que canta blues (“un modo afroamericano profundamente ligado a la historia, el trauma y la esclavitud, todas cosas que han vivido los seres humanos”).

Suno tiene apenas dos años de vida. Los cofundadores Shulman, Freyberg, Georg Kucsko y Martin Camacho, todos expertos en machine learning, trabajaron juntos hasta 2022 en otra empresa de Cambridge, Kensho Technologies. Shulman y Camacho también son músicos, y solían tocar juntos en sus días en Kensho.

Allí, el cuarteto trabajó en una tecnología para desgrabar automáticamente la presentación de balances de las empresas que cotizan en bolsa: una tarea complicada debido a la combinación de mala calidad de audio, la abundante jerga financiera y la disparidad de acentos de los conferencistas. Y haciendo eso fue que Shulman y sus colegas se enamoraron de las posibilidades inexploradas de la IA aplicada al audio. En el mundo de la IA, afirma, “el audio en general está muy por detrás de las imágenes y del texto. De los textos aprendemos mucho sobre cómo funcionan estos modelos y cómo se escalan”.

Los mismos intereses podrían haber llevado a los fundadores de Suno en una dirección muy diferente. Aunque siempre tuvieron la intención de terminar con un producto musical, sus primeras ideas incluían el desarrollo de una especie de audífono inteligente e incluso la posibilidad de diagnosticar los problemas de funcionamiento de una máquina mediante el procesamiento de audio. Su primer lanzamiento fue un programa de conversión de texto a voz llamado Bark. Cuando encuestaron a los primeros usuarios, quedó claro que lo que realmente querían era un generador de música.

Suno utiliza el mismo enfoque general que los modelos de lenguaje como ChatGPT. Pero el audio, particularmente la música, es más complejo. Esa es la razón por la que, apenas el año pasado, los expertos de AImusic le dijeron a Rolling Stone que un servicio como el de Suno podría tardar años en llegar. “El audio no está hecho de unidades discretas de información, como el texto o los pixeles, dice Shulman. “Es una onda, una señal continua”. La frecuencia de muestreo del audio de alta calidad es generalmente de 44 khz o 48 hz, lo que significa “48 mil tokens por segundo”.

“Es un problema, ¿no? Por eso es necesario descubrir cómo reducir esa cifra a una escala más razonable”. ¿Pero cómo? “Con mucho trabajo, mucha heurística, y un par de trucos raros. No creo que estemos ni cerca de terminar”. Con el tiempo, Suno quiere ir más allá de la interfaz de texto a música y desbloquear capacidades más avanzadas e intuitivas: generar canciones basadas en el propio canto de los usuarios es una idea.

OpenAI enfrenta demandas por el uso de libros, notas periodísticas y otros contenidos protegido por derechos de autor en el vastísimo gimnasio de información en el que entrena su modelo de lenguaje, ChatGPT. Los fundadores de Suno se niegan a revelar detalles sobre los datos que están incorporando a su propio modelo, aparte del hecho de que su capacidad para generar voces humanas convincentes se debe en parte a que aprende de grabaciones de voz, además de música. “El habla desnuda te ayudará a aprender ciertas características de la voz humana que son difíciles de esquematizar”, dice Shulman.

Uno de los primeros inversores de Suno es Antonio Rodriquez, socio de Matrix, una firma de capital de riesgo. Rodriquez solo había financiado antes una empresa del rubro musical, la startup de categorización de música EchoNest, que fue comprada por Spotify para impulsar su algoritmo. Con Suno, Rodriquez se involucró antes de que estuviera claro cuál sería el producto. “Apoyé al equipo”, dice, con la confianza de un hombre que ha hecho más de una apuesta exitosa.

“Los conocía, especialmente a Mikey, por lo que lo habría respaldado para hacer casi cualquier cosa que fuera legal. Es así de creativo”. Rodriquez invirte en Suno con pleno conocimiento de que los sellos podrían hacerle juicio, pero lo ve como “el riesgo que debimos asumir porque somos la billetera gorda que estos tipos van a querer venir a buscar. Honestamente, si hubiéramos tenido acuerdos con los sellos discográficos cuando comenzó esta empresa, probablemente no habría invertido. Creo que necesitaban fabricar este producto sin limitaciones”.

En Suno dicen estar en comunicación con los principales sellos y que la empresa profesa respeto por los artistas y la propiedad intelectual: el modelo que desarrollaron no te va a dejar que le pidas estilos de artistas específicos ni utiliza voces de artistas reales. Los fundadores no tienen esa hostilidad hacia el negocio de la música que caracterizó, digamos, a Napster. “Eso no significa que no nos vayan a demandar”, añade Rodriquez. “Sólo significa que no vamos a tener una actitud tipo ‘fachos policías hijos de puta’ cuando empiecen los problemas”.