El nuevo 'motor de voz' de OpenAI solo necesita 15 segundos para clonar la voz

OpenAI, la empresa de inteligencia artificial detrás de la herramienta dominante de inteligencia artificial generativa ChatGPT, ha presentado una nueva tecnología de clonación de voz a la que llama “Voice Engine”. Este modelo de audio puede replicar la voz, la entonación y otros patrones de habla claramente humanos de una persona basándose en una muestra relativamente pequeña de audio original.

“Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, dice la compañía en su blog del viernes.

A modo de comparación, la plataforma de voz de IA ElevenLabs presenta una herramienta de clonación de voz instantánea que requiere muestras de al menos un minuto. Para obtener mejores resultados, se necesitan casi 10 minutos de conversación continua para su nivel de servicio profesional.

La compañía mostró diferentes ejemplos de lo que es capaz de hacer esta tecnología. En un ejemplo, la voz de una paciente joven que perdió gran parte de su capacidad de hablar debido a un tumor cerebral vascular fue clonada utilizando una grabación anterior que hizo para un proyecto escolar. Así suena hoy, según OpenAI.

OpenAI trabajó con Lifespan, una organización sin fines de lucro afiliada a la facultad de medicina de la Universidad de Brown y los creadores de una herramienta llamada Livox, una “aplicación de comunicación alternativa” creada para personas con discapacidades. El equipo pudo trabajar con una grabación que la mujer realizó para una presentación escolar:

Luego, Open AI Voice Engine pudo proporcionar capacidad instantánea de conversión de texto a voz que permitiría al paciente hablar de manera efectiva con su propia voz:

OpenAI también mostró cómo HeyGen está utilizando su tecnología para generar traducciones con sonido natural de discursos cargados en un idioma específico en otro idioma.

La compañía dice que Voice Engine se desarrolló por primera vez a fines de 2022 y ya se está utilizando para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz de OpenAI, así como la función Voz y Lectura en voz alta de ChatGPT. Con los últimos avances, la compañía dice que está siendo cautelosa antes de un lanzamiento más amplio.

“Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades”, escribió OpenAI, reconociendo la práctica ampliamente condenada de los “deepfakes”. Las voces de celebridades, funcionarios gubernamentales y cada vez más ciudadanos privados están siendo suplantadas con fines nefastos, desde campañas políticas, anuncios falsos y actividades criminales manifiestas. El presidente de los Estados Unidos, Joe Biden, ha estado presionando para que se establezcan más salvaguardias contra el uso malicioso de suplantaciones de voces mediante IA.

De hecho, Meta reveló el verano pasado que su herramienta de voz de IA estaba siendo restringida específicamente debido a los “riesgos potenciales de uso indebido”.

“En línea con nuestro enfoque hacia la seguridad de la IA y nuestros compromisos voluntarios, estamos optando por realizar una vista previa, pero no lanzar ampliamente esta tecnología en este momento”, explicó OpenAI.

Incluso antes del lanzamiento público, OpenAI está imponiendo restricciones a Voice Engine, incluida una lista de personas destacadas que no emulará.

“Creemos que cualquier implementación amplia de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces demasiado similar a figuras prominentes”, escribió OpenAI.

Los socios que prueban Voice Engine hoy aceptaron las políticas de uso de OpenAI, que prohíben la suplantación de otro individuo u organización sin consentimiento. Además, la empresa requiere el consentimiento explícito e informado del hablante original y no permite que los desarrolladores creen formas para que usuarios individuales clonen sus propias voces.

“Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo”, se lee en la publicación del blog.

Además de Voice Engine, Open AI está trabajando en varios proyectos en paralelo. El director ejecutivo Sam Altman reveló que la compañía está trabajando en el lanzamiento de GPT-5 este año. La compañía también mostró su herramienta de vídeo generativo Sora. La compañía afirma que Sora será el generador de vídeo más avanzado del mercado, superando a modelos como Pika, Stable Video Diffusion y Runway ML.

Actualmente, Sora solo está disponible para los “equipos rojos” reclutados por Open AI para garantizar que no se pueda abusar de él.

Voice Engine ciertamente podría superar a otras herramientas de clonación de voz, incluidas las ofertas de Meta, ElevenLabs, WellSaid Labs y modelos de código abierto como RVC.

Open AI también está trabajando en un proyecto secreto llamado Q* del que sólo se ha filtrado su nombre. Sam Altman se ha negado a dar detalles, pero dijo que el equipo de investigación estaba muy centrado en encontrar técnicas y enfoques que hagan que la IA razone mejor.

Editado por Ryan Ozawa.

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada.

Fuente Traducida decrypt.co

El nuevo 'motor de voz' de OpenAI solo necesita 15 segundos para clonar la voz

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada.

Noticias Relacionadas

El ETH de Ethereum supera a medida que el precio de Bitcoin (BTC) retrocede desde el muro de venta de USD 100K

Desafiando las sanciones de los servicios de mezcla de criptomonedas

Las criptomonedas reciben una dosis de video impactante mientras los usuarios transmiten contenido ‘NSFW’ para bombear sus memecoins