La IA generativa y los deepfakes se han integrado profundamente para desarrollar herramientas de audio avanzadas. La idea es simple: tomas un sonido y lo manipulas para que el modelo pronuncie las palabras que le das.
La tecnología de fabricación de voz se considera uno de los avances más destacados en el mundo de la tecnología moderna, ya que es posible crear una voz artificial que es increíblemente similar a la voz humana mediante indicaciones de texto. Entre las herramientas y plataformas innovadoras que le permiten lograr esta impresionante hazaña se encuentra ElevenLabs, que cuenta con un nivel de uso gratuito junto con algunas excelentes opciones de pago.
En este artículo profundizaremos sobre cómo utilizar la tecnología de síntesis de voz con ElevenLabs y los beneficios que conlleva. Repasaremos los pasos clave para crear audio que pueda ser útil en una variedad de aplicaciones, desde audio y publicidad hasta aplicaciones de inteligencia artificial y aprendizaje automático. Verificar ¿La tecnología inmersiva es una ganancia o una pérdida para la ciberseguridad?
Enlaces rápidos
¿Qué es ElevenLabs?
ElevenLabs fue fundada por un ex ingeniero de aprendizaje automático de Google y un ex estratega de Palantir Technologies, una empresa de investigación de tecnología de voz. Un modelo de voz es un componente clave de su estrategia, pero el objetivo final es crear una herramienta que "convierta instantáneamente audio hablado entre diferentes idiomas".
ElevenLabs Voice AI es un modelo de conversión de texto a voz basado en IA que puede crear una voz humana con un sonido realista. Su sitio web dice:
"Nuestra misión es hacer realidad el soporte de voz multilingüe bajo demanda en educación, streaming, audiolibros, juegos, películas e incluso chat en tiempo real".
Google Translate y sus alternativas son algo que ya ofrece valor, pero ¿te imaginas una herramienta que pueda traducir instantáneamente lo que escuchas a forma hablada? Reproducir la voz del hablante para escuchar la conversación mientras la dice es un punto de partida importante para lograrlo.
¿Qué es la generación de sonido por IA?
Descrito de manera simple, la generación de voz por IA le permite capturar una voz y hacer que diga lo que quiere que escuche. Simplemente elija una voz y proporcione el diálogo, y la plantilla personalizada hará el resto.
Podrías decir "bueno, Microsoft Sam estaba haciendo eso en los años XNUMX" y estarías en lo cierto. Pero Microsoft Sam y herramientas similares parecían robots. Mientras tanto, la herramienta de ElevenLabs se parece mucho más a los humanos.
ElevenLabs ofrece tres opciones de inteligencia artificial del habla: sus voces “preestablecidas” completamente gratuitas, su generador de voz con inteligencia artificial (te permite elegir género, edad y acento) y voces “clonadas” solo por suscripción que puedes descargar.
Aquí hay un ejemplo:
Nota: El uso de la IA con fines creativos conlleva algunas responsabilidades éticas y de propiedad intelectual, y crear voces con la herramienta de voz de IA de ElevenLabs no es diferente. En resumen, no uses la voz de nadie sin su permiso. Aunque esto no es ilegal, puede que les moleste.
Antes de continuar, recuerda que en el momento de escribir este artículo, la herramienta de inteligencia artificial del habla de ElevenLabs se encuentra en versión beta. Esto significa que no es el producto final. Verificar Explora los interesantes proyectos de IA que puedes hacer con tu Raspberry Pi.
Crear un diálogo básico de IA
La forma más sencilla de empezar es utilizar la herramienta de voz gratuita basada en inteligencia artificial de ElevenLabs.
Para usarlo, vaya a beta.elevenlabs.io Y crea una cuenta (puedes usar tu correo electrónico, cuenta de Google o Facebook).
Estos son los siguientes pasos:
- Hacer clic Síntesis de voz.
- Seleccione una de las voces preestablecidas en la configuración (hay voces masculinas y femeninas disponibles).
- Expanda la Configuración de sonido para configurar los controles deslizantes Estabilidad y Claridad + Mejorar similitud (una mayor estabilidad suele ser monótona, una mayor claridad se acerca más al sonido deseado).
- Seleccione Once monolingües (Ingles estandar).
- Ingrese el texto que desea convertir a voz.
- Hacer clic Crear.
- Una vez que se completa el proceso, el sonido debería reproducirse automáticamente; Si no, haga clic Ejecutar.
También puede descargar la muestra generada.
Cómo crear voz AI con ElevenLabs
Si prefiere crear una nueva voz, puede usar el botón Agregar voz para visitar la pantalla VoiceLab. Para crear un nuevo sonido basado en los ajustes preestablecidos de ElevenLabs:
- Hacer clic Agregar sonido -> Diseño de sonido.
- Establezca los campos de género, edad y dialecto.
- Ajuste el control deslizante de intensidad de enfoque como desee.
- Ingrese el texto que desea convertir.
- Hacer clic Crear.
- Cuando hayas terminado, escucha.
Durante las pruebas, descubrí que tanto el acento femenino/joven/australiano como el masculino/viejo/australiano eran claramente "estadounidenses". Es probable que este problema se resuelva a medida que mejore la tecnología.
Crea tu propia voz de IA
Si bien las opciones preestablecidas y configurables son interesantes, el elemento realmente interesante de la tecnología de ElevenLabs es la opción "Reproducción instantánea de voz".
A diferencia de otras opciones, Instant Voice Reproduction requiere una suscripción. Hay varias opciones disponibles, la más barata es de 5 dólares al mes. Al momento de escribir este artículo, viene con un descuento del 80% durante el primer mes, por lo que cuesta solo $XNUMX.
Otras opciones cuestan $22, $99 y $330 por mes, con la capacidad de generar hasta 40 horas de audio por mes.
Para utilizar la transcripción de voz de ElevenLabs, necesitarás algunos diálogos y una muestra de tu voz. Cualquier cosa servirá, siempre que esté clara y en formato MP3. Cuanto más larga sea la muestra, mejor, hasta 5 minutos.
Desde la pantalla de VoiceLab:
- Hacer clic Agregar audio -> Transcripción de audio instantánea.
- En la ventana resultante, asigne un nombre.
- Haga clic o arrastre el archivo apropiado para cargar la muestra de audio (se pueden agregar hasta 25 muestras para mejorar la precisión).
- Haga clic en Etiquetas y seleccione Clave + Valor (por ejemplo, Acento/Británico); haga esto hasta 5 veces.
- Introduzca una breve descripción del audio.
- Seleccione la casilla de verificación Confirmar consentimiento y luego Agregar un sonido.
Con el audio agregado, puede ajustarlo en la pantalla de síntesis de voz como se mencionó anteriormente. Verificar Evaluación del uso de la tecnología de reproducción de sonido en la creación de contenido a gran escala..
¿Qué puedes hacer con la voz de IA?
AI Voice tiene muchas voces preestablecidas y reproducidas con muchas posibilidades. Como se mencionó anteriormente, el objetivo final de ElevenLabs es la traducción en vivo, pero se han observado muchos otros usos.
Se mencionan los audiolibros (quizás leídos por una estrella de cine muerta hace mucho tiempo), junto con los videojuegos (usar una voz de IA ahorraría dinero en actores de doblaje). Pero tiene usos más allá de eso, desde la música hasta la sátira y la autoayuda, y tal vez más allá de eso.
También puedes crear un podcast usando audio AI, aunque los resultados pueden parecer planos y aburridos.
La introducción de este episodio del podcast Realmente útil fue producida con ElevenLabs:
Aunque los resultados no fueron exactamente los que esperábamos, son lo suficientemente buenos como para usarlos y la tecnología solo puede mejorar.
Mientras tanto, ElevenLabs planea implementar la función “Chat de voz” en una fecha posterior.
preguntas comunes
P1: ¿Cuál es la tecnología para fabricar sonidos?
La tecnología de síntesis de voz es una tecnología que utiliza inteligencia artificial y técnicas de procesamiento de sonido para crear una voz artificial que se asemeja a la voz humana. Se puede utilizar en una variedad de aplicaciones, como aplicaciones de audio, publicidad y inteligencia artificial.
P2: ¿Qué es ElevenLabs y qué ofrece?
ElevenLabs es una plataforma avanzada basada en tecnologías de fabricación sólidas. Proporciona a los usuarios potentes herramientas para crear una voz sintética que puede ser similar a su voz personal. ElevenLabs te ayuda a personalizar los sonidos y utilizarlos para una variedad de usos.
P3: ¿Cómo puedo empezar a utilizar ElevenLabs?
Puedes empezar fácilmente registrándote en la plataforma ElevenLabs y explorando su interfaz sencilla y fácil de usar. Tendrás la posibilidad de crear y personalizar tu propia voz sintética y utilizarla en tu proyecto.
P4: ¿Existen requisitos especiales para el uso de tecnología de fabricación sólida?
No necesitas conocimientos técnicos avanzados para utilizar ElevenLabs, pero es útil comprender conceptos básicos sobre el procesamiento de audio y utilizar tecnologías básicas. Encontrará la interfaz de usuario y las instrucciones fáciles de usar y le ayudarán a empezar.
P5: ¿Cuáles son algunas aplicaciones comunes de la tecnología de fabricación de sonido de ElevenLabs?
Las aplicaciones populares incluyen anuncios de audio personalizados, servicios de voz personalizados y aplicaciones de inteligencia artificial que manipulan voces sintéticas. ElevenLabs permite personalizar los sonidos para que se ajusten con precisión a su proyecto.
Usa tu voz de una nueva forma con la IA de ElevenLabs
La Inteligencia Artificial nos ha traído algunas herramientas nuevas e increíbles en los últimos años. Chat-GPT se puede utilizar para generar texto, responder preguntas, planificar informes y más. a mitad de camino Es un modelo asombroso que genera arte a partir de afirmaciones.
Ahora, la herramienta Speech AI de ElevenLabs facilita el trabajo con voz. Es como una suplantación, pero con una copia del audio original.
Si bien existen argumentos éticos en contra del uso de voces sin consentimiento, esta es una herramienta poderosa con algunos usos interesantes. Lo mejor de todo es que es sorprendentemente fácil de usar y ofrece resultados sorprendentes. Puedes ver ahora El mejor generador de arte con IA para crear arte creativo a partir de fotos.