Facebook Pixel Code
Now Reading
Como lograr voz y movimiento con Inteligencia Artificial Generativa

Como lograr voz y movimiento con Inteligencia Artificial Generativa

  • Para nosotros, es fundamental que el personaje creado con inteligencia artificial tenga voz, ya que añade a su personalidad y establece una conexión más profunda con la audiencia humana
El Desafio Lograr Interactividad con IA

Este artículo es la 4ta parte de nuestra serie sobre la exploración de la Inteligencia Artificial Generativa. Lee la parte anterior aquí y la siguiente parte aquí.

En Interesante, nos adentramos en un nuevo universo para dotar a nuestro personaje de mayor interactividad con la audiencia. La interactividad puede lograrse mediante el uso de una voz y/o la implementación de movimiento corporal. Tras un proceso de investigación y análisis de mercado, determinamos que darle una voz a nuestro personaje era más importante que el movimiento corporal. Esta decisión se basó en la observación de que la los personajes más famosos creados con inteligencia artificial se limitan a fotografías con una voz de fondo en videos, lo que sugiere que la voz es un elemento más crucial para la conexión con la audiencia.

Para nosotros, era fundamental que nuestro personaje tenga una voz, ya que añade una dimensión adicional a su personalidad y establece una conexión más profunda con nuestra audiencia. Además, la voz nos permitirá reproducirla para narración de historias, creación de podcasts, entrevistas, y más.

La voz puede transmitir emociones, tono y estilo únicos que complementan la apariencia visual del personaje. Aunque no es estrictamente necesario para todos los personajes, tener una voz puede hacer que la experiencia sea más inmersiva y memorable para el público. Por ejemplo, las tendencias en redes sociales indican que los videos con narración y una voz que interactúa con el público son altamente atractivos y exitosos en la actualidad.

Aunque consideramos la posibilidad de darle movimiento corporal al personaje, nos dimos cuenta de que esta tarea es más complicada de lo esperado y requiere habilidades que actualmente no poseemos. Además, la rápida evolución de modelos de imagen a video, como Sora, nos llevó a creer que pronto habrá herramientas disponibles que facilitarán la creación de videos con movimiento.

Por lo tanto, decidimos enfocarnos en desarrollar una voz para nuestro personaje, ya que esta opción era más accesible y complementaría nuestra estrategia de contenido de manera efectiva. En este artículo, detallaremos nuestra exploración para crear una voz con modelos de Inteligencia Artificial, discutiendo los desafíos enfrentados con los productos actuales y cómo nuestro personaje contribuirá a hacer nuestro contenido más atractivo e interactivo para nuestra audiencia.

Lecciones aprendidas durante el proceso

  1. Al crear un personaje, lograr la interactividad es crucial para destacarlo y hacerlo más atractivo para la audiencia.
  2. Dotar al personaje de una voz natural que no suene robótica es un desafío para el cual aún no hay una IA generativa lo suficientemente avanzada.
  3. Considera el uso de ElevenLabs por su calidad y accesibilidad. Su función de clonación de voz ofrece oportunidades para desarrollo de contenido.
  4. En cuanto al movimiento, es recomendable esperar, ya que las herramientas actuales aún están en desarrollo y pueden no mejorar significativamente la interactividad.
  5. Evalúa cuidadosamente herramientas como Runway y PikaLabs, ya que podrían requerir mucho tiempo y no cumplir con las expectativas en la interacción con tu avatar.
  6. Prioriza la clonación de voz si es posible, ya que proporciona a tu personaje una voz más realista y expresiva.
  7. Establece un flujo de trabajo para incorporar interactividad en los videos, aunque sigue siendo un desafío. Si no tienes un método fácilmente replicable, considera posponer la integración de movimiento en tu personaje por el momento.

La Búsqueda del Toque Humano

La tecnología de texto a voz ha avanzado significativamente en los últimos años, convirtiéndose en una herramienta crucial en diversas aplicaciones. Aunque los dispositivos mecánicos de hace siglos intentaban imitar la voz humana, hoy en día, gracias al rápido avance de la inteligencia artificial (IA), contamos con modelos que pueden replicar el habla humana de manera sorprendentemente realista. Empresas tecnológicas de todo el mundo se están centrando en desarrollar herramientas de IA, y la tecnología de texto a voz es una de las áreas más sofisticadas e investigadas.

Numerosas empresas de tecnología ahora ofrecen modelos de texto a voz que se utilizan en una variedad de aplicaciones, desde narrar audiolibros hasta proporcionar instrucciones de navegación en tiempo real en aplicaciones GPS. Esta tecnología no solo es útil en la vida cotidiana, sino que también permite a los usuarios experimentar y crear nuevos medios de comunicación de manera accesible.

En nuestro caso, queríamos dotar a nuestro personaje de una voz única y cercana al habla humana para establecer una conexión más profunda con nuestra audiencia. Tras explorar varias opciones, decidimos utilizar ElevenLabs, un software de síntesis de voz y texto a voz que ofrece una combinación excepcional de calidad, precio y facilidad de uso.

See Also
post7.original

Experiencia con ElevenLabs

Al principio, probamos las voces predeterminadas de ElevenLabs, que son ideales para proyectos creativos y narraciones, pero no replicaban de manera exacta el habla humana. La principal limitación de usar la tecnología de texto a voz es la sensación robótica que transmite la voz. Para eliminar este efecto optamos por la función de clonación de voz de un ser humano. Con esta función, subimos la voz de Ale, una de las coautoras del proyecto, a la plataforma de ElevenLabs y utilizamos sus modelos de IA para replicar su voz con un 90% de similitud.

Con la voz clonada de Ale, realizamos experimentos para determinar cómo interactuaría nuestro personaje con la audiencia. Creemos que esta voz hará que nuestro contenido sea más atractivo e interactivo, y también nos ayudará a establecer una identidad distintiva y memorable en nuestras plataformas digitales.

Voz de la Influencer IA

Hacia una Interactividad Más Humana

El desafío de dotar a nuestro personaje de una voz interactiva ha sido un viaje revelador sobre las capacidades de la IA. La implementación de la tecnología de texto a voz de ElevenLabs nos permitió crear una voz natural y no robótica. Aunque la tecnología aún tiene espacio para mejorar, los avances actuales son buenos y nos acercan más a una interactividad humana con la inteligencia artificial.

Para la próxima sección, sigue con nosotros mientras profundizamos en el uso de las herramientas de IA y nos adentramos en el mundo del valle inquietante.

What's Your Reaction?
Emocionado
0
Interesante
0
Neutral
0
No estoy seguro
0
Super Interesante
0
View Comments (0)

Leave a Reply

Your email address will not be published.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.