puppet
Symbionts
Given an audio sequence of a source person or digital assistant, we generate a photo-realistic output video of a target person that is in sync with the audio of the source input. This audio-driven facial reenactment is driven by a deep neural network that employs a latent 3D face model space. Through the underlying 3D representation, the model inherently learns temporal stability while we leverage neural rendering to generate photo-realistic output frames. This approach generalizes across different people, allowing to synthesize videos of a target actor with the voice of any unknown source actor or even synthetic voices that can be generated utilizing standard text-to-speech approaches. This has a variety of use-cases, including audio-driven video avatars, video dubbing, and text-driven video synthesis of a talking head. We demonstrate the capabilities of this method in a series of audio- and text-based puppetry examples. This method is not only more general than existing works since we are generic to the input person, but we also show superior visual and lip sync quality compared to photo-realistic audio- and video-driven reenactment techniques.
Dada una secuencia de audio de una persona de origen o asistente digital, generamos un video de salida fotorrealista de una persona de destino que está sincronizado con el audio de la entrada de origen. Esta recreación facial basada en audio es impulsada por una red neuronal profunda que emplea un espacio de modelo facial 3D latente. A través de la representación 3D subyacente, el modelo aprende inherentemente la estabilidad temporal mientras aprovechamos el renderizado neuronal para generar marcos de salida fotorrealistas. Este enfoque se generaliza a través de diferentes personas, lo que permite sintetizar videos de un actor objetivo con la voz de cualquier actor de origen desconocido o incluso voces sintéticas que se pueden generar utilizando enfoques estándar de texto a voz. Esto tiene una variedad de casos de uso, incluyendo avatares de video con audio, doblaje de video y síntesis de video con texto de una cabeza parlante. Demostramos las capacidades de este método en una serie de ejemplos de títeres basados en audio y texto. Nuestro método no solo es más general que los trabajos existentes, ya que somos genéricos para la persona de entrada, sino que también mostramos una calidad visual y de sincronización de labios superior en comparación con las técnicas de recreación basadas en audio y video fotorrealistas.
134992241 Bytes