Pesquisadores da Microsoft Research Lab, na China, apresentam o VASA-1, um avançado modelo de inteligência artificial (IA) que revoluciona a animação de fotos. Esta tecnologia transforma imagens estáticas em vídeos realistas, dotando-as de movimentos, expressões faciais e sincronia labial, tudo a partir de uma única foto e áudio.
Capacidades e Aplicações
Além de dar vida a rostos humanos, o VASA-1 é versátil o suficiente para animar imagens artísticas, como personagens fictícios e obras de arte. Surpreendentemente, também pode gerar falas em qualquer idioma e até mesmo cantar. Para a geração de fala, basta incluir um clipe de áudio desejado, podendo ser da própria pessoa na foto ou não.
Os usuários têm controle total sobre as expressões faciais, direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes, todos manipuláveis em tempo real. Os vídeos resultantes têm resolução de 512×512 pixels e atingem até 40 quadros por segundo, proporcionando uma experiência visual incrível.
Riscos e Considerações Éticas
Os pesquisadores reconhecem os riscos associados à tecnologia, especialmente o potencial para criar deepfakes enganosos. Por isso, só pretendem comercializar o produto quando estiverem seguros de que será utilizado de forma responsável e em conformidade com as regulamentações adequadas.
Apesar dos desafios, a equipe destaca diversos usos positivos, como melhorar a equidade educacional, aumentar a acessibilidade para pessoas com desafios de comunicação e fornecer companhia ou apoio terapêutico. A tecnologia promete abrir caminhos inovadores em várias áreas, oferecendo soluções criativas e benéficas.
Foto: Reprodução / Perfil Brasil