Nvidia ha anunciado una nueva plataforma de videoconferencia para desarrolladores llamado Nvidia Maxine que afirma, puede solucionar algunos de los problemas más comunes en las videollamadas.
Maxine procesará videollamadas en la nube usando las GPU de Nvidia y aumentará la calidad de las llamadas de varias maneras con la ayuda de la inteligencia artificial. Usando la IA, Maxine puede realinear las caras y miradas de las personas que llaman para que siempre estén mirando directamente a su cámara, reducir el requisito de ancho de banda para el video «hasta una décima parte de los requisitos del estándar de compresión de video en streaming H.264» transmitiendo solo «puntos faciales clave» y ampliando la resolución de los videos.
Otras características disponibles en Maxine incluyen iluminación facial, traducción y transcripción en tiempo real, y avatares animados. Si bien esto podría ser útil, muchas de estas características no son nuevas. La compresión de vídeo y la transcripción en tiempo real son bastante comunes, e Incluso Microsoft e incluso Apple las han introducido antes.
Maxine no es una plataforma de consumo, sino un conjunto de herramientas para que las empresas de terceros mejoren su propio software. Hasta ahora, sin embargo, Nvidia sólo ha anunciado una asociación – con la firma de comunicaciones Avaya, que va a utilizar características selectas de Maxine.
«Todos hemos experimentado tiempos en los que el ancho de banda ha sido una limitación en nuestras conferencias que estamos haciendo a diario en estos días», dijo Kerris de Nvidia. «Si aplicamos la IA a este problema, podemos reconstruir las escenas de diferencia en ambos extremos y transmitir solamente lo que necesita transmitir, y así reducir ese ancho de banda significativamente».
Nvidia dice que su característica de compresión utiliza un método de IA conocido como redes adversarias generativas o GANs para reconstruir parcialmente las caras de los participantes en la nube. Esta es la misma técnica utilizada en muchos deepfakes. «En lugar de transmitir toda la pantalla de píxeles, el software de IA analiza los puntos faciales clave de cada persona en una llamada y luego vuelve a animar inteligentemente la cara del video en el otro lado.»