Imagen cortesía de Metaverse Entertainment

Conoce a MAVE:, el grupo de k-pop virtual creado con Unreal Engine y MetaHuman

Jinyoung Choi
Metaverse Entertainment se dedica a la producción de contenidos multimedia y se creó al combinar la tecnología de Netmarble F&C con la sensibilidad de Kakao Entertainment. Cuenta con la capacidad y la infraestructura necesarias para producir películas y series de ficción, crear una amplia gama de tipos de contenido (desde efectos visuales hasta humanos virtuales) y ampliar dichas PI a diversos ámbitos.
La banda virtual de k-pop MAVE: lanzó su primer vídeo musical a finales de enero de 2023. Tras el estreno de su vídeo, el grupo debutó en Show! Music Core, uno de los programas musicales líderes en Corea del Sur, dando lugar a una nueva tendencia en el género. MAVE: ha llamado mucho la atención por sus cantantes realistas, su convincente animación y, sobre todo, por sus pegadizas canciones. En el momento de escribir este reportaje, el vídeo musical de MAVE: ya contaba con 21 millones de visualizaciones y el de su debut en directo, con 3 millones. MAVE: se comunica con los fans de diferentes formas, sobre todo a través de programas de televisión y redes sociales.

Hablamos con Sungkoo Kang, director técnico de Metaverse Entertainment, para que nos cuente cómo su empresa ha usado Unreal Engine y MetaHuman para crear auténticos humanos digitales y cómo fueron capaces de crear distintos tipos de contenido para múltiples plataformas en tan poco tiempo.
 

P: Supongo que el primer paso en MAVE: fue crear a las integrantes del grupo. ¿Qué objetivos se perseguían al crear estos personajes digitales?

Nuestro objetivo cuando pensamos en crear a MAVE:, este grupo musical virtual de cuatro personas, era el de crear personajes atractivos, cada uno con una apariencia completamente nueva que no existiera en ninguna otra parte del mundo. Para crear un personaje que resulte atractivo, no basta con trabajar su apariencia, sino que también hay que añadirle una amplia gama de expresiones faciales para diferentes situaciones. Por ello, nos hemos centrado en crear y desarrollar un proceso y una tecnología con las que hacerlo posible.

P: Por lo que tengo entendido, se ha usado MetaHuman para crear los personajes. ¿Cuál es el motivo de esa decisión?

Como ya he mencionado, además de querer darle una apariencia atractiva, es esencial que un personaje convincente tenga una gama de expresiones faciales detalladas, adaptadas a diferentes situaciones. Sin embargo, crear y modificar esas expresiones faciales es una tarea larga y costosa, porque siempre implica procesos de rigging o modelado y exige revisiones y verificaciones reiteradas. Por eso, consideramos que la herramienta perfecta era la tecnología MetaHuman de Epic, ya que cuenta con años de experiencia en la creación de humanos digitales. Esa colaboración supuso una parte decisiva en la creación de nuestros personajes.

Con el rig facial de MetaHuman, pudimos crear fácilmente las expresiones faciales que queríamos y usar animaciones para varios personajes. Además, pudimos centrarnos en I+D (por ejemplo, en mejorar el rig de control) al consultar Rig Logic: Runtime Evaluation of MetaHuman Face Rigs, un libro blanco publicado por Epic Games. Además, el alto nivel de compatibilidad con herramientas externas, como Audio2Face de NVIDIA, la aplicación Live Link Face para iPhone, Faceware o FACEGOOD, nos permitió utilizar la animación MetaHuman y reducir drásticamente el tiempo de producción real al compartir la topología de malla subyacente, los UV, la estructura de articulaciones y los controles.

P: ¿Cuál es la razón de usar Unreal Engine con MetaHuman?

Durante la concepción de MAVE:, le dimos muchas vueltas a cómo debía posicionarse nuestro proyecto y en qué tipo de actividades queríamos que participase esta banda virtual. El factor más importante residía en la productividad de nuestros contenidos. Muchas actividades implicaban una gran cantidad de producción de contenidos y, para eso, hay que tener mucha eficiencia productiva. Si no se consiguen esos estándares, habría que renunciar a la calidad visual. Por todo ello, decidimos recurrir a Unreal Engine, no solo por su eficiencia, sino también por su calidad de renderizado en tiempo real. Con Unreal Engine, conseguimos que MAVE: pudiese abarcar un rango de actividades mayor en varios ámbitos, como la producción de un vídeo musical transmedia en un tiempo reducido, la actividad en redes sociales y nuevos programas de televisión y anuncios.

Las redes sociales son un canal importante para captar y crear vínculos con los seguidores. Para que esto ocurra, se necesitan distintas formas y cantidades de contenido de alta calidad. Por eso elegimos Unreal Engine antes que otras herramientas. Unreal Engine nos permitió crear distintos tipos de contenido, como imágenes fotorrealistas y vídeos, para interactuar con los seguidores en diferentes plataformas sociales.

P: ¿Qué tipo de proceso se empleó en la creación de cada personaje de MAVE:?

El equipo de creación de MAVE: está compuesto de personas con mucho talento procedentes de distintos campos como el sector del videojuego y el cine, lo que significa que todos han acabado usando diferentes herramientas de creación de contenido digital en función de su especialidad. Por ejemplo, los miembros del equipo del sector de los videojuegos conocen bien el renderizado en tiempo real, mientras que los del sector del cine y entretenimiento tienen experiencia en la producción de contenido multimedia con vídeo, así que hemos creado un proceso de trabajo especial para maximizar las sinergias entre cada miembro del equipo.

El proceso de trabajo comprende la planificación y la creación de personajes. La creación de personajes se divide, a su vez, en diferentes pasos detallados como el modelado, la creación de expresiones faciales y el rigging, la creación del pelo y la calibración del cuerpo.

La planificación de personajes es la fase en la que se diseña la apariencia de cada personaje. Este proceso se llevó a cabo en colaboración con los expertos de Kakao Entertainment, que cuentan con una gran experiencia en la preparación de grupos de k-pop exitosos. Sin embargo, en los conjuntos tradicionales de k-pop, los miembros proceden de una cantera de aprendices y su aspecto se completa con maquillaje y estilismo. En cambio, para los grupos virtuales tenemos que crear seres humanos virtuales de cero, como personas totalmente nuevas, y cuidar no solo su apariencia, sino también detallar sus expresiones faciales, sus movimientos, sus patrones de habla, etc.

Para suplir este vacío y proporcionar un entorno de trabajo lo más parecido posible al original del equipo de planificación, el equipo de producción creó un proceso de trabajo que utiliza una red GAN para generar automáticamente las imágenes objetivo y modificar o combinar manualmente los vectores propios. Esto permitió al equipo de planificación seleccionar un personaje existente y modificar sus parámetros para adaptarlos a los planos, en vez de tener que crear su aspecto desde cero. El equipo de planificación nos ayudó mucho al compartir con nosotros su conocimiento sobre la fórmula del éxito de un grupo de k-pop, que han obtenido durante años.
 
Imagen cortesía de Metaverse Entertainment
Composición de imágenes mediante una red generativa antagónica (GAN).

Como el modelado facial está directamente relacionado con el estilo de un personaje, trabajamos con estilistas profesionales con experiencia en trajes y peinados de grupos de k-pop. Gracias a ellos, podíamos determinar el estilo adecuado antes de proceder al modelado en el paso de definición facial. Si hubiéramos escaneado a una persona real, habríamos podido crear un aspecto realista mucho más rápido, pero se presentarían algunos problemas, como la dificultad de encontrar a una persona que tuviera exactamente el aspecto que queremos y los consiguientes problemas con los derechos de imagen. Así pues, creamos las caras de MAVE: con herramientas de modelado.
 
Imagen cortesía de Metaverse Entertainment
Modelado 3D de MAVE:.

Para los pasos de creación y modificación de expresiones faciales, utilizamos una herramienta propia que analiza el modelo y genera automáticamente unas 800 expresiones faciales, a la vez que emplea información sobre la ubicación y el tamaño de cada zona, el flujo muscular, etc. El proceso es similar al de las funciones que generan automáticamente expresiones faciales cuando se introduce un tipo de malla básico, como el complemento Mesh to MetaHuman. Como Mesh to MetaHuman no estaba aún disponible entonces, tuvimos que desarrollar nuestra propia herramienta. No obstante, Mesh to MetaHuman fue de gran ayuda a la hora de modificar el algoritmo según las necesidades y crear un proceso automatizado.

También creamos una función para personalizar expresiones faciales específicas que reflejen la personalidad del personaje, además de las expresiones faciales estándar. La incorporación de estas nuevas expresiones faciales exigía un rigging adecuado, por lo que generamos rigs de control automáticamente en Unreal Engine y los configuramos para el personaje en cuestión.
Imagen cortesía de Metaverse Entertainment
Proceso de eliminación de arrugas al levantar las cejas, cerrar los ojos y bajar las pupilas.
La base del pelo se generó con el conjunto de herramientas XGen de Maya. El renderizado capilar de Unreal Engine se generaba en tiempo real, pero con una calidad increíble, por lo que pudimos ahorrar mucho tiempo en este proceso. Sin embargo, a veces no podíamos utilizar este renderizado capilar porque era necesario obtener un rendimiento aún mayor. En este caso, creamos una herramienta para convertir el pelo renderizado de los peinados en una tarjeta. Automatizamos nuestros procesos para optimizarlos y así no realizar tareas manuales a la hora de modificar y aplicar el pelo, como por ejemplo, tener que crear un recurso de vinculación si no existe durante el proceso de cambio de pelo.

También automatizamos el paso de calibración del cuerpo y utilizamos multitud de formas de calibración para modificar la forma en función de la pose. Para solventar los problemas que pueden producirse al utilizar el solucionador de funciones de base radial (RBF) de Maya, desarrollamos un nuevo algoritmo de resolución. Con ello, se evitaba la imposibilidad de aplicar jerarquía a la interpolación o aumentar la probabilidad de que se produzca una forma no deseada en el cuerpo cuando se aplican ajustes detallados.

Además, utilizamos los nodos de física, simulación de tela y animaciones dinámicas de Unreal Engine, así como otras opciones para crear reacciones naturales de la ropa y los accesorios. El equipo también utilizó el soporte DMX de Unreal Engine para crear con éxito un escenario espectacular.
 
Imagen cortesía de Metaverse Entertainment
(Izquierda) Antes de aplicar la forma de calibración para interpolar la forma de la mano. (Derecha) Tras aplicar la forma de calibración.

P: Debe haber sido difícil organizar y crear un escenario realista con un grupo virtual que transmita la emoción del k-pop. ¿Cómo ha sido el proceso?

Para crear un vídeo musical que captara la esencia del k-pop, trabajamos con un director que ha hecho vídeos musicales de k-pop reales, un director de fotografía, un equipo de grip, operadores de grúa y un equipo de baile. También intentamos recrear y proporcionar un entorno escenográfico idéntico al de los procesos y condiciones tradicionales para que el equipo de producción de k-pop pudiera rendir al máximo. Para ello, montamos un gran complejo de efectos visuales de 20 m x 20 m x 8 m, que se encargaba de la captura de movimiento en un espacio tan grande como el plató de un vídeo musical real, y lo preparamos para capturar no solo la actuación de los actores, sino también el movimiento del equipo de rodaje real, de tal manera que después se pudo recrear el asombroso trabajo de cámara del vídeo musical.

Los actores realizaron la coreografía con trajes de captura de movimiento y los filmamos como si fuera una actuación musical en directo en el mundo real. Estos datos de cámara, monitorizados con Mo-Sys StarTracker, se utilizaron directamente en la representación virtual final en Unreal Engine, lo que le dio un aspecto muy convincente. Se previsualizaron los ángulos de cámara y el movimiento de los actores en Unreal Engine para comprobar los resultados sobre la marcha y, después, se grabaron simultáneamente en Vicon Shogun y Unreal Engine.

La grabación también se realizó como si se tratase de un vídeo musical de k-pop auténtico, al capturar a los cuatro miembros actuando a la vez. Primero, editamos los cortes con los datos de captura de movimiento tomados con la cámara in situ y después los refinamos en función de las ediciones. De este modo, nos centramos en las partes que realmente se utilizarían en la versión final. Pudimos conseguir movimientos más naturales porque nuestro trabajo se basaba en el movimiento de seres humanos reales.
 

P: ¿Se sabe algo sobre próximos contenidos de MAVE: y el futuro de Metaverse Entertainment?

Al ser estrellas virtuales creadas con Unreal Engine, MAVE: está preparando contenido de otro nivel, que lo hará destacar en el sector del k-pop. Estamos trabajando muy duro para ofrecer estos contenidos, ¡así que estad atentos a nuestras novedades!

Pretendemos ampliar nuestra actividad comercial con el uso de nuestras PI en películas, series de ficción y videojuegos, pero también nos planteamos nuevos objetivos relacionados con nuestras especialidades, como los humanos virtuales y el metaverso. Contamos con Unreal Engine en nuestra hoja de ruta para proporcionar una base sólida para diferentes contenidos, entre los que se incluyen el contenido en tiempo real con fans, el contenido interactivo y los nuevos medios de comunicación.

Visita el sitio web oficial y los canales de las redes sociales para estar al día sobre las últimas novedades de MAVE:.

    ¡Hazte ya con Unreal Engine!

    Consigue la herramienta de creación más abierta y avanzada del mundo.
    Unreal Engine incluye todas las funciones y acceso ilimitado al código fuente, ¡listo para usar!