Probablemente haya escuchado muchos rumores en los últimos meses sobre el diferencial estable. La nueva versión (v2) acaba de ser lanzada y, además de los modos estándar de imagen a imagen y de texto a imagen, también tiene una profundidad de imagen a imagen que puede ser increíblemente útil. [Andrew] el tiene Escritura que te guía para usar este modo.
La idea básica es que puede capturar profundidad y profundidad en el modelo, lo que le permite controlar lo que sucede. La propagación estable es un poco desconcertante, pero ya tenemos algunos Excelentes recursos para moverse. En términos de entrada, puede usar un mapa de profundidad de una cámara con lidar (muchos teléfonos recientes lo incluyen) o hacer que otro modelo (como MiDaS) lo estime a partir de una imagen 2D. Esto se vuelve poderoso cuando puedes aferrarte a una determinada composición, como una escena icónica de una película famosa. Puede mantener las formas de los personajes en la pantalla, pero puede cambiar el estilo de escena a lo que desee (como se muestra arriba).
Nosotros ya tenemos Tecnología cubierta para generar texturas en blender directamentepero esta nueva información de profundidad ya se ha aplicado para proporcionar una mejor resolución de texturas.
[Justin Alvey] solía hacerlo Crea imágenes arquitectónicas a partir de muebles de casas de muñecas.. Con el modelo MiDaS, aprecie la profundidad y elimine los aspectos RGB ajustando al máximo la potencia de reducción de ruido. Los muebles de casa de muñecas simplificados del modelo fueron fáciles de detectar, lo que ayudó a lograr excelentes resultados.
Sin embargo, el único inconveniente es que la perspectiva produce una sensación de casa de muñecas. Cambiar la distancia focal y alejarse más ayuda. En general, es un uso inteligente de lo que puede hacer el nuevo modelo de IA. Es un espacio que se mueve rápidamente, por lo que es probable que quede obsoleto en unos meses.
“Orgulloso adicto al café. Gamer. Introvertido incondicional. Pionero de las redes sociales”.