En las últimas semanas, ha sido DALL-E 2 Generador de imágenes AI que hace olas en Twitter. Esta noche, Google publicó su propia versión llamada “ImagenUn profundo nivel de comprensión del lenguaje se combina con un “grado sin precedentes de realismo de imágenes”. “
a mi Google AI lidera a Jeff Dean, sistemas de IA como estos “pueden desatar la creatividad combinada humana/informática” e Imagen “One Direction” [the company is] Acecho “. El progreso realizado por Google Research, Brain Team en el modelo de publicación de texto a imagen es un nivel de realismo. En general, DALL-E 2 es en su mayoría realista con su salida, pero una mirada más profunda puede revelar las licencias técnicas ofrecidas. (Para obtener más información, asegúrese de Mira este video explicativo.)
Imagen se basa en el poder de los grandes modelos de lenguaje transformador para comprender el texto y depende del poder de los modelos de difusión para generar imágenes de alta resolución. Nuestro principal hallazgo es que los modelos genéricos de lenguaje grande (como T5), previamente entrenados en un conjunto de solo texto, son sorprendentemente efectivos para codificar texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen mejora tanto la precisión de la muestra como el texto de la imagen. la alineación es mucho más que aumentar el tamaño del modelo de lenguaje en Imagen. Formulario de publicación de imágenes.
Para demostrar este progreso, Google ha creado un estándar para evaluar modelos de texto a imagen llamado dibujarbanco. Los evaluadores humanos prefirieron “Imagen a otros modelos en comparaciones lado a lado, para la calidad de la muestra y la alineación del texto de la imagen”. En comparación con VQ-GAN + CLIP, modelos de difusión latente y DALL-E 2.
Mientras tanto, las métricas utilizadas para demostrar que Imagen es mejor para comprender las solicitudes de los usuarios incluyen relaciones espaciales, textos largos, palabras raras e indicaciones difíciles. Otro avance es la nueva y eficiente arquitectura U-Net que “presenta más eficiencias informáticas, mayores eficiencias de memoria y una convergencia más rápida”.
Imagen logra un nuevo puntaje FID de 7.27 en el conjunto de datos COCO, sin ningún entrenamiento COCO, y los evaluadores humanos encuentran que las muestras de Imagen son iguales a los mismos datos COCO en la alineación del texto de la imagen.
En el frente del impacto social, Google ha decidido “no lanzar un ícono o demostración pública” de Imagen en este momento debido a un posible abuso. además de:
Imagen se basa en códecs de texto entrenados en datos no saturados de toda la web, por lo que hereda los sesgos sociales y las limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen cifre representaciones y estereotipos maliciosos, lo que guía nuestra decisión de no publicar Imagen para uso público sin más garantías.
Eso es lo que se dijo, hay un archivo. Presentación interactiva en el sitio.y el El trabajo de investigación está disponible aquí.
Más sobre la IA de Google:
FTC: Utilizamos enlaces de afiliados para obtener ingresos. más.
“Orgulloso adicto al café. Gamer. Introvertido incondicional. Pionero de las redes sociales”.