diciembre 24, 2024

Telecentro di Bologna e dell'Emilia-Romagna

Manténgase al tanto de las últimas novedades de España sobre el terreno

Los aficionados descubren cómo insertar fuentes personalizadas en imágenes generadas por IA

Ejemplo de Cyberpunk 2077 LoRA en acción, renderizado con Flux dev.
Dar un golpe de zoom / Ejemplo generado por inteligencia artificial Ciberpunk 2077 LoRA, presentado usando Flux dev.

La semana pasada, un aficionado experimentó con un nuevo modelo de síntesis de imágenes Flux AI ha sido descubierto Son inesperadamente buenos a la hora de proporcionar versiones de fuentes especialmente entrenadas. Si bien ha habido métodos más eficientes para representar fuentes de computadora durante décadas, la nueva tecnología es útil para los entusiastas de las imágenes de IA porque Flux puede representar visualizaciones de texto detalladas y los usuarios ahora pueden insertar palabras representadas con fuentes personalizadas directamente en generaciones de imágenes de IA. .

Hemos tenido la tecnología para producir líneas precisas y suaves dibujadas por computadora en formas personalizadas desde la década de 1980 (y en la década de 1970 en investigación), por lo que crear una fuente clonada con IA no es nada nuevo en sí mismo. Pero la nueva tecnología permite ver aparecer una fuente particular en imágenes generadas por IA de, por ejemplo, un menú en una pizarra de un restaurante de la vida real o una tarjeta de presentación impresa sostenida por un zorro robótico.

Poco después de que los modelos de montaje fotográfico con IA se generalizaran como Stable Diffusion en 2022, algunas personas comenzaron Preguntarse¿Cómo puedo incluir mi producto, prenda, personalidad o estilo en una imagen generada por IA? Una respuesta que surgió llegó en forma de LoRA (adaptación de rango bajo), una técnica ha sido descubierto En 2021, se lanzó un modelo base de IA que permite a los usuarios aumentar el conocimiento en el modelo base de IA con extensiones de referencia especialmente entrenadas.

Estos módulos LoRA, como se llaman los módulos, permiten que los modelos de síntesis de imágenes creen nuevos conceptos que no se encontraron originalmente (o estaban mal representados) en los datos de entrenamiento del modelo subyacente. En la práctica, los entusiastas de la síntesis de imágenes las utilizan para proporcionar estilos únicos (por ejemplo, todo en… arte de tiza) o temas (imágenes detalladas de hombre araña(Por ejemplo). Cada LoRA debe capacitarse específicamente utilizando ejemplos proporcionados por el usuario.

Antes de Flux, la mayoría de los generadores de imágenes de IA no eran muy buenos para mostrar texto preciso dentro de una escena. Si le pide a Stable Diffusion 1.5 que muestre una etiqueta que diga «queso», le mostrará una tontería. DALL-E 3 de OpenAI, lanzado el año pasado, fue el primer modelo importante que realizó el procesamiento de texto bastante bien. Flux todavía comete errores ocasionales de palabras y letras, pero es el modelo de IA de «texto en el mundo» (lo que sea) más capaz que hemos visto hasta ahora.

Dado que Flux es un modelo abierto disponible para descarga y microconversión, el mes pasado fue la primera vez que el entrenamiento de línea LoRA podría tener sentido. Esto es exactamente lo que Descubierto recientemente por un entusiasta de la IA llamado Vadim Fedenko (que al cierre de esta edición no había respondido a una solicitud de entrevista). «Estoy realmente impresionado con el resultado», escribió Fedenko en Compartir en Reddit«Flux reconoce cómo se ven las letras en un estilo/fuente específico, lo que permite entrenar a Loras con fuentes, estilos, etc. específicos. Pronto entrenaré a más de ellos».

Para su primer intento, Fedenko eligió una bebida espumosa. Fuente de estilo «Y2K» El modelo resultante, que recuerda a los que fueron populares a finales de los 90 y principios de los 2000, se publicó en la plataforma Civitai el 20 de agosto. Dos días después, un usuario de Civitai llamado «AggravatingScree7189» publicó una segunda fuente LoRA que reproducía una fuente similar a la de Ciberpunk 2077 Videojuego.

«El guión era tan malo antes de que se me ocurriera que se podía hacer esto». libros Un usuario de Reddit llamó a egg-benedryl al responder a la publicación de Fedenko sobre la línea Y2K. Otro usuario de Reddit libros«No sabía que la revista Y2K era falsa hasta que la acerqué».

¿Es exagerado?

مثال على <em>Ciberpunk 2077</em> LoRA, renderizado con Flux dev.» src=»https://cdn.arstechnica.net/wp-content/uploads/2024/08/ without_with_2-640×357.jpg» width=»640″ height=»357″ srcset= » https://cdn.arstechnica.net/wp-content/uploads/2024/08/ without_with_2.jpg 2x»/></a><figcaption class=
Dar un golpe de zoom / Caso en punto Ciberpunk 2077 LoRA, presentado usando Flux dev.

Es cierto que usar una red neuronal profundamente entrenada para sintetizar imágenes y mostrar una línea simple sobre un fondo simple probablemente sea excesivo. Probablemente no quieras utilizar este método para reemplazar Adobe Illustrator al diseñar un documento.

«Suena bien, pero es curioso que estemos reinventando la idea de las fuentes con archivos LoRA de 300 MB». libros Un comentarista de Reddit en un hilo sobre Ciberpunk 2077 Fuente.

La IA generativa es a menudo criticada por su impacto ambiental, lo cual es una preocupación legítima para los grandes centros de datos en la nube. Pero descubrimos que Flux puede insertar estas líneas en escenas generadas por IA mientras se ejecuta localmente en el RTX 3060 en Cuantificado (Tamaño reducido) (El modelo de desarrollo completo se puede ejecutar en una RTX 3090). Es un consumo eléctrico similar al de jugar un videojuego en el mismo PC. Lo mismo ocurre con la creación de un LoRA:Constructor. Ciberpunk 2077 Fuente entrenador LoRA en tres horas en una GPU 3090.

También existen cuestiones éticas en torno al uso de generadores de imágenes impulsados ​​por IA, como la forma en que se entrenan con datos recopilados sin el consentimiento del propietario del contenido. Aunque la tecnología genera división entre algunos artistas, una gran comunidad de personas la usa todos los días. Comparte los resultados en línea A través de plataformas de redes sociales como Reddit, lo que lleva a nuevas aplicaciones de la tecnología como ésta.

Al momento de escribir este artículo, solo hay dos líneas dedicadas a Flux LoRA, pero ya hemos oído hablar de planes para crear más mientras escribimos estas líneas. Aunque esta tecnología aún se encuentra en sus primeras etapas, puede resultar esencial si la síntesis de imágenes mediante IA se implementa más ampliamente en el futuro. Es probable que Adobe, con sus modelos de síntesis de imágenes, esté atento a esto.