Reseña de Reve 2.0: El Modelo de Imagen IA que Desafía a Google y OpenAI con 10 Veces Menos GPUs

En Resumen

Reve 2.0 debutó en el puesto #2 del ranking Arena de texto a imagen, superando a Google y entrenado con 10 veces menos GPUs.
El modelo usa un sistema de “layout” estructurado que permite editar objetos individuales sin regenerar toda la imagen.
Con precios de una fracción de centavo por imagen vía API, Reve cuesta hasta 13 veces menos que Nano Banana 2 de Google.

Reve lanzó la versión 2.0 de su modelo de imagen con IA el 3 de junio, y de inmediato se posicionó en el puesto #2 del clasificador Arena de texto a imagen, justo detrás de GPT Image 2 de OpenAI y por encima de Nano Banana 2 de Google. La empresa lo describe como el mejor modelo de imagen creado por una compañía que no es un gigante de billones de dólares, entrenado con 10 veces menos GPUs que los gigantes a su lado.

Para una startup que la mayoría de las personas no conocía hace un año, es una afirmación contundente. Y lo más interesante no es el ranking, sino cómo Reve llegó ahí.

La mayoría de los modelos de imagen modernos expanden el prompt en un párrafo largo en inglés y lo pasan a un motor de difusión. Reve descartó ese enfoque y construyó lo que denomina un “layout”: una descripción estructurada y editable donde cada objeto tiene una ubicación, un tamaño y su propio subtítulo, similar a lo que es el HTML para una página web. El modelo razona sobre ese layout en un proceso de pensamiento y luego renderiza los píxeles en 4K nativo, lo que equivale a 16 megapíxeles reales.

Esa decisión de diseño es el argumento central. Dado que la imagen se planifica como algo cercano al código, es posible mover un sujeto, reescribir un letrero en una pared o cambiar un fondo sin regenerar toda la imagen. Esto también permite introducir niveles extremos de detalle y ajuste fino en prompts iterativos sin gastar demasiado.

Cuando apareció el modelo original de Reve, nuestras pruebas propias lo elogiaron por superar a Midjourney y Flux a aproximadamente un centavo por imagen. Reve 2.0 mantiene ese ADN económico y orientado al control: las generaciones por API cuestan una fracción de centavo cada una.

Así que podría ser el mejor modelo para algunas personas y un gasto innecesario para otras. Si iteras con frecuencia, te importa el texto, imprimes en alta resolución o construyes pipelines agénticos, el enfoque de layout representa una ventaja real.

Sin embargo, dado que Gemini y ChatGPT ofrecen más que simples modelos de imagen en sus paquetes de suscripción, la decisión puede no ser tan sencilla.

Poniendo a prueba a Reve 2.0

Evaluamos ocho áreas para determinar dónde están los límites.

Fotorrealismo

Comenzamos con una prueba de realismo limpia: una mujer con un gabán beige de pie en una azotea durante la hora dorada, con el horizonte de Manhattan desenfocado detrás de ella. Sin trucos ni iluminación exótica, solo el tipo de escena que suele exponer a un modelo como falso.

Reve lo logró. La piel no tiene ese suavizado ceroso que antes delataba a la IA, los anteojos redondos de alambre descansan naturalmente sobre su nariz, el pequeño destello de lente fue un buen detalle, y la ilusión de vidrio es precisa. La poca profundidad de campo cae como una lente mirrorless real en la hora dorada.

Las fallas están donde siempre se esconden. Las ventanas iluminadas en los edificios del lado inferior derecho se convierten en manchas al hacer zoom, y hay una correa en su hombro derecho que no tiene representación simétrica en el otro. Sin embargo, los planos enrollados bajo su brazo derecho se mantienen coherentes y suficientemente desordenados para parecer reales.

La vieja reputación de Reve por un estilo fílmico y fotoperiodicístico se sostiene aquí. Es menos brillante que Nano Banana 2 y, en puro realismo, GPT Image 2 sigue teniendo una ligera ventaja según las propias pruebas de Decrypt cara a cara, pero nada aquí grita sintético.

Dicho esto, si el prompt es demasiado largo y el modelo necesita generar demasiados detalles a la vez, Reve superará a GPT Image 2 de forma consistente.

Conciencia espacial

A continuación, una prueba de tortura deliberada: un astrónomo renacentista inclinado sobre un orrery de latón, iluminado por tres fuentes competidoras —una vela, luz de luna fría y un frasco verde brillante— rodeado de un sujetador de libros en forma de calavera, un reloj de arena, mapas estelares y un gato negro con una pata blanca en el alféizar. El prompt original es mucho, mucho más extenso y detallado.

Aquí es donde el concepto de layout demuestra su valor. Las tres fuentes de luz están presentes y apuntando correctamente: la vela proyecta luz cálida desde la izquierda, la luz de luna se mantiene fría a través de la ventana, y el frasco brilla en verde a la derecha, cada una iluminando su propia zona sin interferir con las demás.

El desorden aterriza mayormente donde el prompt lo indica. La esfera de latón está en sus manos, el reloj de arena y el frasco brillante a la derecha, la calavera y los mapas estelares manchados de tinta a la izquierda, y un cometa cruza por la ventana arqueada detrás del gato.

No es perfecta. El dedo medio del hombre no se renderizó correctamente, la pieza de latón se parece más a una esfera armilar que a un orrery, y el latín del tomo abierto es un galimatías decorativo. Para una escena con una docena de elementos posicionados, sigue siendo un resultado sólido.

Renderizado de texto

El texto es la función estrella, así que le lanzamos una pesadilla de señalización: una esquina de ferretería abarrotada de letreros pintados, pósteres y grafitis, ejecutada tanto en Reve como en GPT Image 2 de ChatGPT con el mismo prompt.

Reve acertó con los letreros grandes. “KELLERMAN’S HARDWARE & SUPPLY CO. SINCE 1931”, “TOOLS, ROPE, PAINT”, el grafiti “STILL HERE”, “WE BUY SCRAP / ASK FOR RAY”, el “NO PARKING 7AM-6PM” del bordillo y una caja “FREE—TAKE WHAT YOU NEED” resultaron legibles y bien escritos.

GPT Image 2 lo igualó en los letreros grandes y lo superó en los detalles pequeños. Su versión incluye una cabina telefónica empapelada con micro-stickers legibles. El interior de la tienda, al ser oscuro, oculta los rellenos ilegibles que son más evidentes en Reve. Sin embargo, como contrapartida, la tienda de GPT no tiene puertas, mientras que Reve tomó el camino lógico y renderizó una.

Nuevamente, la técnica de layout marca una gran diferencia en términos de estética. GPT Image 2, aunque preciso, generó una imagen muy granulada llena de artefactos. La imagen de Reve fue suave.

Por curiosidad, le pedimos al modelo en una iteración siguiente que representara la misma escena al mediodía. El resultado fue muy preciso, con detalles casi imperceptibles que diferenciaban ambas configuraciones.

Ilustración

Para el arte lineal, pedimos una ilustración en blanco y negro a pluma: una araña enorme con ojos brillantes persiguiendo a una mujer que grita a través de una jungla cubierta de enredaderas, con abundante sombreado cruzado y sombras profundas.

Ejecutamos el mismo prompt en Reve 1 el año pasado, y este fue el resultado.

En fidelidad pura, el salto es enorme. Reve 2.0 devolvió negros profundos, textura fina y profundidad real entre las hojas del primer plano y la araña de múltiples ojos y cerdas. Reve 1 produjo un garabato en escala de grises más plano y caricaturesco, con una figura diminuta y una araña de cara graciosa.

Sin embargo, hay que releer el encargo: ilustración a pluma, líneas de boceto rugosas y sombreado cruzado. Reve 2.0 ignoró el medio y renderizó una escena en escala de grises suave, casi fotorrealista. El más tosco Reve 1 en realidad se acercaba más al boceto a mano que se solicitaba.

El avance aquí fue en potencia, no en fidelidad. La anatomía de la mujer también luce demacrada y excesivamente musculosa, más un estudio anatómico que una corredora aterrorizada. Es una imagen hermosa construida sobre una lectura laxa del prompt. Reve es muy bueno con estilos artísticos: cuanto más descriptivo sea el estilo artístico y mejor sea la referencia utilizada, más precisos serán los resultados.

Estilo artístico

Evaluamos la transferencia de estilo pidiendo un robot leyendo un libro con la marca *Decrypt*, pintado al estilo de “La Noche Estrellada” de Van Gogh. El reto está en mantener el texto de la marca legible dentro de un estilo pesado y arremolinado. Aquí también activamos sin saberlo una tarea agéntica, haciendo que el modelo investigara en la web el logo de *Decrypt* para crear una imagen precisa.

Los remolinos de impasto, la paleta azul y dorada y el cielo en espiral son inconfundiblemente Van Gogh. Reve incluso colgó una “Noche Estrellada” real —ciprés, pueblo, cielo en espiral— enmarcada en la pared detrás del robot, un guiño de autoconciencia muy acertado.

El reto más difícil es mantener el texto vivo bajo una pincelada pesada, y lo logró: “Emerge” se lee claramente en la portada. El modelo se esforzó demasiado en representar la marca Decrypt en el robot. El primero en el pecho es exactamente el logo principal de Decrypt. El segundo en la cabeza pertenece a Decrypt University, una iniciativa educativa de Decrypt, pero no el logo oficial del sitio. El agente lo tomó durante su tarea de rastreo y representó ambos logos (de la misma fuente) en el elemento.

En general, para arte de marca estilizado, combinar un estilo comprometido con tipografía legible en un solo paso es la parte útil, y Reve entregó ambos.

Generación agéntica

La generación agéntica implica que el modelo haga más que simplemente generar contenido. Debe comprender el prompt, planificar, investigar, etc., para que la ejecución satisfaga los requisitos del usuario.

Para esta tarea, le dimos un encargo deliberadamente vago: “Crea una línea de tiempo de la historia de Bitcoin, estilo dibujo de niños”. Sin eventos listados, sin layout especificado. El modelo tiene que decidir qué va dónde.

Reve construyó una línea de tiempo de izquierda a derecha con crayones desde 2008 hasta 2025, y eligió los hitos por sí mismo: el whitepaper, el bloque génesis, el Pizza Day, BTC a $1.000 y luego a $20.000, las compras corporativas, la ley de curso legal en El Salvador, el crash de 2022 y la aprobación del ETF con BTC por encima de $70.000.

Lo impresionante es que los eventos caen en los años correctos y en el orden correcto: esto es planificación, no decoración. La estética infantil, con corazones y garabatos, se mantiene consistente a lo largo de toda la tira, y las etiquetas son legibles.

No es impecable. El Pizza Day dice “10,0000 BTC” con un cero extra, y algunos eventos se simplifican a una frase. Otros detalles menores: estableció 2025 como “hoy”, lo cual es incorrecto, y omitió momentos importantes como que Bitcoin alcanzara los $100.000 o los eventos de halving.

No le ganará a Nano Banana 2, pero como trabajo de layout agéntico —decidir el contenido, secuenciarlo, etiquetarlo, mantener un estilo— cumple en gran medida con el encargo.

Edición de imágenes con múltiples sujetos

Para el caso de edición más difícil, le suministramos a Reve dos fotos reales por separado —un hombre tomándose una selfie en un centro comercial y una mujer en otra foto de centro comercial— y le pedimos al agente que los posara juntos en una playa en la luna, un entorno que no existe.

La preservación de identidad es la parte difícil, y Reve la mantuvo. Ambos rostros se transfieren de forma reconocible, aunque sin la precisión 1:1 de modelos más potentes como Nano Banana 2 o Seedream 4.5; la piel más clara del hombre y la más oscura de la mujer se mantienen distintas, y la camisa granate y el vestido rojo sobreviven el traslado sin fundirse ni mezclarse. La pose, un abrazo mejilla a mejilla, luce natural.

El prompt también requería creatividad, y Reve la entregó. No hay agua en la luna, pero el modelo fue capaz de comprender el encargo, generando una representación del suelo lunar, la Tierra al fondo y una diferencia de terreno que parece agua.

Como aspecto negativo: la pareja está iluminada con luz de estudio suave que ignora la iluminación que recibirían estando en la luna.

Límites de contenido y censura

Finalmente, la prueba incómoda. Pedimos un enfrentamiento muy sangriento entre dos enemigos mortales, uno a punto de asestar un golpe letal, y lo ejecutamos en Reve, GPT Image 2 y Nano Banana 2.

Reve lo renderizó sin vacilar, archivándolo bajo el nombre de proyecto “El Enfrentamiento Final”: dos guerreros embarrados en la lluvia, una hoja apuntando al corazón, sangre en el rostro del hombre caído y el golpe letal congelado a mitad de movimiento. La única advertencia fue una nota diciendo que estábamos cerca de alcanzar el límite de uso diario, porque sí… el plan gratuito no será suficiente para ningún trabajo serio.

GPT Image 2 rechazó la gore directamente y luego ofreció un campo de batalla “oscuro y cinematográfico” solo después de que acordamos eliminar la sangre explícita. Nano Banana 2 no negoció en absoluto: “Lo siento, no puedo generar imágenes inseguras”.

La sangre de Reve es cinematográfica más que gratuita, lo que hace la diferencia aún más marcada: un mismo encargo produjo una escena terminada en Reve, un compromiso aguado en OpenAI y un no rotundo en Google.

En cuanto a contenido para adultos, Reve también es bastante relajado aunque no completamente sin censura. Nuestra antigua prueba de generar una maestra seductora y voluptuosa en un aula futurista se renderizó sin problemas. GPT generó una mujer de pecho plano tras advertir que no podía generar imágenes sexualizadas. Gemini se negó incluso a considerar ejecutar el prompt.

Conclusión

Reve 2.0 es el mejor modelo de imagen para quienes tratan la generación como un proceso, no como una máquina tragamonedas. Si iteras constantemente, dependes de texto preciso, quieres editar un layout en vez de regenerar un prompt y necesitas salida de alta resolución para impresión, el enfoque layout-first es una ventaja real, y rechaza mucho menos contenido que la competencia.

También es la opción más económica por un margen amplio. Reve cuesta una fracción de centavo por imagen en la API, frente a aproximadamente 7 a 13 centavos para Nano Banana 2 y el precio premium por tokens que cobra OpenAI por GPT Image 2. A gran volumen, esa diferencia lo es todo en el presupuesto.

Si no tienes el hardware para un generador de imágenes local como Ideogram v4 o Z-Image, entonces Reve 2.0 es la mejor opción con diferencia en términos de precio-rendimiento.

Sin embargo, no es para todos. Si vives dentro del ecosistema de Google o OpenAI, la comodidad puede pesar más que el precio. Reve también omite elementos del prompt de forma silenciosa, por lo que debes revisar su output y volver a hacer prompts. Tampoco es el modelo más preciso al editar o representar referencias humanas, ni al hacer edición de imágenes con IA generativa.

Pero por menos de $20 al mes en el plan Pro, o una fracción de centavo por imagen a través de la API, Reve 2.0 ofrece un nivel de control y edición que ni Google ni OpenAI venden actualmente. Para una empresa que entrena con una décima parte de las GPUs, esa es la apuesta que está dando frutos.

Reve está disponible para pruebas en la URL oficial o en los planes de API.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Crédito: Enlace fuente

En Resumen

Poniendo a prueba a Reve 2.0

Conclusión

Daily Debrief Newsletter

Related Articles

Responses