El 10 de junio de 2026, Google DeepMind publicó DiffusionGemma: el primer modelo de texto de gran escala basado en difusión que llega con pesos completamente abiertos bajo licencia Apache 2.0. El modelo rompe con el paradigma de generación token a token que han usado todos los grandes modelos de lenguaje desde GPT-2: en lugar de predecir una palabra a la vez, DiffusionGemma genera bloques enteros de 256 tokens en paralelo, logrando hasta 4 veces la velocidad de generación de un modelo autoregresivo equivalente en regímenes de usuario único. Esto lo convierte en el modelo más rápido disponible libremente para ejecutarse en hardware local, incluyendo GPUs de consumo como la NVIDIA GeForce RTX 5090.
¿Qué Anunció Google DeepMind con DiffusionGemma?
DiffusionGemma es un modelo de 26 mil millones de parámetros basado en arquitectura Mixture-of-Experts (MoE) construido sobre Gemma 4, con solo 3.8B parámetros activos por paso de inferencia. Su mecanismo de difusión textual reemplaza la predicción secuencial por una generación densa en bloques, lo que produce latencias extraordinariamente bajas. Los benchmarks publicados son concretos: más de 700 tokens/segundo en una NVIDIA GeForce RTX 5090, 1,000 tokens/segundo en una sola NVIDIA H100 Tensor Core GPU, 150 tokens/segundo en el NVIDIA DGX Spark, y hasta 2,000 tokens/segundo en una NVIDIA DGX Station. En hardware cuantizado, el modelo requiere apenas 18 GB de VRAM — lo que lo hace accesible en tarjetas de gama alta para consumidor. La disponibilidad es inmediata: pesos en Hugging Face con soporte día cero en Transformers, vLLM, Unsloth, MLX y NVIDIA NeMo. NVIDIA publicó simultáneamente su propio blog técnico confirmando la aceleración en el ecosistema RTX AI Garage, DGX Spark y RTX PRO — una colaboración formal que respalda el despliegue local sin depender de la nube.
"Un modelo de IA de nivel empresarial que corre en tu propia GPU, sin pagar por cada token ni compartir tus datos con la nube, es exactamente el escenario que las PYMEs han estado esperando. DiffusionGemma lo hace real hoy."
Davarion Group & LabsImpacto Real para las PYMEs
- 01Cero costo por token: al correr localmente en una GPU RTX de consumo (RTX 4090 o RTX 5090), una PYME procesa millones de tokens sin pagar API. Un servidor de automatización con DiffusionGemma reemplaza suscripciones mensuales de $500–$3,000 USD en APIs de OpenAI o Anthropic para cargas de trabajo de texto intensivo.
- 02Velocidad 4x para flujos de trabajo de agentes: chatbots de atención al cliente, generación masiva de descripciones de productos, resumen de contratos y correos — todos se ejecutan en tiempo real. Con 1,000 tokens/seg en H100 y 700 en RTX 5090, una respuesta de 500 palabras tarda menos de 0.5 segundos.
- 03Privacidad total de datos: al no requerir conexión a API externas, los datos confidenciales de la empresa (facturas, contratos, correos de clientes) nunca salen del servidor propio. Esto es crítico para negocios en sectores regulados como legal, salud y finanzas.
- 04Acción inmediata recomendada: descargar DiffusionGemma desde Hugging Face, evaluar el modelo con vLLM en una GPU RTX, y mapear qué flujos de generación de texto internos pueden migrar de API cloud a inferencia local dentro de los próximos 30 días.
DiffusionGemma redefine la ecuación económica de la automatización con IA para negocios medianos. Hasta ahora, la velocidad de inferencia empresarial requería acceso a infraestructura cloud de alto costo o acuerdos de API que se facturan por cada token generado. Con esta publicación, Google DeepMind — en colaboración directa con NVIDIA — democratiza el acceso a un modelo de velocidad cuasi-instantánea que puede correr en un servidor on-premise o incluso en una estación de trabajo avanzada. La licencia Apache 2.0 elimina restricciones de uso comercial, lo que significa que cualquier empresa puede integrarlo en productos y servicios propios sin royalties ni restricciones de redistribución. El soporte inmediato en vLLM y Hugging Face Transformers significa que los equipos técnicos pueden desplegarlo hoy con herramientas que ya conocen.
En Davarion Group & Labs diseñamos e implementamos agentes de IA autónomos para pequeñas y medianas empresas en Houston, TX y a lo largo de América Latina. Con el lanzamiento de DiffusionGemma, ahora podemos construir soluciones de automatización de texto de alta velocidad que corren completamente en infraestructura propia del cliente — eliminando costos recurrentes de API y garantizando privacidad total de datos. Si tu empresa procesa grandes volúmenes de texto — generación de propuestas, atención al cliente, análisis de documentos o automatización de reportes — contáctanos en davarion.com para explorar cómo DiffusionGemma puede reducir tu costo operativo de IA hasta en un 90% mientras multiplica la velocidad de procesamiento.