Sora 2 de OpenAI: generación de video y audio con física y control avanzados

28 nov 2025
6 Min. de lectura

Antecedentes

El 30 de septiembre de 2025, OpenAI anunció Sora 2, la segunda generación de su modelo de video y audio generativo. Según la compañía, el primer Sora de febrero de 2024 demostró que un gran modelo de texto‑a‑video podía mantener la permanencia de objetos y generar secuencias coherentes; Sora 2 da un salto equivalente a la transición de GPT‑1 a GPT‑3.5 en el dominio del video. La actualización se acompaña de una aplicación social llamada Sora, en la que los usuarios pueden crear clips, subir su propia apariencia y compartir creaciones en un feed personalizado. La aparición simultánea de un modelo y una plataforma social indica la intención de democratizar la generación audiovisual y competir con redes como TikTok.

Ficha técnica

Atributo	Descripción
Producto/IA	Sora 2
Empresa/Organización	OpenAI
Fecha de anuncio	30 de septiembre de 2025
Dominio	Generación de video y audio; modelos multimodales y simulación de física
Tecnología base	Modelo generativo multimodal (texto‑a‑video y audio) entrenado con grandes conjuntos de datos de video; incorpora arquitectura mejorada para simular física y mantener estado
Capacidades clave	• Genera videos realistas con movimientos físicamente plausibles (ejemplos: rutinas gimnásticas, backflips en tabla de paddle, triple axel con un gato); • Incluye audio sincronizado (diálogos y efectos); • Puede integrar personas reales mediante la función cameos (el usuario se graba para crear su avatar y luego lo inserta en cualquier escena generada); • Sigue instrucciones complejas en múltiples planos y mantiene el estado de los objetos a lo largo del clip; • Genera estilos cinematográficos, realistas y de anime
Resultados demostrados	Mejora la precisión física: si un jugador de baloncesto falla un tiro, el balón rebota en lugar de teletransportarse; maneja tareas difíciles como rutinas olímpicas y acrobacias
Aplicación	Aplicación móvil Sora (iOS inicial) con un feed personalizado; ChatGPT Pro permite probar el modelo sin invitación
Costo/licencia	Uso básico gratuito en la app con restricciones; opción de pago para generar videos adicionales según la demanda
Público objetivo	Creadores de contenido, cineastas, educadores, diseñadores y usuarios que desean generar videos rápidos para marketing, redes sociales o entretenimiento
Disponibilidad geográfica	Lanzamiento inicial en EE.UU. y Canadá; planes de expansión global
Controles de seguridad	Feed con algoritmos que priorizan la creación sobre el consumo; control parental, límites de contenido para menores y moderación humana
Privacidad	El usuario controla quién puede usar su cameo; se puede revocar el acceso y eliminar videos con su imagen

Descripción de la aplicación

Sora 2 es un modelo generativo de texto‑a‑video y audio que simula entornos físicos con un realismo sin precedentes. OpenAI afirma que Sora 2 puede generar escenas que antes eran imposibles para los modelos de video: rutinas olímpicas, acrobacias en paddle board o triples axel con animales. A diferencia de modelos anteriores que deformaban la realidad para cumplir con la instrucción (por ejemplo, teletransportar un balón al aro), Sora 2 respeta leyes físicas como la gravedad y el rebote. Además, ofrece control detallado sobre múltiples planos; puede seguir instrucciones sobre movimientos de cámara, iluminación y duración, y mantiene el estado de los objetos entre escenas.

El modelo genera tanto video como audio, con diálogos y efectos sincronizados. A través de la función cameos, los usuarios pueden grabar un breve video y audio para capturar su apariencia; Sora 2 entonces puede insertarlos en cualquier escena generada con fidelidad de imagen y voz. Esta función está diseñada para la nueva aplicación Sora, una plataforma social que combina creación y feed personalizado. El feed prioriza videos de personas que el usuario sigue, sugiere contenido para inspirar sus propias creaciones y evita optimizar por tiempo de visualización. Para adolescentes, se imponen límites de generación y configuraciones de privacidad adicionales; los padres pueden gestionar el feed mediante controles de ChatGPT.

OpenAI reconoce riesgos de adicción, violencia y desinformación, por lo que implementa moderadores humanos, algoritmos de seguridad y permite a los usuarios controlar quién puede usar su cameo. Sin embargo, la empresa aún no ha publicado un resumen del conjunto de datos de entrenamiento ni un análisis de sesgos para Sora 2, algo exigido por el Reglamento Europeo de IA para modelos de propósito general.

Ventajas

Realismo físico y coherencia temporal: Sora 2 mejora la simulación de fenómenos como rebotes, fluidos y movimiento humano
Control creativo avanzado: permite especificar estilos (cinemático, anime, realista), movimientos de cámara y narrativa; mantiene estados entre escenas
Generación de audio sincronizado: produce diálogos y efectos de sonido coherentes con el video.
Cameos y socialización: integra a personas reales en entornos generados y ofrece una aplicación social para compartir creaciones.
Enfoque en seguridad y bienestar: incorpora filtros de contenido, controles parentales y limita el feed para adolescentes

Desventajas

Datos de entrenamiento opacos: no se publica el origen de los videos usados para entrenar ni las medidas para evitar sesgos, incumpliendo la transparencia exigida por la AI Act.
Riesgo de desinformación y deepfakes: la capacidad de insertar personas en escenas generadas podría utilizarse para crear montajes falsos que afecten reputaciones; aunque OpenAI incorpora moderación, el riesgo persiste.
Costes y limitaciones: el uso gratuito está limitado; para vídeos adicionales se prevé un modelo de pago. El acceso inicial a la app es por invitación y se limita a EE.UU. y Canadá.
Implicaciones éticas y legales: la inserción de individuos en videos generados requiere consentimiento explícito; se deben respetar derechos de imagen y copyright. La normativa aún no aborda plenamente estos escenarios.

Diferencias frente a otras inteligencias artificiales

Frente a Sora 1 y otras herramientas de texto‑a‑video: Sora 1 introdujo la capacidad básica de generar videos, pero los modelos anteriores eran sobreoptimistas y deformaban la realidad. Sora 2 incorpora un modelo que respeta la física y permite instrucciones complejas.
Comparado con Kling 2.5 Turbo: Kling 2.5 genera videos de 5–10 segundos en 1080p y se centra en contenidos para marketing; ofrece control de cámara y estilos cinematográficos. Sin embargo, no incluye cameos ni sincroniza audio. Sora 2 produce escenas más largas, con simulación física y audio integrado y se enmarca en un ecosistema social.
Versus Nano Banana Pro (Google) y Gen‑3: mientras que Nano Banana Pro se orienta a generación y edición de imágenes con legible texto, Sora 2 se dedica a video y audio, integrando personas reales en escenas. Los modelos Gen‑3 de otros proveedores (Runway, Luma) ofrecen control de estilo, pero no presentan la combinación de física avanzada y plataforma social.
Con relación a MMCTAgent: MMCTAgent utiliza agentes para analizar videos y razonar sobre ellos, mientras que Sora 2 crea videos; ambos representan extremos complementarios (análisis vs. generación). Sora 2 no incorpora la arquitectura Planner–Critic ni capacidades de análisis.

Potencial para profesionales, académicos, administrativos, usuarios cotidianos y egresados

Comunicadores y creativos audiovisuales: Sora 2 puede servir como herramienta de previsualización y conceptualización. Permite generar storyboards y trailers con escenas complejas en segundos. Los cameos facilitan prototipos que incorporen a actores reales sin necesidad de filmación, lo que revoluciona el diseño de narrativas, publicidad y entretenimiento.
Investigadores y académicos: en campos como comunicación, sociología o educación, Sora 2 ofrece posibilidades para diseñar videos experimentales, materiales didácticos o simulaciones. Puede ayudar a explorar cómo distintas representaciones audiovisuales afectan la recepción del público o servir para ensayar contenidos en entornos seguros.
Profesionales de otras disciplinas: arquitectos y urbanistas pueden generar visualizaciones de proyectos, ingenieros pueden simular procesos con movimiento de objetos y fluidos, y profesionales de salud mental podrían emplear escenas generadas para terapia de exposición. La generación de audio sincronizado abre aplicaciones para experiencias inmersivas.
Administrativos y usuarios cotidianos: aunque el acceso inicial es limitado, la app promete democratizar la creación de videos: usuarios sin habilidades técnicas podrían generar clips para redes sociales, aniversarios o marketing personal. Los controles de privacidad permiten compartir solo con contactos autorizados.
Egresados y emprendedores: las oportunidades de negocios incluyen estudios de animación que reduzcan costos, agencias de marketing que generen contenidos personalizados y startups que integren Sora 2 en plataformas de aprendizaje o comunicación. Los egresados de comunicación, al dominar la redacción de prompts y la dirección de escenas, podrán liderar proyectos creativos.

Índice de valoración del Observatorio

Criterio	Justificación	Puntuación (0‑5)
Facilidad de uso	La app ofrece interfaz amigable y opciones predeterminadas; sin embargo, se requiere habilidad en la redacción de prompts para obtener resultados deseados.	4
Normatividad y transparencia	OpenAI no publica el resumen de datos ni análisis de sesgos, incumpliendo exigencias del Reglamento europeo; incorpora controles de contenido y moderación pero queda trabajo por hacer en transparencia.	3
Consideraciones éticas y legales	Implementa controles parentales y gestión de cameos; el uso de personas reales genera riesgos de desinformación y violación de derechos de imagen; se necesitan protocolos éticos.	3
Valoración de usuarios y expertos	La comunidad creativa celebra la fidelidad física y el control avanzado; críticos advierten sobre potencial de deepfakes y uso indebido. La recepción inicial es positiva pero cautelosa.	4
Calificación del Observatorio	3.5/5 – Sora 2 representa un salto en la generación de video y audio, abriendo oportunidades creativas y educativas. No obstante, su impacto depende de la transparencia en datos, la regulación de derechos de imagen y la supervisión ética en el uso de cameos.

Conclusión

Sora 2 simboliza la convergencia entre imaginación y tecnología. Su capacidad para generar videos físicamente plausibles, sincronizar audio y permitir la incorporación de personas reales en entornos generados amplía el horizonte creativo de la comunicación y el entretenimiento. La plataforma social asociada promueve una cultura de co‑creación, pero también plantea desafíos éticos y legales: desde el consentimiento de los participantes hasta el uso responsable de la tecnología. Para el Observatorio de Inteligencia Artificial de la Facultad de Comunicación, Sora 2 es una herramienta fascinante cuya adopción debe acompañarse de una alfabetización crítica en torno a la redacción de prompts, la protección de derechos y la regulación de contenidos.

Liga para conocer y probar Sora 2: https://openai.com/index/sora-2/