Amazon.com presentó Amazon Nova, una nueva generación de modelos fundacionales (FM, su sigla en inglés) que cuentan con inteligencia de última generación con una amplia gama de tareas y una relación precio-rendimiento líder en la industria.
Los modelos de Amazon Nova estarán disponibles en Amazon Bedrock e incluyen: Amazon Nova Micro (un modelo de texto a texto muy rápido); y Amazon Nova Lite, Amazon Nova Pro y Amazon Nova Premier (modelos multimodales que pueden procesar imágenes y videos para generar texto). Amazon también lanzó dos modelos adicionales: Amazon Nova Canvas (que genera imágenes con calidad de estudio) y Amazon Nova Reel (que genera videos con calidad de estudio).
“En Amazon, tenemos cerca de 1,000 aplicaciones de IA generativa en funcionamiento y hemos tenido una visión general de lo que los desarrolladores de aplicaciones aún están afrontando”, afirmó Rohit Prasad, vicepresidente sénior de Inteligencia Artificial General de Amazon.
“Nuestros nuevos modelos Amazon Nova están pensados para ayudar a los desarrolladores internos y externos a afrontar estos desafíos, y proporcionar una inteligencia y una generación de contenido convincentes, al tiempo que ofrecen un progreso significativo en latencia, rentabilidad, personalización, Generación Aumentada de Recuperación (RAG, su sigla en inglés) y capacidades de agente”, agregó.
Los modelos de comprensión de Amazon Nova
Amazon Nova incluye cuatro modelos de última generación. El primero, Amazon Nova Micro, es un modelo de solo texto que ofrece las respuestas con la latencia más baja a un costo muy pequeño.
Los tres siguientes son: Amazon Nova Lite, un modelo multimodal de muy bajo costo que es increíblemente rápido para procesar entradas de imágenes, videos y texto; Amazon Nova Pro, un modelo multimodal de gran capacidad con la mejor combinación de precisión, velocidad y costo para una amplia gama de tareas; y Amazon Nova Premier, el modelo multimodal más capaz de Amazon para tareas de razonamiento complejas y para su uso como el mejor maestro para destilar modelos personalizados. Amazon Nova Micro, Amazon Nova Lite y Amazon Nova Pro están disponibles en general hoy; Amazon Nova Premier estará disponible en el primer trimestre de 2025.
Se determinó que Amazon Nova Micro es igual o mejor[1] que Meta LLaMa 3.1 8B en los 11 puntos de referencia aplicables y que Google Gemini 1.5 Flash-8B en los 12 puntos de referencia aplicables. Con la velocidad líder en la industria de Amazon Nova Micro de 210 tokens de salida por segundo, es ideal para aplicaciones que requieren respuestas rápidas.
Amazon Nova Lite también es altamente competitivo con otros modelos de la misma clase de inteligencia; tiene un rendimiento igual o mejor en 17 de 19 puntos de referencia en comparación con GPT-4o mini de OpenAI, igual o mejor en 17 de 21 puntos de referencia en comparación con Gemini 1.5 Flash-8B de Google, e igual o mejor en 10 de 12 puntos de referencia en comparación con Claude Haiku 3.5 de Anthropic. Además de ofrecer precisión en los puntos de referencia de texto, Amazon Nova Lite se destaca en la comprensión de vídeos, gráficos y documentos según lo medido por puntos de referencia como VATEX, ChartQA y DocVQA. Amazon Nova Lite también se destaca en flujos de trabajo de agentes, como la llamada de función medida por Berkeley Function Calling Leaderboard, y en las capacidades básicas de comprensión de elementos visuales para realizar acciones en navegadores y pantallas de computadora, según lo medido por VisualWebBench (punto de referencia para acciones en navegador web) y Mind2Web (punto de referencia de agentes multimodales generalistas).
Amazon Nova Pro tuvo un rendimiento igual o mejor en 17 de 20 puntos de referencia en comparación con GPT-4o de OpenAI, igual o mejor en 16 de 21 puntos de referencia en comparación con Gemini 1.5 Pro de Google, e igual o mejor en 9 de 20 puntos de referencia en comparación con Anthropic Claude Sonnet 3.5v2. Además de la precisión en los puntos de referencia de inteligencia visual y de texto, Amazon Nova Pro se destaca en el seguimiento de instrucciones y los flujos de trabajo de agentes multimodales, según las mediciones del Comprehensive RAG Benchmark (CRAG), el Berkeley Function Calling Leaderboard y Mind2Web.
Compatibilidad multilingüe y multimodal con contexto extenso
Amazon Nova Micro, Lite y Pro admiten más de 200 idiomas. Amazon Nova Micro admite una longitud de contexto de 128,000 tokens de entrada, mientras que Amazon Nova Lite y Amazon Nova Pro admiten una longitud de contexto de 300,000 tokens, o 30 minutos de procesamiento de video. A principios del 2025, Amazon admitirá una longitud de contexto de más de 2 millones de tokens de entrada.
RAG para fundamentar las respuestas en los datos
Los modelos de Amazon Nova están integrados con las bases de conocimiento de Amazon Bedrock y se destacan en la RAG, lo que permite que los clientes garanticen la mejor precisión al fundamentar las respuestas en los datos propios de la organización.
Optimizado para aplicaciones de agentes
Los modelos de Amazon Nova se han optimizado para que sean fáciles de usar y eficaces en aplicaciones de agentes que requieren interactuar con los sistemas y datos propietarios de una organización a través de múltiples API para ejecutar tareas de varios pasos.
Amazon Nova Reel es un modelo de generación de videos de última generación que permite a los clientes crear fácilmente videos de alta calidad a partir de texto e imágenes. Es ideal para la creación de contenido en publicidad, marketing o capacitación. Los clientes pueden usar prompts en lenguaje natural para controlar el estilo visual y el ritmo, incluido el movimiento de la cámara, la rotación y el zoom. Supera a los modelos comparables en calidad y consistencia, según evaluaciones humanas en paralelo realizadas por un tercero que prefirió los videos generados por Amazon Nova Reel sobre los generados por Gen-3 Alpha de Runway. Al igual que Amazon Nova Canvas, Amazon Nova Reel viene con controles integrados para respaldar la seguridad y el uso responsable de la IA, incluida la marca de agua y la moderación de contenido. Amazon Nova Reel genera actualmente vídeos de seis segundos y admitirá la generación de videos de hasta dos minutos de duración en los próximos meses.
Próximos pasos: modelos de voz a voz y multimodal a multimodal
Amazon presentará un modelo de voz a voz Amazon Nova en el primer trimestre de 2025. El modelo está diseñado para transformar las aplicaciones de IA conversacional al comprender la entrada de voz en lenguaje natural, interpretar señales verbales y no verbales (como el tono y la cadencia) y brindar interacciones naturales recíprocas, similares a las humanas, con baja latencia.
Amazon también está desarrollando un modelo novedoso que puede tomar texto, imágenes, audio y video como entrada y generar salidas en cualquiera de estas modalidades. Este modelo Amazon Nova con capacidades nativas de multimodal a multimodal (o de cualquier modalidad a cualquier modalidad) se presentará a mediados de 2025. Simplificará el desarrollo de aplicaciones en las que se puede utilizar el mismo modelo para realizar una amplia variedad de tareas, como traducir contenido de una modalidad a otra, editar contenido y potenciar agentes de IA que puedan comprender y generar todas las modalidades.