1 / 10

Amazon Nova 2 Lite

多模态能力评估与应用建议

黎小为 | MEAD | SA

Amazon Nova 2 系列模型

新一代多模态推理与生成模型家族

会议目标

  • Nova 2 系列相比 Nova 1 有哪些核心升级?
  • 重点介绍 Nova 2 Lite 的能力、优势与局限
  • 基于 GCR Preview 测试的真实表现分析
Amazon Nova 2 Models

🧠 Nova 2 Lite GA

低延迟、高性价比推理模型,支持文本/图像/视频输入

⚡ Nova 2 Pro Preview

最高智能级别,复杂工作负载,支持音频输入

🎨 Nova 2 Omni Preview

首个统一多模态模型,支持图像生成与编辑

🎙️ Nova 2 Sonic GA

实时语音对话,支持10种语言

💡 建议策略:"扬长避短,场景聚焦" - 赢得优势场景,通过 roadmap 持续补齐短板

Nova 2 Lite vs Nova 1 核心升级

🚀 性能飞跃 (vs Nova Premier)

根据 Nova 2 Technical Report

智能提升

Nova 2 Lite 在多步问题解决和 Agent 工作流上超越前代旗舰 Nova Premier

成本对比 (vs Premier)

约 1/8 成本

$0.0003 vs $0.0025 (input)

速度提升 (vs Premier)

最高 5x

来源: Technical Report

⚠️ 价格变化 (vs Nova Lite v1)

注意:Nova 2 Lite 比 Nova Lite v1 更贵

模型 Input (per 1K tokens) Output (per 1K tokens)
Nova Lite v1 $0.00006 $0.00024
Nova 2 Lite $0.0003 5x $0.0025 10.4x

数据来源: AWS Bedrock Pricing (Global Cross-region, US East N. Virginia)

🆕 新增能力

能力 Nova 1 Nova 2 Lite
混合推理 (Extended Thinking) ❌ 不支持 ✅ 支持低/中/高三档
上下文窗口 300K tokens 1M tokens
输出长度 5K tokens 65,536 tokens

🧠 推理模式参数 (maxReasoningEffort)

Low

快速推理,适合简单任务

Medium

平衡推理深度和速度

High

深度推理,适合复杂问题

Agent 和工具使用能力

数据来源: Nova 2 Technical Report

τ²-bench Verified (真实场景验证)

模型 Telecom Retail Airline BFCL v4
Nova 2 Lite 76.0% 76.5% 64.8% 60.3%
GPT-5 Mini 71.1% 73.7% 68.8% 56.0%
Claude Haiku 4.5 54.7% 69.1% 54.0% 61.8%
Gemini 2.5 Flash 31.6% 57.7% 44.0% 55.9%

多模态和软件工程

模型 OCRBench-v2 RealKIE-FCC QVHighlights ScreenSpot LiveCodeBench
Nova 2 Lite 56.1% 62.1% 77.2% 83.3% 71.0%
GPT-5 Mini 55.4% 53.1% - 24.8% 83.8%
Claude Haiku 4.5 48.3% 52.2% - - 61.5%
Gemini 2.5 Flash 58.2% 50.1% 52.4% 27.2% 69.5%

关键亮点

💡 Agent 能力是 Nova 2 Lite 的核心优势,在电信和零售场景超越所有竞品

Nova 2 Lite 定价详情

Standard Tier 价格 (US East N. Virginia)

模型 Input (per 1K tokens) Output (per 1K tokens)
Nova Micro $0.000035 $0.00014
Nova Lite v1 $0.00006 $0.00024
Nova 2 Lite (Global) $0.0003 $0.0025
Nova Pro v1 $0.0008 $0.0032
Nova Premier $0.0025 $0.0125

数据来源: AWS Bedrock Pricing

成本优化选项

💾 Cache Read

2.5 折扣 (输入)

$0.000075 per 1K tokens

📦 Batch / Flex Tier

5 折扣

Input: $0.00015, Output: $0.00125

⚡ Priority Tier

1.75x 价格

Input: $0.000525, Output: $0.004375

⚠️ Nova 2 Lite 单价比 Nova Lite v1 贵 5-10 倍,但能力大幅提升。需根据场景评估性价比。

GCR 测试结果:羽毛球时间线识别

测试详情: 查看完整测试结果

测试场景

识别羽毛球视频中每个回合的起止时间和结束原因(5分钟长视频)

性能对比

模型 Video 1 片段数 Video 2 片段数 平均耗时 准确性评级
Gemini 2.5 Flash 27 8 ~25s ⭐⭐⭐⭐⭐
Gemini 2.5 Flash Lite 44 120+ ~9s ⭐⭐
Nova 2 Lite (标准) 10 幻觉 ~36s ⭐⭐
Nova 2 Lite (reasoning=low) 17 20 ~78s ⭐⭐⭐
Nova Pro 27 28 ~51s ⭐⭐⭐
Nova Lite V1 幻觉 (80+) 幻觉 (80+) ~57s

关键发现

✅ 适用场景

  • 30-60秒短视频高光时刻识别较准确
  • 配合优化后的提示词效果更好
  • 输出格式规范 (JSON)

❌ 不适用场景

  • 5分钟长视频几乎不可用
  • Nova Lite V1 产生大量幻觉(80+片段)
  • Nova 2 Lite 标准模式也有幻觉问题
  • Gemini 2.5 Flash 准确性最优

⚠️ 长视频时间线识别:不推荐使用 Nova 2 Lite | ✅ 短视频高光时刻:可以使用

GCR 测试结果:视频内容审核

测试详情: 查看完整测试结果

测试场景

识别视频中用户的操作行为:关键词搜索、视频标题、创作者、观看时长

测试结果对比

测试项 Nova 2 Lite Gemini 2.5 Flash 对比结果
关键词搜索识别 准确 ✅ 准确 ✅ 效果相当
视频标题验证 准确 ✅ 准确 ✅ 效果相当
创作者验证 准确 ✅ 准确 ✅ 效果相当
观看时长判断 更准确 ✅ 准确 ✅ Nova 2 Lite 部分结果更好

关键发现

✅ 优势

  • 与 Gemini 2.5 Flash 效果相当
  • 部分测试项结果更好
  • 视频内容理解能力强
  • JSON 输出格式规范

💡 适用场景

  • 视频内容合规审核
  • 用户行为分析
  • 内容质量检测
  • 可作为 Gemini 的替代方案

✅ 内容审核场景:Nova 2 Lite 表现优秀,与 Gemini 2.5 Flash 效果相当甚至更好

GCR 测试结果:图像 OCR 对比

测试详情: 查看完整测试结果

测试场景

多语言图像文字识别(拉丁语系 vs 非拉丁语系)

性能对比

模型 总 Tokens 总耗时 平均 响应范围
🟣 Nova Pro 47,383 69.6s 1974 tokens / 2901ms 942ms ~ 15102ms
🔵 Nova Lite v1 50,114 68.2s 2088 tokens / 2841ms 822ms ~ 8591ms
🟠 Nova 2 Lite 44,425 36.7s 1851 tokens / 1529ms 842ms ~ 3331ms
🟢 Gemini 2.5 Flash 19,048 101.9s 794 tokens / 4246ms 2039ms ~ 8338ms

准确性对比

语言类型 Nova Lite/Pro v1 Nova 2 Lite Gemini 2.5 Flash
拉丁语系(英文等) 一般 大幅提升 ✅ 优秀 ✅
非拉丁语系(中文、泰文等) 较差 质的飞跃,但仍有幻觉 ⚠️ 几乎无幻觉 ✅

测试总结

🟠 Nova 2 Lite 优势

  • 最快响应:平均 1529ms
  • 速度提升 46%(36.7s vs 68-70s)
  • 响应更稳定(最大延迟降低 78%)
  • 输出简洁,适合纯文本提取

🟢 Gemini 2.5 Flash 特点

  • 最省 Token:平均 794 tokens
  • 输出更详细的场景描述
  • 非拉丁语系几乎无幻觉
  • 响应时间较长(平均 4246ms)

拉丁语系:推荐使用 Nova 2 Lite(速度快) | ⚠️ 非拉丁语系:Gemini 更优(准确性高)

总结与建议

多模态能力测试总结 🎯

❌ 1. 视频时间线识别:需剪辑短视频 + 优化提示词

  • 长视频(5分钟):不推荐使用,Nova Lite/Pro v1 和 Nova 2 Lite 都几乎不可用
  • 短视频(30-60秒):可以使用,配合优化后的提示词
  • 适用场景:足球高光时刻、精彩片段识别等短视频场景

✅ 2. 视频内容理解:效果优秀,与 Gemini 相当

  • 内容审核、行为分析效果不错
  • 与 Gemini 2.5 Flash 效果相当,部分结果更好
  • 推荐场景:视频合规审核、用户行为分析、内容质量检测

⚠️ 3. OCR 识别:拉丁语系优秀,非拉丁语系需谨慎

  • 拉丁语系(英文等):效果很好,对比 Nova v1 大幅提升
  • 非拉丁语系(中文、泰文等):谨慎使用,有质的飞跃但仍有幻觉
  • Gemini 2.5 Flash 在非拉丁语系几乎无幻觉,更优

Next Action

多模态提示词与参数最佳实践

参考来源: AWS Nova 2 Multimodal Prompting Guide

📋 通用规则

  • 内容顺序:图片/视频/文档 → 用户提示词(文本必须放在最后)
  • System Prompt:仅用于定义角色和风格,不要用于任务定义
  • 任务定义:详细的任务说明和格式要求放在 User Prompt 中

🎬 视频时间线提取(推荐配置)

参数 推荐值 说明
temperature 0 确保输出一致性
topP 1 不限制采样范围
reasoning ❌ 不使用 时间线任务不需要推理

提示词模板示例

Please localize the moment that the event "{event_description}" 
happens in the video. Answer with the starting and ending time 
of the event in seconds, such as [[72, 82]]. 

If the event happen multiple times, list all of them, 
such as [[40, 50], [72, 82]].

📄 图像 OCR 提取(推荐配置)

参数 推荐值 说明
temperature 0.7 (默认) 保持默认值
topP 0.9 (默认) 保持默认值
reasoning ❌ 不使用 OCR 不需要推理

提示词模板示例

## Instructions
Extract all information from this page using only Markdown formatting. 
Retain the original layout and structure including lists, tables, 
charts and math formulae.

## Rules
1. For math formulae, always use LaTeX syntax.
2. Describe images using only text.
3. NEVER use HTML image tags in the output.
4. Always wrap the entire output in ``` tags.

🎯 视频分类(推荐配置)

参数 推荐值 说明
temperature 0 确保输出一致性
topP 1 不限制采样范围
reasoning ❌ 不使用 分类任务不需要推理

提示词模板示例

What is the most appropriate category for this video? 
Select your answer from the options provided:
{class1}
{class2}
{...}

Example:
What is the most appropriate category for this video? 
Select your answer from the options provided:
Arts
Technology
Sports
Education

参考资料

📖 官方文档

📋 其他资源

Q & A

感谢观看!欢迎提问交流

🔗 产品主页:aws.amazon.com/nova