第 10 章 · QoE 数据体系

怎么量化用户的观看体验

预计阅读时间：18 分钟

本章你会理解：QoE 和 QoS 的区别、6 个核心 QoE 指标的定义与目标值、数据上报管道怎么搭、怎么从数据里定位问题。

• • •

1 10.1 QoE vs QoS：两个经常被混淆的词

缩写	全称	定义	视角
QoS	Quality of Service	网络/服务的客观性能（带宽、丢包、延迟）	运维 / 网络工程师
QoE	Quality of Experience	用户感知的体验	产品 / 用户研究

💡 类比：QoS 说"我给你 10 Mbps"，QoE 说"用户刷视频流畅吗"。
同样的 QoS 下，不同的播放器 / ABR 策略 / 编码参数 → 不同的 QoE。

我们关心的是 QoE。做视频平台不看 QoE 跟运营高速公路不看"堵车时长"一样。

• • •

2 10.2 六个核心 QoE 指标

VST

起播时间
P50 < 300ms

RBR

卡顿率
< 0.5%

VSF

起播失败率
< 1%

EBVS

起播前退出
< 3%

VPF

播中失败率
< 0.5%

Avg Bitrate

平均码率
衡量实际画质

① Video Startup Time（VST，起播时间）

定义：用户点击播放到第一帧渲染的秒数。

目标：

- 移动端短视频/短剧：P50 < 300ms、P95 < 800ms
- 长视频 VOD：P50 < 1s、P95 < 2s

最敏感。用户不会忍受 2 秒黑屏。

② Rebuffering Ratio（RBR，卡顿率）

定义：rebuffer_time / (rebuffer_time + play_time)

例：用户看了 60 秒，其中卡顿累计 3 秒 → RBR = 3/(60+3) = 4.8%。

目标：< 0.5%（优秀），< 1%（合格）。

影响留存：Conviva 研究表明 RBR 每上升 1%，观看时长下降 2-5%。

③ Video Start Failure（VSF）

定义：用户触发播放但第一帧从未渲染（因为 404、CORS、DRM 错误等）。

目标：< 1%。

Conviva 还细分：

- VSF-T（Technical）：技术原因失败
- VSF-B（Business）：业务原因（用户无权限等），不计入 QoE

④ Exit Before Video Start（EBVS，起播前退出）

定义：用户触发播放但还没看到第一帧就主动关了（不是报错，是不想等了）。

目标：< 3%。

强相关于 VST。VST 太慢 → EBVS 高 → 留存差。

⑤ Video Playback Failure（VPF）

定义：播放中途报错失败（如解码错误、证书过期、CDN 断流）。

目标：< 0.5%。

⑥ Average Bitrate（平均码率）

定义：实际观看时各片段码率的时间加权平均。

用途：衡量用户实际看到的画质档位是否足够。如果 70% 用户平均停在 480p，可能是：

- 网络普遍差
- ABR 算法太保守
- 高档位没转码

辅助指标

指标	说明
Rebuffer Frequency	单位时长内 rebuffer 次数（<0.1 次/分钟）
Bitrate Switching	码率切换次数和幅度（稳定优先）
Video Complete Rate	完播率（业务）
Time to Key Decode	DRM 下发 license 的时间
First Byte Time	第一个字节到达时间

• • •

3 10.3 Conviva 的 SPI：一个综合指标

SPI（Streaming Performance Index）：Conviva 的综合 KPI，表示"好或很好体验的会话占比"。

一个 session 算"好"，需要同时满足：

- 没有 VSF-T / VPF-T 错误
- 没有或极低 Rebuffering（CIRR < 某阈值）
- 平均码率达到屏幕尺寸合格线
- Video Start Time 在可接受范围
- 如果用户在退出前等了很久，不算 EBVS

注意：单一指标容易误导（例如 RBR 好但码率极低），SPI 综合反映体验。

• • •

4 10.4 分析维度：多维下钻是灵魂

不能只看"总 RBR 是多少"。要多维度切片：

维度	举例
地理	国家 / 省 / 城市 / ISP
设备	OS 版本、机型、芯片、屏幕尺寸
网络	WiFi / 4G / 5G、吞吐区间
CDN	供应商、PoP、上层 Shield
内容	剧集、分辨率档、编码、时长
时间	小时、天、周
用户	新/老、付费/免费、地区

查问题的标准姿势

  总 RBR 升到 2% → 不知道原因

    │

    ├── 按 CDN 下钻 → CDN-A 的 RBR 5%、CDN-B 的 RBR 0.3%

    │

    ├── 按 CDN-A 地域下钻 → 印度孟买的 RBR 12%

    │

    ├── 按 CDN-A 孟买时段下钻 → 19:00-22:00 尖峰

    │

    └── 结论：CDN-A 在孟买晚高峰出问题 → 切换到 CDN-B

• • •

5 10.5 数据上报管道

从客户端到 BI 的典型管道

  ┌──────────────┐

  │ 客户端 SDK    │

  │ (iOS/Android/ │ ── HTTPS 批量 POST 每 5s 一次

  │  Web)        │    (events JSON)

  └──────────────┘

         │

         ▼

  ┌──────────────┐

  │  HTTP 接入层  │   nginx / ALB / API Gateway / CloudFront

  │  (Edge)      │   带限流、鉴权

  └──────────────┘

         │

         ▼

  ┌──────────────┐

  │   Kafka       │   持久化消息队列

  │  Topic: qoe  │   按天分区

  └──────────────┘

         │

         ├─────────────────────┐

         ▼                     ▼

  ┌──────────────┐      ┌──────────────┐

  │ Flink / Spark│      │ ClickHouse / │   实时写入数据仓

  │ Streaming    │      │ BigQuery     │

  │ (实时聚合)    │      │              │

  └──────────────┘      └──────────────┘

         │                     │

         ▼                     ▼

  ┌──────────────┐      ┌──────────────┐

  │  告警        │      │  BI Dashboard │   Grafana、Tableau、Looker

  │ (PagerDuty)  │      │ 运维与产品看   │

  └──────────────┘      └──────────────┘

上报事件的规范

每个事件包含：

  {

    "event": "video_rebuffer_start",

    "session_id": "uuid-...",

    "user_id": "u-12345",

    "video_id": "ep-789",

    "timestamp": 1715084800123,

    "player_version": "2.3.4",

    "device": {

      "os": "iOS",

      "os_version": "17.4",

      "model": "iPhone 15 Pro"

    },

    "network": {

      "type": "cellular",

      "carrier": "Verizon",

      "effective_type": "4g"

    },

    "cdn": "cloudfront",

    "bitrate": 2500000,

    "buffer_level_sec": 0.8,

    "position_sec": 45.2

  }

批量 vs 实时

⚠️ 不要每个事件一次 HTTP
10 万 DAU × 100 事件/人 = 一千万请求/天。
批量策略：客户端累积 10 秒或 50 事件就一次 POST。

• • •

6 10.6 分析套路：几个真实的故障定位案例

案例 1：整体 VST 升高

  周一早上 9 点，VST P50 从 400ms 升到 1.2s

    │

    ├── 按 OS 下钻 → Android VST 涨到 2s，iOS 正常

    │

    ├── 按 APP 版本下钻 → 3.4.5 版本全员 2s，3.4.4 正常

    │

    ├── 看变更日志 → 3.4.5 引入了新播放器库

    │

    └── 紧急热修 / 回滚到 3.4.4

案例 2：特定剧集卡顿

  某新剧第 3 集 RBR 异常高 5%

    │

    ├── 按 CDN 下钻 → 所有 CDN 都高（不是 CDN 问题）

    │

    ├── 检查切片 → 发现第 3 集某段切片异常大（20 MB，别的 2 MB）

    │

    ├── 检查编码日志 → 该集中有 10 秒激烈动作戏，编码器码率瞬间飙高

    │

    └── 解决方案：重新转码，设 MaxBitrate 限制峰值

案例 3：某地区转化率突降

  印度新增用户首小时完播率从 30% 跌到 15%

    │

    ├── 按 VST 看 → 印度 VST P50 从 0.8s 升到 3s

    │

    ├── 按 CDN 看 → 印度的 CDN-A 边缘节点延迟升高

    │

    ├── Ping 测试 → CDN-A 孟买 POP 连续 4 小时延迟 400ms

    │

    └── 立即切换印度流量到 CDN-B，同时联系 CDN-A 运维

• • •

7 10.7 自研 vs 买托管（Mux / Conviva / Datadog RUM）

托管服务

服务	长处
Mux	开发者友好、集成简单、$1.25 / 千次 session
Conviva	企业级、最全面、最贵
Datadog RUM	综合 APM 一体
NPAW（YOUBORA）	欧洲主流

优点：几小时集成好、看板开箱即用、不用维护。
缺点：贵、数据在第三方、定制有限。

自研

优点：完全定制、数据可深度关联业务（订单、留存）、规模大时成本优势。
缺点：开发维护成本高、SDK 多端一致性难。

常见组合

起步期：买 Mux，快速获得可用看板
规模化：自研 + 保留 Mux 做 benchmark 对标

• • •

8 10.8 客户端 SDK 的几个关键点

① 不要拖慢播放

QoE SDK 本身的开销不能影响体验：

- 上报用独立低优先级线程
- 网络失败静默重试，不阻塞 UI
- SDK 崩溃不能拉着 APP 一起崩

② 离线补偿

用户断网看完后上线补上报：

- 事件写到本地 sqlite/文件
- 有网后按 FIFO 批量补报

③ 时钟对齐

用户手机时间可能不准：

- 用服务端时间戳（HTTP Date header）作基准
- 事件带相对时间（delta_ms 相对于 session 开始）

④ 采样

海量用户时 100% 上报太贵：

- 关键错误事件 100% 上报
- 普通事件按 10%-30% 采样
- 按 user_id hash 保证同用户全采或全不采（便于会话分析）

• • •

9 10.9 看板设计：几个必须有的视图

Dashboard 1：总览大盘

- DAU、播放 session 数
- VST P50/P95
- RBR、VSF、VPF
- SPI（综合分）
- 按国家 Top 10 下钻

Dashboard 2：CDN 健康

- 每个 CDN 的 RBR、VST、错误率
- CDN 比对面板（同时间段对比）
- CDN 边缘节点地图

Dashboard 3：内容质量

- 新剧上线首 24 小时质量指标
- 按剧集的完播率、RBR
- 异常剧集告警

Dashboard 4：设备与版本

- 按 APP 版本的错误率
- 按 OS 版本的 VST
- 按机型的 RBR

• • •

10 10.10 数据驱动的优化闭环

QoE 数据不是用来"看看就算了"，而是驱动工程决策：

              数据看到问题

                   │

                   ▼

            定位根本原因

            (CDN? 编码? ABR?)

                   │

                   ▼

            尝试优化 + A/B 测试

                   │

                   ▼

            验证 QoE 改善

                   │

                   ▼

            全量发布 + 继续监控

数据发现问题 → 定位根因 → 优化 + A/B → 验证改善 → 全量发布

每周 review QoE 数据，是所有成熟视频团队的标配。

• • •

本章要点回顾

1. QoE 衡量用户感知体验，不是网络指标。
2. 六大核心指标：VST / RBR / VSF / EBVS / VPF / Avg Bitrate。
3. Conviva 的 SPI 是"好体验会话占比"的综合 KPI。
4. 数据要按多维度下钻，单一全局数字无法定位问题。
5. 数据管道标配：Client SDK → Kafka → Flink/ClickHouse → BI。
6. 起步期买 Mux / Conviva，规模化再自研。
7. QoE 数据驱动决策，每周 review。

• • •

← 上一章第9章：播放器目录下一章 → 第11章：端到端工作流