流媒体传输协议之 RTMP

阿里云视频云

作者:逸殊
审核:泰一

简介

RTMP 在可靠流式传输(TCP)的基础上提供了双向的消息多路复用服务,在通讯双方之间传输与时间相关的并行流数据,如音频,视频和数据消息。协议实现方通常为不同的消息类型指定不同的优先级,这样在网络带宽受限时能改变底层传输顺序。

定义

以下是 C0 和 S0 包的字段解释:

上图提到的状态的解释如下:

64-319 范围内的块流 ID 用 2 个字节来编码,块流 ID 为计算所得,公式为:第二个字节值 + 64:
7.png

64-65599 范围内的块流 ID 用 3 个字节来编码,块流 ID 为计算所得,公式为:第三个字节值 * 255 + 第二个字节值 + 64
8.png

上述图中各个部分的含义如下:

64-319 范围内的块流 ID 可以用 2 字节来表示,也可以用 3 字节表示。

消息头

消息头共有 4 种不同的格式,根据基本头中的 “fmt” 字段值来确定。协议实现方应该用最紧凑的格式来表示块消息头。

类型 0

0 类型的块消息头占 11 个字节长度,该类型必须用在一个块流的开头,和每当块流时间戳回退的时候(例如视频回退的操作)。
9.png

类型 3

3 类型的块没有消息头,消息流 ID、消息长度和时间戳增量,该类型的块使用和上一个块相同的头数据。当一个消息被分割成块时,除了第一个块,其他块都应该使用该类型。由相同大小、消息流 ID 和时间间隔的消息组成的流,在类型 2 的块之后所有块都应该使用该类型格式。如果第一个消息和第二消息之间的时间增量与第一个消息的时间戳相同,则 0 类型的块之后可以马上发送 3 类型的块,而不必使用 2 类型的块来注册时间增量。如果类型 3 的块跟在类型 0 的块后面,那么 3 类型块的时间戳增量与 0 类型块的时间戳相同。

扩展时间戳

扩展时间戳用来辅助编码超过 16777215 (0xFFFFFF) 的时间戳或时间戳增量,也就说消息头无法用 24 位数字来表示时间戳或时间戳增量时,既 0 类型块的时间戳字段或 1,2 类型的时间戳增量字段值为 16777215 (0xFFFFFF)。当最近的属于相同块流 ID 的 0 类型块、1 类型块或 2 类型块有此字段时有此字段时,3 类型块也应该有此字段。

示例

示例 1

这是一个简单的音频流消息,这是示例示范了信息冗余。
13.png

下图展示该消息流以块流形式发送。从 3 类型块开始了数据传输优化,之后的块只附加了一个字节。
14.png

示例 2

该示例展示了一个超过 128 字节长度的消息,消息被分割成了数个块。
15.png

下图是被分割成的块:
16.png

第一个块的头信息指明了消息总大小为 307 字节。
注意这两个示例,3 类型块可以在两种情况下使用。第一种情况是消息拆分成多个块,另一种情况是新消息复用上一个消息的所有头部内容。

协议控制消息

RTMP 块流用消息类型 1,2,3,5 和 6 来作为协议控制消息,这些消息包含 RTMP 块流协议所需要的信息。
这些协议控制消息必须用 0 作为消息流 ID (控制流 ID),并在 ID 为 2 的块流中发送。协议控制消息收到后立即生效,它们的时间戳信息是被忽略的。

设置块大小

协议控制消息类型 1:设置块大小,用于通知另一端新的最大块大小。
最大块大小默认为 128 字节,客户端或服务端可以修改此值,并用该消息通知另一端。例如,假设一个客户端想要发送 131 字节的音频数据,而最大块大小为 128。在这种情况下,客户端可以向服务端发送该消息,通知它最大块大小被设置为了 131 字节。这样客户端只用一个块就可以发送这些音频数据。
最大块大小不能小于 1 字节,通常应该不低于 128 字节。每个方向上的最大块大小是独立的。
17.png

设置对方传输带宽

客户端或服务端发送该消息来限制对端的输出带宽。接收端收到消息后,可以直接使用消息中指定的窗口大小,而不需要等待收到确认消息之后。如果视窗大小与上一个视窗大小不同,则该消息的接收端应该向该消息的发送端发送新的窗口大小消息。这个消息和上一个消息都是调整窗口大小的,不同的地方是,这个消息是接收者请求发送者,让它调整窗口大小,而上一个消息是发送者主动设置了窗口大小,通知数据接收者。
21.png

Limit Type(限制类型)有以下值:

消息有效负载

消息的另一部分就是有效负载,也是消息包含的实际数据,可以是音频样本或者压缩的视频数据。

用户控制消息

RTMP 协议将消息类型 4 作为用户控制消息 ID,这些消息包含 RTMP 流所需的必要信息。消息类型 1,2,3,5 和 6 由 RTMP 块流协议使用。
用户控制消息应该使用 ID 为 0 的消息流(控制流),并且通过 RTMP 块流传输时使用 ID 为 2 的块流。用户控制消息收到后立即生效,它们的时间戳信息会被忽略。
客户端或服务端通过发送该消息告知对方用户控制事件。该消息携带事件类型和事件数据两部分。
23.png

开头的 2 个字节用于指定事件类型,紧跟着是事件数据。事件数据字段长度可变,但是如果用 RTMP 块流传输,则消息总长度不能超过最大块大小,以使消息可以使用一个单独的块进行传输。

RTMP 指令消息

各种类型的消息在客户端和服务端之间进行交换,包括用于发送音频数据的音频消息,用于发送视频数据的视频消息,用于发送任意用户数据的数据消息,共享对象消息和指令消息等。共享对象消息的主要用途是管理客户端和相同服务器的共享数据。指令消息发送的是客户端与服务端之间的 AMF 编码指令,客户端或服务端也可以通过指令消息来实现远程过程调用(RPC)。

消息类型

客户端和服务端通过在网络上发送消息来实现交互,消息可以是任意类型,包括音频消息、视频消息、指令消息、共享对象消息、数据消息和用户控制消息等。

指令消息

指令消息在客户端和服务端之间传递 AMF 编码的指令,消息类型 20 代表 AMF0 编码,消息类型 17 代表 AMF3 编码。发送这些消息来完成连接、创建流、发布、播放、暂停等操作。像状态、结果这样的指令消息,用于通知发送方请求的指令状态。一条指令消息由指令名、事务 ID 和包含相关参数的指令对象组成。客户端或服务端还可以通过指令消息来实现远程过程调用 (RPC)。

数据消息

客户端或服务端通过该消息来发送元数据或其他用户数据。元数据包括数据 (音频、视频) 的创建时间、时长、主题等详细信息。消息类型 18 代表 AMF0 编码,消息类型 15 代表 AMF3 编码。

共享对象消息

共享对象是在多个客户端之间同步的 Flash 对象 (键值对集合)。消息类型 19 代表 AMF0 编码,消息类型 16 代表 AMF3 编码。每个消息都可以包含多个事件。
24.png

支持以下事件类型:

组合消息的消息流 ID 会覆盖其中子消息的消息流 ID。
组合消息的时间戳和其中第一个子消息的时间戳的差值,是用来将所有子消息的时间戳重整为流时间的位移量。位移量会加到每一个子消息的时间戳上来换算出正常的流时间。第一个子消息的时间戳应该与组合消息的时间戳相同,所以位移量应该为 0。
Back Pointer (反向指针) 包含前一个消息的长度(包括消息头),这样符合 flv 文件格式,可用于进行后退操作。
使用组合消息有以下好处:

用户控制消息支持以下事件:

Connect 指令中会用到的键值对:
28.png

音频编码:
29.png

视频编码:
30.png

视频功能:
31.png

对象编码:
32.png

由服务器发送至客户端的指令结构如下:
33.png

指令执行流程:
34.png

指令执行的消息流如下:

响应指令结构如下:
36.png

CreateStream

客户端发送该指令至服务器端以创建一条用于传递消息的逻辑通道,从而可以利用已创建的流通道发布音频、视频和元数据。
NetConnection 是默认的通讯通道,流 ID 为 0。协议和一些指令消息,包括 createStream,使用默认通讯通道。
客户端发出的指令结构如下:
37.png

服务器发出的指令结构如下:
38.png

NetStream 指令

基于 NetConnection 的客户端至服务器间连接,NetStream 定义了一条可以传递音频流、视频流以及消息流的通道。NetConnection 对象支持多个 NetStreams 以传输多个数据流。
客户端可在 NetStream 中发送下列指令至服务器:

服务器端通过 “onStatus” 将 NetStream 的状态更新至客户端:
39.png

Play

客户端发送该指令值以播放一个流。多次调用该指令也可创建一个播放清单。
如果你希望创建一个在不同 live 或 recorded 流间切换的动态播放清单,需要多次调用 play 并传递 false 以避免每次 reset。相反地,如果你希望立即播放某一指定流,传递 true 以清除等待播放队列中的所有其他流。
客户端发送的指令结构如下:
40.png

流程图如下:
41.png

指令执行期间的消息流如下:

该指令的消息流程如下图:
43.png

DeleteStream

当 NetStream 对象将要被销毁时,它发送该 deleteStream 指令。
客户端发送的指令结构如下:
44.png

服务器不需要发送任何应答。

ReceiveAudio

NetStream 发送 ReceiveAudio 消息通知服务器是否发送或不发送音频到客户端。
客户端发送的指令结构如下:
45.png

如果 receiveAudio 指令发送带有 flase 的 bool flag,服务器不发送任何响应。如果这个标志被设置为 true,服务器应答 NetStream.Seek.Notify 和 NetStream.Play.Start 的状态消息。

ReceiveVideo

NetStream 发送 ReceiveVideo 消息通知服务器是否发送或不发送视频到客户端。
客户端发送的指令结构如下:
46.png

如果 receiveVideo 指令发送带有 flase 的 bool flag,服务器不发送任何响应。如果这个标志被设置为 true,服务器应答 NetStream.Seek.Notify 和 NetStream.Play.Start 的状态消息。

Publish

客户端发送 publish 指令将已命名的流发布到服务器上。使用这个名称,任何客户端都可以播放此流,并接收已发布的音频、视频和数据消息。
客户端发送的指令结构如下:
47.png

服务器应答 onStatus 指令,以标记发布的开始。

Seek

客户端发送 seek 指令以定位媒体文件内或者播放列表的某个位置(以毫秒为单位)。
客户端发送的指令结构如下:
48.png

当定位成功,服务器发送 NetStream.Seek.Notify 的状态消息。失败的时候,它返回一个_error 的消息。

Pause

客户端发送 pause 指令以告诉服务器暂停或者开始播放。
客户端发送的指令结构如下:
49.png

当流被暂停,服务器发送一个 NetStream.Pause.Notify 的状态消息。当一个流变成未暂停状态,NetStream.Unpause.Notify 被发送。失败的时候,它返回一个_error 的消息。

消息交换例子

这里是一些样例,以解释使用 RTMP 的消息交换。

发布视频

这个例子说明了一个发布者如何发布一个流并将视频流推到服务器上。其他客户端可以订阅这个已发布的流,并播放视频。
50.png

广播一个共享对象消息

这个例子说明了在创建和更改共享对象时所交换的消息。它也说明了共享对象消息广播的过程。
51.png

发布媒体流元数据

这个例子描述了发布元数据的消息交换。
52.png

参考内容

[1] RTMP 规范
[2] RTMP 协议规范翻译工作
[3] RTMP 协议规范 1.0 中文版

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。