Protobuf原理解析
Protobuf生成和使用[*]Go使用Protobuf
[*]JAVA使用Protobuf
Protobuf编码官方文档
Protobuf十六进制数据打印
[*]定义Protobuf消息协议
message User {
int32 userId = 1;
}
[*]构建消息并输出16进制
public class PbTest {
public static void main(String[] args) {
User user = User.newBuilder()
.setUserId(300)
.build();
System.out.println(user);
byte[] data = user.toByteArray();
// 十六进制形式打印
for (byte b : data) {
System.out.printf("%02X", b & 0xFF);
}
}
}
[*]查看输出
十六进制输出是:08AC02
对这个进行分析之前,需要了解几个知识点。
MSB
MSB是most significant bit(msb)的缩写。即最高有效位。
表示一个字节8位中,最高位中如果是1表示后面字节是和该字节连续在一起的,也是该数据的一部分。如果是0表示计算终止。
例如:
10001000 00010001
最左边的数(加粗的1)即是最高位,该数据为1,表示后面的字节是该数据一部分。所以整个数据是10001000 00010001。
最高位仅仅表示后面是否还有字节,并不能参与数据存储,所以除了最高位数,后面都参与计算。即该数据为:0001000 0010001。
least significant group first
least significant group first.是指在数据范围后,刚才已经确认10001000 00010001是一个数据,同时最高位不参与计算,则为0001000 0010001。后面字节需要放置在最前面。即0010001 0001000,最终二进制为:100010001000,转换为十进制为2184.
Tag
Protobuf保存消息数据时,是按照...的形式进行保存。
不是按照key-value的形式,是因为,tag中既包含了key,也包含了数据类型。
message User {
int32 userId = 1;
}key即是消息定义中的userId = 1的1,数据类型是int32.
计算tag的公式:
(field_number << 3) | wire_typefield_number 即是消息定义中的userId = 1的1.
wire_type是官方定义的种类:
第一列的type即是wire_type。
为什么field_number需要左移3位?
(field_number << 3) | wire_type
上图中type最大为5,5的二进制为101,占用3位。同时位移后又和wire_type做或操作。
所以上面公式的意思就是:将最后3为用来存储wire_type。
十六进制08AC02中的08说明
上面说明了msg,tag的概念。那接下来就根据输出的十六进制进行说明。
在Protobuf中数据的开头始终为varint。
那08的二进制是(十六进制转二进制):0 8 => 0000 1000
前面提到的msg,即最高有效位,去掉0,即为 0001000.
[*]后三位说明
在tag中说明到,后三位是用来存储wire_type的。后三位为000,即0,对应上面图可以得到int32。
[*]前四位说明
剩下的前4位为 0001.即1,表示该数的field_number,为1.和消息定义中的userId = 1一致。
十六进制08AC02中的AC02说明
在Protobuf中数据的开头始终为varint。那剩下的就是值数据了。
即:AC02。
对应的二进制:AC02 -> 1010 1100 0000 0010. 即:10101100 00000010.
[*]按照msb原则,最高有效位进行处理:10101100的msg是1,表示后面也是数据一部分,00000010的msg是0,表示计算结束。那就是10101100 00000010为一个数据。
[*]确定这是一个数据后,去掉有效位。即:0101100 0000010
[*]按照least significant group first处理。需要将分组进行反转。得到0000010 0101100,即10 0101100 -> 100101100.转换成十进制后为300.
User user = User.newBuilder()
.setUserId(300)
.build();这就是我们构建消息的用户ID 300.
总结
[*]Protobuf中msg最高有效位。最高位是用来判断后面是否是数据的一部分,不用做计算数据。这样在一方面可以更加紧凑的存放数据。但是这样有效的数据位就只有7位,所以Protobuf一个字节表示的数的范围0-128。
[*]Tag生成算法中由于后3位表示数据类型,所以Tag中1-15编号只占用1个字节,所以确保编号中1-15为常用的,减少数据大小。可变长度编码唯一的缺点就是当数很大的时候int32需要占用5个字节,但是从统计学角度来说,一般不会有这么大的数
[*]least significant group first。确定数据后,去掉msg,交互字节位置。
页:
[1]