找回密码
 立即注册
查看: 253|回复: 0

Protobuf原理解析

[复制链接]
发表于 2022-8-30 17:08 | 显示全部楼层 |阅读模式
Protobuf生成和使用


  • Go使用Protobuf


  • JAVA使用Protobuf
Protobuf编码官方文档

Protobuf十六进制数据打印


  • 定义Protobuf消息协议
message User {
  int32 userId = 1;
}

  • 构建消息并输出16进制
public class PbTest {
    public static void main(String[] args) {
        User user = User.newBuilder()
                .setUserId(300)
                .build();

        System.out.println(user);

        byte[] data = user.toByteArray();
        // 十六进制形式打印
        for (byte b : data) {
            System.out.printf("%02X", b & 0xFF);
        }
    }
}

  • 查看输出


十六进制输出是:08AC02
对这个进行分析之前,需要了解几个知识点。
MSB

MSB是most significant bit(msb)的缩写。即最高有效位。
表示一个字节8位中,最高位中如果是1表示后面字节是和该字节连续在一起的,也是该数据的一部分。如果是0表示计算终止。
例如:
10001000 00010001
最左边的数(加粗的1)即是最高位,该数据为1,表示后面的字节是该数据一部分。所以整个数据是10001000 00010001。
最高位仅仅表示后面是否还有字节,并不能参与数据存储,所以除了最高位数,后面都参与计算。即该数据为:0001000 0010001。
least significant group first

least significant group first.是指在数据范围后,刚才已经确认10001000 00010001是一个数据,同时最高位不参与计算,则为0001000 0010001。后面字节需要放置在最前面。即0010001 0001000,最终二进制为:100010001000,转换为十进制为2184.
Tag

Protobuf保存消息数据时,是按照[tag-value][tag-value]...的形式进行保存。


不是按照key-value的形式,是因为,tag中既包含了key,也包含了数据类型。
message User {
  int32 userId = 1;
}key即是消息定义中的userId = 1的1,数据类型是int32.
计算tag的公式:
(field_number << 3) | wire_typefield_number 即是消息定义中的userId = 1的1.
wire_type是官方定义的种类:


第一列的type即是wire_type。
为什么field_number需要左移3位?
(field_number << 3) | wire_type
上图中type最大为5,5的二进制为101,占用3位。同时位移后又和wire_type做或操作。
所以上面公式的意思就是:将最后3为用来存储wire_type。
十六进制08AC02中的08说明

上面说明了msg,tag的概念。那接下来就根据输出的十六进制进行说明。
在Protobuf中数据的开头始终为varint。
那08的二进制是(十六进制转二进制):0 8 => 0000 1000
前面提到的msg,即最高有效位,去掉0,即为 0001000.

  • 后三位说明
在tag中说明到,后三位是用来存储wire_type的。后三位为000,即0,对应上面图可以得到int32。



  • 前四位说明
剩下的前4位为 0001.即1,表示该数的field_number,为1.和消息定义中的userId = 1一致。
十六进制08AC02中的AC02说明

在Protobuf中数据的开头始终为varint。那剩下的就是值数据了。
即:AC02。
对应的二进制:AC02 -> 1010 1100 0000 0010. 即:10101100 00000010.

  • 按照msb原则,最高有效位进行处理:10101100的msg是1,表示后面也是数据一部分,00000010的msg是0,表示计算结束。那就是10101100 00000010为一个数据。
  • 确定这是一个数据后,去掉有效位。即:0101100 0000010
  • 按照least significant group first处理。需要将分组进行反转。得到0000010 0101100,即10 0101100 -> 100101100.转换成十进制后为300.
User user = User.newBuilder()
                .setUserId(300)
                .build();这就是我们构建消息的用户ID 300.

总结


  • Protobuf中msg最高有效位。最高位是用来判断后面是否是数据的一部分,不用做计算数据。这样在一方面可以更加紧凑的存放数据。但是这样有效的数据位就只有7位,所以Protobuf一个字节表示的数的范围0-128。
  • Tag生成算法中由于后3位表示数据类型,所以Tag中1-15编号只占用1个字节,所以确保编号中1-15为常用的,减少数据大小。可变长度编码唯一的缺点就是当数很大的时候int32需要占用5个字节,但是从统计学角度来说,一般不会有这么大的数
  • least significant group first。确定数据后,去掉msg,交互字节位置。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-25 03:30 , Processed in 0.095331 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表