论文精读（五）

Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications

组会报告的稿子，同样懒得整理了，可结合PPT查看
今天我要讲的论文是“Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications”，是 Google 今年上半年在 ASPLOS 2023 上的一篇论文。总体上是 follow LLVM-BOLT 的一个工作，也算是少有的链接编译优化这个领域的顶会论文，之前也有同学提过这篇论文，不知道讲哪篇好，想来想去还是讲这篇论文，也可以让大家了解一下二进制编译优化
文章的整个逻辑围绕这三个问题，首先我们来看第一个问题。后链接优化器是什么，以及我们为什么需要一个后链接优化器
PGO 优化很好，但是仍然留下了程序优化的空间
- PGO 反馈编译优化大家应该不陌生，之前组会 gyh 讲过一个综述，也提到了这篇论文
- 先建立一点量化的概念：PGO 优化一般能提供 10% 以上的性能提升，但也大致就是这个数量级
- ThinLTO 是一个 LLVM 里类似链接的优化技术。链接的过程大家应该都大致了解，.c/.cpp文件编译为.o目标文件后，将这些目标文件和一些库合成一个可执行文件就是链接的过程。ThinLTO 是在 .bcLLVM-IR 字节码这个层级做类似“链接”的操作，并且进行优化。它能提供大致 3% 的性能提升。如果有了解过 NVCC 的链接时优化，会发现其实就是这个技术，因为 cicc 是基于 LLVM 的编译器，也很合理
- PGO 最大的一个问题是 profile 映射回抽象结构时可能不准确，在 code layout 这个问题上也可能导致大致 3% 的性能损失
- 还有我们通常意义上说的 PGO 也不能进行二进制层级的优化，比如下列几个：
  - 如果代码是对齐的，能更好地利用 DSB(Decoded Stream Buffer)
  - 利用 caller-callee 分析实现过程间寄存器溢出移除
  - 插入预取指令
接下来介绍后链接优化器
- 和常规的 PGO 相比，首先它不用重新编译，可以直接在二进制层面进行编译优化
- 它的工作流程是：反汇编，优化，再重新写回二进制文件
- 因为它直接优化二进制文件，有很高的 profile 精度，所以 Layout/Branch 之类特别依赖 PGO 的优化就能有很好的效果
- 因为直接在二进制上进行，所以一些特别细粒度的优化也可以做
第二个问题是，既然二进制优化这么好，目前 SOTA 的方案，其实也就是 BOLT 有什么问题呢？
我们来看看真正的软件 build 生产环境的内存限制
- Google 分布式构建系统对于大多数进程有 12G 的内存限制
- 谷歌浏览器利用 ThinLTO 构建的时候每个进程有 10G 的内存限制
- 不知道大家对链接时的内存占用有没有概念，大家应该都源码编译过 LLVM，链接时内存占用一般不小，所以这是一个重要的问题
- Debug Fission 和 ThinLTO 是优化大规模程序时使用的优化技术
但是 BOLT 不能很好地支持大规模的拓展
- BOLT 是单进程多线程的优化器，随着代码大小增大，不能支持大规模的拓展
- 因为是单进程，所以也不能很好地利用分布式构建系统
- 因为没有合适的图，我就把实验部分的图直接放上来了，可以看到 BOLT 的内存占用还是高得离谱的
BOLT 在反汇编和重写方面也有不少问题
- 第一个是工程上，没有很好地嵌入进现有的工具链中，更像是一个独立的工具，这也导致了很多重复和兼容性的问题
- 第二个是，BOLT 不支持 RSEQ，这个我是第一次听说，是 Linux 的一个特性，能够加速同步操作
- 第三个是，一些密码学的模块有严格的完整性检查，不能被重写
- 第四个是，BOLT 输入的二进制不能是 stripped，就是说不能没有 Debug 信息
总之 BOLT 有各种各样的问题，害得看本文的工作。本文是怎么支持大规模拓展的？
这里列了几个本文工作的设计哲学，大体上就是和前面攻击 BOLT 的点反着来
- 为了减少内存占用，不进行反汇编，因为反汇编这个过程很难并行，并且使用分布式的操作，具体来说就是不进行二进制重写，而是重链接，但第二次编译 IR 时在 LLVM 后端使用后链接优化相关的变换，这些操作对分布式构建系统比较友好，而且第二次编译也将 IR 和目标文件 cache 住
- 嵌入进现有的工具链中
- 使用轻量级的程序分析
- 具体优化目前只做了 code layout，还有其它优化正在做
这张图是整个流程，其实过程和 PGO 更像
细节上，本文引入了基本块段这个概念，来实现细粒度 code layout 优化。之前的实现大多基于函数调用，本文的粒度是基本块。这是论文举的两个例子，左边三个分别是原始代码布局，基于函数调用的优化，本文基于基本块的优化，可以看到如果粒度是函数，会分裂出新的基本块；右图是一个实现了过程间 layout 优化的例子，线越粗表示分支地越频繁，右边的函数调用跳转局部性更好，因此性能更好
接下来看看实验结果
- 其实和 BOLT 的优化效果差不多，但优势是不会 crash
- 内存占用这边优势就比较明显了，baseline 是 PGO + ThinLTO
最后这页 PPT 不是我写的，是官方演讲的一些想法，一些很细的点，不是论文里的内容，我就不展开来说了，作者认为后链接优化还有很多可做的地方
到这论文就分享完了，PPT 的内容大部分来自官方的演讲，所以论文的很多细节都没覆盖到，不过我估计大家可能也不太感兴趣很多链接的实现细节
个人观点
- 我感觉这个工作可能是 Google 自己在 BOLT 落地的过程中遇到了困难，所以参考了 ThinLTO 的 idea 进行了一些尝试，其实最核心的点就是把后链接优化的层级往前移到了链接器这里，所以本文虽然一直在攻击 BOLT，我觉得严格来说本文其实不是后链接优化，更多是 ThinLTO 工作的优化，而且其实非常工程，看了演讲之后，我感觉这种讲故事的能力还是很值得我们学习
- 其实它的效果主要还是减少运行时的内存占用，性能提升只有很少的数据，只有一张表，和几个段落，连图都没有放，而且其实提升比较低。。。我感觉数据不太好也很容易理解，因为本文 profile 的映射层级实际上还是 IR，肯定还是没有汇编级别准确，不过论文的侧重点也不仅是性能
- 还有就是里面可能提到了一些别的二进制优化，虽然很多已经被 BOLT 实现地很好了，不知道有没有什么进一步优化的空间

#笔记 #论文 #LTO #PGO

论文精读（五）

http://example.com/2023/12/17/论文精读（五）/

作者

zty

发布于

2023年12月17日

许可协议

日本旅行上一篇

NVCC编译流程下一篇