超参数优化(一): 简介

maltadirk · 发表于 2021-11-24 18:26

引言：黑盒优化在工业设计中有着广泛的应用，机器学习中的超参数优化是黑盒优化的一种。近年来深度学习建模中涉及到的超参数数量远超传统机器学习方法（如XGBoost)。机器学习中的超参数优化，特别是深度学习越来越凸显重要作用，引起了学术界和工业界的重视。
<hr/>一、简介

黑盒优化在工业设计中有着广泛的应用，机器学习中的超参数优化是黑盒优化的一种。近年来，随着深度学习的不断发展，深度学习建模中涉及到的超参数数量远超传统机器学习方法（如XGBoost、SVM等)。机器学习中的超参数优化，特别是深度学习，越来越凸显重要作用，引起了学术界和工业界的重视：

2021年，QQ浏览器在国际综合AI学术会议之一顶会CIKM和中国计算机学会（CCF）多媒体技术专委会支持下举办2021AI算法大赛。自动超参数优化赛题为超参数优化问题或黑盒优化问题：给定超参数的取值空间，每一轮可以获取一组超参数对应的Reward，要求超参数优化算法在限定的迭代轮次内找到Reward尽可能大的一组超参数，最终按照找到的最大Reward来计算排名。[1]
2020年，在2020 NeurIPS 举办了黑盒优化的比赛 [2]，比赛任务是对机器学习中的超参数进行优化。

在有限的参数搜索限制条件，寻找能够使机器学习模型达到一个较优的解(或者Loss)，是一个很具挑战的黑盒优化问题：

$\begin{aligned} \max_{x\in X} \enspace f(x) \end{aligned} \tag{1}$
其中 $X$ 为参数空间， $f(x)$ 为我们需要最优化的目标函数。
2021年QQ浏览器动超参数优化初赛，限制为100个评估点，时间不超过600s，则问题可以建模为：

$\begin{aligned} \max_{x\in D} \enspace &f(x)\\ \text{s.t. } \enspace & D=\{x_1,x_2,...,x_{100} \}, x_i \in X \\ & \sum_{i=1}^{20} time(i) <= 600s \end{aligned} \tag{2}$
本文作者参与了2021年QQ浏览器动超参数优化比赛，参赛过程中调研了2020 NeurIPS BBO的参赛方案及当前业界最新超参数优化和黑箱优化的技术进展，在业余时间进行了相应的总结，形成此系列文章，希望对超参数优化和黑盒优化感兴趣的同学能有所启发。
本文的组织形式如下：

第2章：介绍贝叶斯优化框架，包括代理模型、采集函数等；
第3章：介绍实验设计内容，侧重介绍Halton序列、拉丁超立方序列和Sobol序列的生成 [13]，[14]；
第4章：介绍基于信赖域的贝叶斯优化方法TuRBO[7]；
第5章：介绍基于蒙特卡洛树搜索的贝叶斯优化方法(MCTS+TuRBO)[5]，[6]；
第6章：介绍基于异质方差进化贝叶斯优化方法（HEBO）[3]；
第7章：介绍基于pySOT和POAP的代理模型优化工具箱及其异步并行框架[8]；
第8章：介绍在QQ浏览器2021超参数优化大赛参赛经验总结；
第9章：总结和展望。

<hr/>整体目录概览：

一、简介
二、贝叶斯优化框架
- 2.1 贝叶斯优化框架
- 2.2 代理模型
- 2.3 采集函数
三、实验设计
- 3.1 实验设计简介
- 3.2 空间填充准则
  - 3.2.1 基于均匀的空间填充准则
  - 3.2.2 基于距离的空间填充准则
- 3.3 Halton序列采样
- 3.4 拉丁超立方采样
- 3.5 sybol序列采样
四、TuRBO：基于信赖域的贝叶斯优化
- 4.1 无约束优化问题
- 4.2 信赖域方法
  - 4.2.1 问题定义
- 4.3 TuRBO原理
  - 4.3.1 构建候选点
  - 4.3.2 筛选最优候选点
  - 4.3.3 调整信赖域半径
- 4.4 总结
五、MCTS+TuRBO：基于蒙特卡洛树搜索的贝叶斯优化
- 5.1 背景
- 5.2 蒙特卡洛树构建（MCT)
  - 5.2.1 树构建
  - 5.2.2 树节点分裂
- 5.3 蒙特卡洛树搜索（MCTS)
  - 5.3.1 高潜力评估点择优
- 5.4 TuRBO精确求解
- 5.5 MCTS+TuRBO代码解析
六、HEBO：异质方差进化贝叶斯优化
- 6.1 背景
- 6.2 贝叶斯优化建模思路
  - 6.2.1 贝叶斯建模假设
  - 6.2.2 采集函数假设
- 6.3 模型假设分析及优化方案
  - 6.3.1 问题1：超参数优化任务是平稳的吗？
  - 6.3.2 问题2：超参数优化任务是同质的吗？
  - 6.3.3 问题3：在超参数优化中，不同采集函数输出的结果是否是冲突的呢？
    - 6.3.3.1 带鲁棒性的采集函数
    - 6.3.3.2 多目标采集函数
- 6.4 贝叶斯优化
  - 6.4.1 处理异质方差性和不平稳性
- 6.5 HEBO整体框架
- 6.6 HEBO 核心代码解析
七、pySOT和POAP: 代理模型优化工具箱及其异步并行框架
- 7.1 简介
- 7.2 代理模型优化
  - 7.2.1 实验设计
  - 7.2.2 代理模型（径向基函数）
  - 7.2.3 采集函数
    - 7.2.3.1 候选点生成
- 7.3 异步算法
  - 7.3.1 更新采样半径
- 7.6 代码示例
  - 7.6.1 通用代码示例
  - 7.6.2 单线程代码示例
- 7.7 总结
八、QQ浏览器2021超参数优化大赛：参赛经验总结
九、总结和展望
十、参考文献

注：本系列相关章节的部分内容后续更新可能会有调整。
<hr/>
欢迎关注:simplex101,了解更多超参数优化（黑盒优化）分享内容。
参考文献

[1] QQ浏览器2021AI算法大赛，https://algo.browser.qq.com/

[2] Turner, Ryan, et al. &#34;Bayesian optimization is superior to random search for machine learning hyperparameter tuning: Analysis of the black-box optimization challenge 2020.&#34; arXiv preprint arXiv:2104.10201 (2021).

[3] TCowen-Rivers, Alexander I., et al. &#34;Hebo: Heteroscedastic evolutionary bayesian optimisation.&#34; arXiv e-prints (2020): arXiv-2012.

[4] Liu, Jiwei, Bojan Tunguz, and Gilberto Titericz. &#34;GPU Accelerated Exhaustive Search for Optimal Ensemble of Black-Box Optimization Algorithms.&#34; arXiv preprint arXiv:2012.04201 (2020).

[5] Sazanovich, Mikita, et al. &#34;Solving black-box optimization challenge via learning search space partition for local bayesian optimization.&#34; NeurIPS 2020 Competition and Demonstration Track. PMLR, 2021.

[6] Wang, Linnan, Rodrigo Fonseca, and Yuandong Tian. &#34;Learning search space partition for black-box optimization using monte carlo tree search.&#34; arXiv preprint arXiv:2007.00708 (2020).

[7] Eriksson, David, et al. &#34;Scalable global optimization via local bayesian optimization.&#34; Advances in Neural Information Processing Systems 32 (2019): 5496-5507.

[8] Eriksson, David, David Bindel, and Christine A. Shoemaker. &#34;pySOT and POAP: An event-driven asynchronous framework for surrogate optimization.&#34; arXiv preprint arXiv:1908.00420 (2019).

[9] Regis, Rommel G., and Christine A. Shoemaker. &#34;A stochastic radial basis function method for the global optimization of expensive functions.&#34; INFORMS Journal on Computing 19.4 (2007): 497-509.

[10] 基于径向基函数(RBF)的函数插值

[11] 多目标优化总结：概念、算法和应用。知乎多目标优化专栏，https://www.zhihu.com/column/c_1360363335737843712

[12] 刘浩洋, 户将, 李勇锋，文再文，最优化：建模、算法与理论, 高教出版社，2020版

[13] Garud, Sushant S., Iftekhar A. Karimi, and Markus Kraft. &#34;Design of computer experiments: A review.&#34; Computers & Chemical Engineering 106 (2017): 71-95.

[14] Viana, Felipe AC. &#34;A tutorial on Latin hypercube design of experiments.&#34; Quality and reliability engineering international 32.5 (2016): 1975-1985.

		自动登录	找回密码
密码			立即注册