导读:随着 AI 技术的发展,不同业务涉及的 AI 技术越来越多样,同时 AI 模型参数量逐年爆发式增长,如何克服 AI 算法落地面临的开发成本高、对人工依赖强、算法不稳定及落地周期长等问题,成为困扰人工智能从业者的难题。而“自动机器学习平台”是解决 AI 落地压力的关键方法。今天会和大家分享下度小满在搭建自动机器学习平台 ATLAS 的实践经验。 今天的介绍将会围绕下面四点展开:
1. 机器学习平台
2. 自动机器学习
3. 规模与效率
4. 总结与思考
<hr/>分享嘉宾|单黎平 度小满 AI算法高级专家
编辑整理|徐韵婉 新合生物
出品社区|DataFun
<hr/>01/机器学习平台
首先介绍一下度小满机器学习平台的背景、发展过程以及现状。
1. 业务场景
度小满是一家金融科技公司,公司内部的业务场景主要分为三个方面:
智能风控:涉及关系数据挖掘、文本数据挖掘、情感分析等 NLP 技术,及人脸识别等 CV 技术。
智能获客:涉及常见的广告获客技术,如个性化定价、个性化推荐、创意广告以及用户画像。
智能经营:涉及图神经网络、因果推断及 OCR 等 AI 算法技术。
由于业务涉及的 AI 技术非常多样,给 AI 算法落地带来了很大的挑战。
2. AI 算法落地难题
AI 算法落地存在一个不可能三角:很难同时实现算法开发的高效率、低成本和高质量。
AI 算法成本高昂:首先 AI 算法开发的门槛很高。如金融风控当中使用的 OCR 技术、人脸识别技术准入门槛很高,并不是所有公司都能掌握,且只有少部分公司能做到顶尖水平。其次 AI 算法硬件资源消耗大。如训练一个人脸识别模型,或者一个大规模的 NLP 模型,需要投入大量的计算资源,这是一个无形的门槛。
AI 算法效果不稳定:AI 算法效果依赖于专家经验,不同的人会产出不同的结果,存在不稳定因素。
AI 算法交付周期长:一个成熟的算法从开发到部署上线开发周期动辄长达数月以上,并且很多时候需要根据丰富的业务场景做定制化开发,最后模型的产出与算法落地之间存在鸿沟。
面对这些AI落地的难题,我认为唯一的解决方案是使用机器学习平台。
3. AI 算法生产流程
下面从 AI 算法的生产流程来理解 AI 算法落地过程中遇到的具体困难。
AI 算法落地主要分为数据管理、模型训练、算法优化及部署发布四个部分,其中模型训练和算法优化之间是一个反复迭代的过程。
在算法开发的每一个步骤里面,对参与该步骤的人员的技术要求的差异很大:
我们的部署采用类 Serverless 的架构,之所以说它是类 Serverless 是因为它并不是完全的 Serverless 的服务。因为我们的服务面向的并不是广泛通用的应用场景,只面向模型的在线服务,所以不需要考虑更多的场景兼容。
在 API 接口这一层提供了模型会接触到的三个部分:
基本的特征加工
模型本身的预测
对于外部数据访问的能力
对于用户来说,只有图中橙色部分是用户需要关注的,平台提供的 API 可以减少开发成本,并且可以兼容几乎市面上所有的算法。借助 API 开发一个模型,从开发完成到落地上线可以在一天之内甚至半天之内完成。在此之上我们通过集群管理,可以为平台提供很好的稳定性保障、流量管理和容量管理。
7. ATLAS:优化迭代
下面演示在 ATLAS 上的两个优化迭代的场景。
场景一:在线模型持续迭代
例如在一个 OCR 模型的落地过程中,旧模型部署之后会产生一些 bad case,这些 bad case 和已有的标注数据融合之后成为新的数据集,再通过 AutoML 优化流水线优化旧模型产生新模型,新模型部署之后再循环往复。通过这样的循环可以让模型保持额外的1%的准确率的提升,由于 OCR 的模型精度很高,一般会在95%以上,所以1%也是很大的提升。