找回密码
 立即注册
查看: 489|回复: 0

2.1. 机器学习简介

[复制链接]
发表于 2023-2-28 15:11 | 显示全部楼层 |阅读模式
概念:为机器学习准备数据集
在构建模型之前,最好仔细构建和理解您的训练数据集,以防止模型出现问题。准备步骤可以提高模型的性能。
检查数据质量问题
Dataiku 可让您轻松构建和探索数据集,以在训练模型之前解决常见的陷阱。一个常见问题是数据质量。在数据集浏览视图中,您将能够检查缺失值或不一致的数据。例如,您可能想要删除一个包含太多缺失值或无效值的变量。这些变量对您的模型没有任何预测能力。这可以在训练模型之前的“准备”配方中或在实验室的“脚本”选项卡中完成。


然后您需要选择特征并避免那些会对模型性能产生负面影响的特征。
执行特征选择
清理数据集后,您 '将要选择用于训练模型的特征。有些特征会对模型的性能产生负面影响,因此您需要识别并删除它们。在 Dataiku 中,您可以手动和自动执行特征选择。
手动执行特征选择的一种方法是使用数据集中的“统计”选项卡。这将允许您执行有助于您选择特征的统计测试和分析。例如,使用相关矩阵,您可以识别高度相关的特征对并删除冗余特征。冗余特征可能会损害某些模型的性能。


执行特征工程
用来提高模型性能的另一种策略是特征工程。特征工程涉及从现有数据集构建新特征或将现有特征转换为更有意义的表示。一个例子是原始日期。 机器学习模型不能很好地理解原始日期。一个好的策略是将日期转换为数字特征以保留它们的顺序关系。例如,在“准备配方”或“实验室”的“脚本”选项卡中,您可以将出生日期列转换为年龄列。


这个简单的转换可以显着提高模型的性能。最后一个要检查的陷阱是数据泄漏。
查找数据泄漏
当使用不可用的特征训练模型,在模型部署到生产环境后,预测新数据时就容易发生数据泄漏。这个问题会导致你在验证集上的性能过于乐观,而在真实数据上的泛化性能非常低。在构建你的训练集时,必须检查你正在使用的所有特征在预测时是否可用,并且你的所有特征都不可包含您要预测的信息。例如,假设您要预测给定日期的销售额,并且您已经使用截至这一天的 前3 天内的销售额创建了一个特征。该功能包含您的目标,除非您确保您的功能只查看目标日期之前的三天。

概念:快速模型
您可以使用 Dataiku 中的可视化机器学习,只需几步即可训练多个机器学习模型。在实验室中构建您的机器学习模型。The Lab 是您起草工作的地方,无论是初步数据准备还是机器学习模型创建。




不同类型的建模任务
预测
预测涉及监督学习问题,其中要预测的变量在标记的训练数据集中可用。预测模型是受监督的学习算法,目标变量的性质将驱动预测任务的种类。

  • 回归用于预测实数值(即持续时间、数量、花费的金额……)。
  • 二分类用于预测布尔量(即存在/不存在,是/否……)。
  • 多分类用于预测具有有限值集的变量(红/蓝/绿,小/中/大……)。
聚类
聚类指的是目标未知的无监督学习问题,您正在寻找数据点中的模式和相似之处。聚类模型正在推断一个函数来描述“未标记”数据的隐藏结构。这些无监督学习算法正在对给定特征的相似行进行分组。
在此示例中,我们要为监督学习问题构建一个预测模型,以预测患者是否会再次入院。
在构建监督学习模型时,您还需要选择一个目标变量。目标变量是您的模型使用其他变量对其值进行建模和预测的变量。


确定目标变量后,您将能够在 AutoML 和专家模式之间进行选择:

  • 借助AutoML,即Automated Machine Learning模式,Dataiku将为您做出很多优化选择。
  • 过专家模式,您可以使用深度学习模型,完全控制模型的细节,或编写自己的算法。
例如,在构建预测模型时,您可以选择一个 AutoML 任务,例如 Quick Prototypes,让 Dataiku 做出您喜欢的训练/测试拆分或特征预处理等智能建模选择。


在自动机器学习模式下,您仍然可以定义 Dataiku 将训练的算法类型。 这将使您可以在快速原型、可解释模型或可解释性较低的高性能模型之间进行选择。
您还可以定义用于训练模型的计算引擎。 您将能够利用机器基于 Python 的后端,或者根据在管理员级别进行的集成,使用 SparkMLlib 或 H20 Sparkling water 将训练卸载到您的 Spark 集群。


一旦你选择了一个选项,你就可以启动你的第一个训练课程并在你的训练数据集上训练一些模型。


会话是实验的一次迭代。 它将包括并保存训练过程中使用的所有参数、数据集、特征和算法,以及相关的训练信息。 您将能够创建许多训练课程来进行实验并尝试提高基线模型的性能。

概念:设计选项卡概述
创建快速模型(快速原型)后,您需要修改模型的设计以确保您的模型产生尽可能好的结果。需要考虑的一些事项是基本模型设计、特征工程和降维、算法和超参数,以及其他高级设计选项。
基本模型设计
在“设计”选项卡中,您可以修改目标变量并在三种预测类型之间进行选择:

  • 数字目标的回归,
  • 当目标可以是两个类别之一时的二分类,以及
  • 当目标可以是多个类别之一时的多类分类。


您还可以选择在已分区或跨某个有意义的维度拆分的数据集上对模型进行分区。训练模型时,重要的是要在保留或测试数据集上测试模型的性能。如有必要,您可以选择按特定时间变量排序,以确保拆分符合特定时间线。
如果您正在处理不适合 RAM 的大型数据集,或者您想要二次抽样以重新平衡类,您可以选择相关的抽样策略。 默认情况下,Dataiku 执行随机拆分,其中 80% 的记录被送入训练集,20% 被送入测试。 如果您更喜欢 k 折交叉测试或更高级的显式数据集提取,则可以覆盖它。
选择训练测试拆分方法后,您可以决定使用什么指标来对测试集进行评分,并决定哪些超参数是最好的。您还可以提供自定义 sci-kit 学习兼容的 Python 函数。 在进行二元分类时,您还可以选择要优化阈值的指标。 阈值与阳性预测的可能性直接相关。
您还可以使用成本矩阵来量化各种结果的收益,以便从成本角度更好地理解您的模型。

特征工程与降维
现在您已经配置了基本模型设计,您可以开始进行特征工程和降维。在“特征处理”面板中,您可以决定要在模型中包含哪些特征,以及如何通过可视化用户界面或 Python 代码对它们进行预处理。Dataiku 根据您使用的变量类型(数字、分类、文本或矢量)具有不同的默认配置。


您还可以使用线性或多项式组合以及成对交互项生成新特征。如果您有很多特征,您可以选择一种降维技术,例如主成分分析或基于树的降维。
算法和超参数
在建模部分,您可以选择和取消选择算法。Dataiku 支持多种可用于训练机器学习模型的算法。您可以决定要测试哪些算法和相应的超参数,甚至可以添加自定义 Python 模型。


在建模部分,您还可以定义您希望 Dataiku 如何通过称为网格搜索的过程测试不同的超参数值。通过这个过程,Dataiku 将测试所有可能的超参数组合,并根据您之前选择的指标自动选择性能最佳的组合。


高级选项
配置模型设计后,考虑高级选项。如果您使用自定义 Python 模型以及 Dataiku 内置代码环境中不存在的任何库,则可以使用高级选项为您的模型使用不同的代码环境。


如果您想将模型训练卸载到 Kubernetes 容器,您可以通过选择相关的容器配置轻松实现,前提是您的 Dataiku 实例启用了 Kubernetes。您可以使用加权策略来指定每一行的相对重要性,包括训练算法和不同的评估指标。 这在处理不平衡数据集时特别有用。 默认情况下,Dataiku 对所有分类任务使用类别权重,以确保平等地考虑每个类别。在训练分类模型时,您还可以选择使用概率校准来调整类别概率以更接近类别频率。一旦你已经开发了你的模型设计,再次训练你的模型时,不要忘记给这个训练会话起一个不同的名字,这样你就可以清楚地将它与你最初的训练会话区分开来。

概念:结果选项卡概述
可视化分析的“模型”页面包含一个“结果”选项卡,可用于比较不同算法和训练会话的模型性能。默认情况下,模型按会话分组。但是,我们可以选择“模型”视图以在一个窗口中评估所有模型,或者选择“表格”视图以查看所有模型以及更详细的指标。


“结果”选项卡还允许我们评估不同的建模会话,并恢复到以前的模型设计。
会话提供以下信息:已训练模型的图表、网格搜索每次迭代的分数和详细信息,以及整个模型训练过程所花费的时间。Dataiku DSS 自动从网格搜索中选择性能最好的模型。


训练模型时,您还可以查看模型诊断。模型诊断可帮助您检测常见的缺陷,例如过度拟合和数据泄漏。当算法未通过任何诊断检查时,Dataiku 会显示诊断。


单击诊断会显示模型摘要,包括训练信息部分。


诊断在调试下的设计选项卡中配置(正如我们在设计选项卡概述中看到的那样)。



概念:模型摘要概述
Report 页面的 Summary 面板显示有关模型的一般信息,例如算法和训练日期。此外,报告页面还包含与模型解释、性能和模型详细信息相关的部分。


模型解释(可解释性)
在可解释性部分,我们可以看到变量重要性选项卡显示了我们模型的全局特征重要性。在此图表中,Discharge disposition特征与医院再入院率的关系最强。


偏相关图帮助我们了解单个特征对模型预测的影响。例如,计算“年龄”特征的部分依赖图显示再次入院的可能性大约从 60 岁增加到 80 岁。


亚群分析使我们能够评估模型在不同亚组中的行为。例如,我们可以根据性别来分析模型性能。结果显示不同性别的模型行为相似,男性患者的表现略有下降。


虽然全局变量重要性可以是确定整体模型行为的有用指标,但它不能提供对单个模型预测的洞察力。Dataiku 允许用户生成个人预测解释。例如,我们可以看到哪些特征对我们的模型个体患者的预测影响最大。


可解释性部分中的一些面板与算法相关。例如,逻辑回归等线性模型将显示有关模型系数的信息,而不是 XGBoost 模型中的变量重要性信息。

模型性能
混淆矩阵将目标变量的实际值与预测值进行比较。 此外,Dataiku 还显示一些相关指标,例如精度、召回率和 F1 分数。例如,混淆矩阵显示我们的模型有 44% 的误报率和 84% 的召回率。


默认情况下,Dataiku 在最佳阈值(或截止值)处显示混淆矩阵和相关指标。但是,对截止值的手动更改会实时反映在混淆矩阵和相关指标中。
决策图表选项卡显示模型性能指标的所有可能截止值的图形表示。


决策图还显示了最佳截止点的位置(基于 F1 分数),对于我们的 XGBoost 模型来说是 0.3'。
提升图和 ROC 曲线是可用于评估机器学习模型性能的可视化辅助工具。图表开头的曲线越陡峭,模型越好。


最后,密度图说明了模型如何成功识别和分离类别。虽然在一个完美的模型中,不同模型的概率密度不会重叠,但在真实数据上训练的模型几乎不会出现这种情况。对于我们的 XGBoost 模型,我们能够观察到两个不同的分布,它们的中值由 12% 的预测概率分开。


模型信息
最后,让我们探索模型信息部分。“特征”面板包含有关特征处理的信息,以及所有预处理特征的列表。对于我们的 XGBoost 模型,我们可以看到拒绝了 Encounter ID 特征,而将住院就诊次数作为数字特征处理并标准化。


网格搜索优化面板显示了在超参数网格搜索期间训练的所有模型的历史记录。在我们的例子中,我们可以看到 Dataiku 训练了两个 XGBoost 模型,将 max_depth 超参数从 2 变为 3。


算法面板包含有关超参数网格搜索产生的最佳模型的信息。对于我们的 XGBoost 模型,我们可以看到 Dataiku 选择了最大树深度为 5 的 XGBoost 模型。

调整模型简介
在前面的部分中,我们学习了如何利用 Dataiku 的自动化机器学习功能来创建我们的第一个模型。此后,我们在“结果”选项卡中查看了模型的性能和结果。下一步是尝试提高我们模型的性能。
机器学习 (ML) 是一个迭代过程。为了让您的 ML 模型最好地学习数据中的模式,您可以多次重复训练过程,同时在每次训练迭代时进行调整。这类似于人类的学习方式。例如,为了提高模型性能,您可以尝试不同的特征处理技术或不同的算法优化方法。
在本节中,您将了解 Dataiku 中的不同选项,您可以利用这些选项来迭代改进您的模型。
概念:特征处理
在特征处理面板中,我们可以让 Dataiku 自动选择包含在我们模型中的特征,或者我们可以在训练模型时手动选择我们想要包含的特征。在我们的示例中,Dataiku 自动排除了包含唯一标识符的列。


我们还可以执行特征处理,包括处理不同类型的变量、处理缺失值以及应用附加处理。
变量类型
在 Dataiku 中,我们可以处理数字、分类、文本和矢量特征。数字特征包括由数字组成的列。分类特征通常由“类别”或“类”标签组成。在机器学习中,文本特征指的是自然语言。向量是指数字的集合,由逗号分隔并括在方括号中。
处理缺失值
许多机器学习算法无法处理具有缺失值的行。因此,第一个特征处理步骤是处理任何缺失值。
对于数值特征,根据用例,我们可以用常数(例如零)或列的中值或均值来估算缺失值。在其他情况下,我们可能会选择删除具有缺失值的行,如本例所示:


对于分类特征,我们可以将缺失值视为额外的“缺失”类别,或者我们可以估算最常见的类别。另一种选择是完全删除具有缺失值的行。
应用包括编码在内的附加处理
下一步是应用任何附加处理。例如,对于数值特征,如果值之间存在较大的绝对差异,我们可能需要应用重新缩放技术,例如“标准”或“最小-最大”重新缩放。
对于分类特征,我们希望将值编码为数字,以便机器学习算法能够理解它们。在这个之前和之后的例子中,我们可以应用虚拟编码,以便帽子和鞋子被编码为数字:




Dataiku 可以通过标记化、哈希和应用 SVD、计数向量化、TF/IDF 向量化或自定义预处理来处理文本特征。计数向量化类似于分类特征的虚拟编码。输出是一个矩阵,每个单元格包含特定单词的计数:




向量可以通过称为“扁平化”的过程来处理,向量中的每个元素都被分配到它自己的列:



概念:审查设计
处理完特征后,我们可以回顾模型会话的设计,并研究两种方法来丰富我们的特征:特征生成和特征降维。
特征生成
特征生成是从现有特征构建新特征的过程。特征生成的目标是导出可能对机器学习模型有用的数据的新组合和表示。例如,Random Forest 算法的 Partial dependency plot 检测到年龄与目标存在非线性关系:


通过生成多项式特征,我们可以发现特征与目标之间潜在的新关系并提高模型的性能。
Dataiku 可以计算特征之间的相互作用,例如计算两个数字特征的和与差的成对线性组合,以及乘以两个数字特征的成对多项式组合。Dataiku 将在所有数字特征对之间建立成对多项式交互。为了减少新列的结果数量,我们可以指定我们感兴趣的成对交互。


特征降维
特征降维是降低特征空间维度的过程。它的目标是在不丢失重要信息的情况下简化我们的模型必须摄取的特征数量。


可以使用以下特征缩减技术:

  • 在 Correlation with target 中,只会选择与目标最相关的特征。
  • 使用主成分分析,只会选择顶部的主成分。
  • 使用基于树的技术将创建一个随机森林模型来预测目标。只会选择最重要的功能。
  • 借助套索回归技术,Dataiku 将创建一个套索模型来预测目标。只会选择具有非零系数的特征。
  • 我们还可以选择特征降维技术的参数。例如,我们可以选择要为 PCA 保留的主成分数量。

概念:算法和超参数
“设计”选项卡的“建模”部分让我们可以在 Dataiku 中可用的不同机器学习算法之间进行选择,使用网格搜索优化超参数,并利用可用的不同机器学习引擎。
算法
Dataiku 原生支持多种算法,可用于根据机器学习任务训练预测模型:聚类或预测(分类或回归)。 我们还可以通过添加自定义 Python 模型来选择使用我们自己的机器学习算法。
让我们看一下我们训练的分类模型的建模部分,该模型用于预测患者是否会再次入院。
对于我们选择的每个算法,都有一组我们可以优化以改进模型的超参数。例如,在随机森林算法中,我们可以改变树的数量、特征采样策略或树的最大深度,举几个例子。例如,我们可以为树的数量尝试三个不同的值:100、50 和 200。


可用于优化的超参数取决于算法和选择用于训练模型的引擎。 每次我们在 Dataiku 中创建一个新的机器学习模型时,我们都可以选择用于训练模型的引擎。大多数算法都基于 Scikit Learn 或 XGBoost 机器学习库,并使用内存处理。
我们还可以利用我们的 Spark 集群在不适合内存的大型数据集上训练模型,方法是使用以下方法之一:

  • Spark 的机器学习库,MLLIB,或者
  • Sparkling Water,H2O 对 Spark 机器学习的支持。
这些引擎中的每一个都会导致略有不同的超参数进行优化。

超参数
Dataiku 允许我们定义超参数搜索的设置这些搜索参数控制优化过程,可从“超参数”选项卡获得。
例如,对于网格搜索,我们可以将最长搜索时间设置为 2 分钟。当达到时间限制时,网格搜索停止,并返回模型的最佳参数集。
执行超参数优化的传统方法是网格搜索。网格搜索只是对所有可能的超参数组合的详尽搜索。例如,对于随机森林,我们可能会选择一些离散值来探索每个超参数,例如树的数量和树的深度,然后尝试所有组合。
当网格搜索不是最佳策略时,例如当你有十几个超参数时,你可以使用高级搜索策略,如随机搜索和贝叶斯。
随机搜索只是简单地从超参数空间中抽取随机点,并在 N 次迭代后停止。
贝叶斯搜索的工作方式类似于随机搜索,但它会根据先前点的性能生成新点。这个想法是将探索的重点放在似乎最有效的点上。

我们还可以为网格搜索选择我们首选的验证策略:

  • 一个简单的训练/测试拆分,
  • K 折交叉验证方法,或
  • 我们自己的自定义交叉验证代码。



查看调整结果
一旦我们对我们的设置感到满意,我们就可以训练我们模型的另一个迭代,并在结果选项卡中可视化网格搜索的演变。
我们可以选择在 Dataiku 执行网格搜索时中断优化。Dataiku 然后将完成它正在评估的当前网格点,并将在“迄今为止找到的最佳超参数”上训练和评估模型。稍后,我们可以恢复中断的网格搜索,Dataiku 将仅使用未尝试过的超参数值继续优化。
在这里,Dataiku 显示了迄今为止发现的最佳交叉验证分数的演变图。将鼠标悬停在其中一个点上,我们可以看到产生改进的超参数值的演变。在图表的右侧,我们可以看到最终的测试成绩。



概念:可解释的 AI
传统模型,如回归或基于树的模型更容易理解,被称为白盒模型。用于训练模型的数据与模型结果之间的关系是可以解释的。
更复杂的模型,如集成和深度学习,可以更准确,但更难理解。这些被称为黑盒模型。用于训练模型的数据与模型结果之间的关系更难解释。
在某些情况下,我们可能对准确性和可解释性之间的这种权衡感到满意。例如,我们可能不关心算法为什么会推荐一部匹配良好的特定电影,但我们确实关心为什么有人的信用卡申请被拒绝。
除了准确性和可解释性之外,我们还希望模型不受偏见。只需浏览新闻头条,就可以找到我们可能有理由担心人工智能偏见的例子。当然,模型中的偏差可能早在训练和测试阶段就已经出现。用于模型训练的数据可能会纠缠在它自己的一组偏见中。在本节中,我们将重点关注可视化预测模型的摘要报告中可用的特定工具,这些工具旨在帮助我们建立可信赖、透明和不带偏见的模型。这些工具包括:

  • 部分依赖图
  • 亚群分析
  • 个别解释
  • 互动计分
理解模型如何做出选择的能力很重要,原因有以下三个:

  • 它让我们有机会进一步完善和改进我们的分析。
  • 更容易向非从业者解释模型如何使用数据做出决策。
  • 可解释性可以帮助从业者避免他们的模型产生负面或不可预见的后果。
可解释人工智能的这三个因素让我们对模型开发和部署更有信心。

概念:部分依赖
了解特征与要预测的目标变量之间关系的一种方法是通过部分依赖图。部分依赖图的目的是展示特定特征如何影响模型的预测。
例如,在对信用卡申请进行分类的模型中,我们可能会问,“批准率在‘性别’或‘种族’等特征上有何不同?”
考虑到这个目标,让我们仔细看看如何在 Dataiku 中构建和解释部分依赖图。在我们的再入院案例研究中,我们建立了一个随机森林模型来预测患者是否会再入院。我们如何向医院管理者解释这些预测?或者甚至执行健全性检查以确保模型按我们预期的方式工作?
从模型摘要页面,我们可以看到部分依赖的选项。在那里,我们可以调整样本设置,然后研究数字或分类特征。


在这种情况下,我们可能想调查这样的问题:“患者再次入院的机会在多大程度上取决于年龄、性别或种族等特征?”
所选特征显示在 x 轴上,而 y 轴绘制部分依赖程度。部分依赖值显示了在结果类别中的概率如何随着特征的不同值而变化。
让我们首先检查趋势线。特征和目标之间的关系是积极的还是消极的?在这种情况下,我们可以看到随着年龄的增长,患者再次入院的可能性更大。
除了趋势线,我们还有数据的分布。例如,我们可能会惊讶于最老年龄段的再入院概率下降,但此括号中的少量数据可能是下降的原因。
这些图是整个 Explainable AI 工具包中的宝贵资产,因为它们提供了对特征与结果之间关系的洞察——即使对于非常复杂的黑盒模型,如神经网络。

概念:亚群分析
在尝试构建高性能模型时,我们将花费大量时间进行特征工程、尝试不同的算法和调整超参数。现在您的整体模型的性能指标看起来不错,我们完成了吗?
在将我们的模型投入生产之前,我们可能首先要调查该模型在不同子群体中的表现是否相同。
如果该模型更擅长预测一个群体的结果而不是另一个群体,那么在投入生产时可能会导致有偏见的结果和意想不到的后果。我们可以使用子群体分析来检查模型在各种感兴趣子组中的公平性。
Dataiku 预测模型报告包括一个用于亚群分析的面板。与我们对部分依赖图所做的方式相同,我们需要选择一个变量来计算分析。
分类变量和数值变量都可以用于定义亚群。选择变量后,在第一列中,我们会找到数据集中的所有唯一值或模态。 该表可以很容易地比较模型的整体性能与每个子组的性能,跨各种指标。我们总是可以向默认列表添加更多指标。


如果我们选择了一个数值变量而不是一个分类变量,我们会发现分布被分成了 bin。 蓝色条表示属于该类别的值的百分比。
选择一个特定的子群体可以揭示该群体的密度图和分类任务的混淆矩阵。
在我们的用例中,ROC AUC、准确度、精确度和召回率等常见指标对于最大的子组来说似乎非常接近。然而,没有神奇的按钮可以揭示我们的模型是否“公平”。最终由我们决定子组之间的差异程度对我们的用例有意义,以及我们希望如何解决这些差异。

概念:个别解释
除了部分依赖图和亚群分析,Explainable AI 工具包中最强大的功能之一是个体预测解释。Dataiku 中的个人解释面板使我们能够快速获得最极端情况的特征贡献。此外,我们还可以使用 Score 配方计算数据集中每条记录的单独解释。
这些解释使我们更容易向业务用户传达特定预测的原因,并允许我们检查模型中是否存在任何潜在偏差。
例如,银行经常使用自定义算法来确定客户是否会拖欠新贷款。为了透明和公平起见,银行必须报告客户被拒绝贷款的原因。为了提供这些答案,银行可以使用单独的解释来显示哪些特征在对特定客户的预测中最重要。
让我们仔细看看如何在 Dataiku 中得出这些解释。
训练完预测模型后,我们可以在模型报告中看到 Individual Explanations 面板。


在这里,我们将看到测试集中所有预测的概率分布。左侧是预测概率最低的记录,右侧是预测概率最高的记录。 移动滑块将更改在概率分布的每一端计算其解释的记录数。
在概率分布之上,我们可以选择最有影响力的特征在解释中生成的数量,以及Dataiku应该使用的计算方法。ICE 将产生更快的计算,而 Shapley 值可能更准确。
通过选择计算,Dataiku 将为我们选择的记录生成解释。现在我们在概率分布下看到一个记录列表。
从右侧的下拉列表中,我们可以选择哪一列数据是个人记录标识符,例如 Encounter ID 或 Race。在左侧,我们将看到预测概率最低的记录。


在此示例中,模型对记录的预测背后最有影响力的三个特征是住院就诊次数、诊断 2 和手术次数。
每个要素都有一个条形图,显示影响的方向和大小。在这种情况下,所有三个特征都对预测产生负面影响。
在扫描结果时,可能会发现最具影响力的特征在所有记录中并不相同。看到数据中的这些差异使我们有机会调查模型中的潜在偏差。

概念总结:交互式评分
“假设”分析可能是一种有用的练习,可以帮助数据科学家和业务分析师了解模型在给定不同输入值的情况下将预测什么。


在 Dataiku 中训练机器学习模型后,您可以使用“假设”模拟器来尝试重要特征的各种值组合,并查看结果预测。
数据科学家可以在 Visual ML 界面中访问交互式评分,或将其发布到仪表板以供更广泛的使用。
您可以使用下拉菜单和滑块来调整值,输入您自己的值,甚至可以选择忽略特征来模拟缺失值的情况。在右侧,您可以根据您的输入查看新的预测。


可视化将根据模型的目的进行调整:

  • 二元分类
  • 多类分类
  • 回归
无论建模任务如何,对于每次模拟,您都可以检查哪些特征对这个单独的预测影响最大,以及影响的方向。
要比较和对比不同实验的结果,请尝试比较器工具。您可以手动创建样本,或从现有数据集中复制一行。您甚至可以为这些示例指定描述性名称,并将它们一起复制到另一个已保存的模型中,以查看它们是否提供相似的结果。


以下是本文的一些主要内容:

  • 您发现了为机器学习准备数据集、查找数据中的潜在问题以及选择和创建特征的方法。
  • 您学习了如何创建可用作建模迭代起点的快速原型。
  • 您发现了修改模型设计和跟踪其性能的方法,所有这些都是为了尽可能生成最佳结果。
  • 然后你学习了如何调整模型,包括如何处理不同的特征,以及优化超参数。
  • 最后,Explainable AI 部分介绍了构建可信、透明和无偏见模型的方法。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2025-1-23 13:00 , Processed in 0.093749 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表