那么多回归算法,选哪个好呢?帮你克服选择算法选择障碍


作者:George Seif汇编:荣华洋机器学习7字口头禅“没有免费午餐”,那么如何为特定问题选择合适的算法呢,我们不能再试一次。今天,我将分析各种回归算法的优缺点。选择算法时可以参考它们。

在处理机器学习(ML)问题时,有许多不同的算法可供选择。在机器学习中,有一个称为“无免费午餐”的定理,这基本上意味着没有ML算法对所有问题都是最好的。不同ML算法的性能很大程度上取决于数据集的大小和数据集的结构。因此,除非我们通过简单的反复试验直接测试我们的算法,否则我们通常不知道哪个是正确的算法。

但是,每种ML算法都有一些优点和缺点,我们可以将其作为指导。虽然一种算法并不总是优于另一种算法,但每种算法都有一些属性可供我们用作快速选择正确算法和优化超参数的指南。我们将看一些着名的ML算法用于回归问题,并根据它们的优点和缺点决定何时使用它们。本文可以帮助您为回归问题选择最佳ML算法。

随机森林

从最基本的情况开始,决策树是一个直观的模型,它遍历树的分支,并根据节点上的决策选择下一个分支。树分类的任务是将一组训练实例作为输入,决定哪些属性最佳分割,分割数据集,并在结果分割上重复数据集,直到所有训练实例都被分类。构建树时,目标是拆分可能创建最纯子节点的属性,从而保持将数据集中所有实例分类到最小所需的拆分数。纯度是通过信息增益的概念来衡量的,其中涉及需要了解之前没有看到过多少实例可以被正确分类。实际上,这需要通过比较熵(对当前数据集分区的单个实例进行分类所需的信息量)和在进一步分割给定属性上的当前数据集分区时对各个实例进行分类来实现。测量信息量。

随机森林只是决策树的集合,输入向量在多个决策树中运行。对于回归,所有树的输出值是平均的;对于分类,投票方案用于确定最终类别。

优点:

善于学习复杂,高度非线性的关系。它们通常具有相当高的性能,优于多项式回归,并且通常与神经网络相当。很容易解释和理解。虽然最终的训练模型可以学习复杂的关系,但是在训练过程中建立的决策边界很容易理解。

缺点:

由于训练决策树的性质,它们很容易过度拟合。完整的决策树模型可能过于复杂并且包含不必要的结构。虽然这有时可以通过适当的修剪和更大的随机森林群来减轻。使用更大的随机森林集合以获得更高的性能,但缺点是速度较慢且需要更多内存。

这是你想要的利弊!在下一篇文章中,我们将讨论不同分类模型的优缺点。我希望你喜欢这篇文章并学习一些新的和有用的东西。

英文原文:

更多文章,请关注微信公众号:AI公园