在一个小时的时间里,一封不请自来的邮件会跳过你的收件箱直接进入垃圾邮件;当一个行人经过你旁边的汽车时,你旁边的汽车会自动停车;你昨天正在想的产品的广告会在你的社交媒体信息流中弹出。这些事件有什么共同点呢?这是人工智能它指导了所有这些决定。这一切背后的力量都是利用数据预测结果的机器学习算法。

现在,在我们研究机器学习如何帮助数据分析之前,让我们先探索一下每种方法的基本原理。

什么是机器学习?

机器学习是一门设计算法的科学,这些算法能够从数据中自行学习,并在无需人为修正的情况下进行调整。当我们将数据输入这些算法时,它们建立了自己的逻辑,并因此创建了与我们世界各个方面相关的解决方案,如欺诈检测、网络搜索、肿瘤分类和价格预测。

深度学习,机器学习的子集,程序通过将它们超出更简单的程序来发现复杂的概念。这些算法通过揭示多层(因此“深度”)神经网络到大量数据。机器学习的应用,如自然语言处理,通过使用深度学习显着提高性能。

什么是数据分析?

数据分析包括操纵、转换和可视化数据,以便从结果中推断出有意义的见解。个人、企业甚至政府经常基于这些见解来制定方向。

数据分析师可能会通过使用基本线性回归来预测客户行为,股票价格或保险索赔。它们可能会使用分类和回归树(购物车)创建同质集群,或者它们可能通过使用图形来显示金融科技公司的投资组合来获得一些影响洞察力。

直到20世纪最后几十年,人类分析师在寻找数据模式方面都是不可替代的。今天,在为学习算法提供正确类型的数据和从算法输出推断意义时,它们仍然是必不可少的,但机器可以而且确实可以自己执行大部分分析工作。

为什么机器学习在数据分析中是有用的

机器学习构成数据分析的模型楼宇自动化。当我们分配类似分类,聚类和异常检测的机器任务时 - 数据分析核心的任务 - 我们正在采用机器学习。

我们可以设计自我改善的学习算法,将数据作为输入和提供统计推论。在不依赖于硬编码的编程,算法每当检测到模式的变化时都会做出决定。

在我们查看特定的数据分析问题之前,让我们讨论一些用于对不同类型的机器学习算法进行分类的术语。首先,我们可以考虑大多数算法基于分类,计算机将数据对类进行排序,或者回归基于,机器预测值。

接下来,我们来区分一下监督无人管理的算法。监督算法在使用数据训练后提供目标值。相比之下,用于指示无监督的机器学习算法的信息不需要输出变量来指导学习过程。

例如,有监督算法可能会在查看类似房屋的价格(输出变量)后估计房屋的价值,而无监督算法可能会在市场上的房屋中寻找隐藏的模式。

与这些机器学习模式一样受欢迎,我们仍然需要人类来得出数据分析的最终影响。说明结果或决定,说,如何清洁数据仍然达到美国人类。

用于数据分析的机器学习算法

现在让我们看一下在数据分析中使用的六种知名机器学习算法。除了审查他们的结构外,我们还会超过一些现实世界的应用程序。

聚类

在当地的车库甩卖中,你买了70件单色衬衫,每件颜色不同。为了避免决策疲劳,你设计了一种算法来帮助你给你的衣橱颜色编码。该算法使用每件衬衫的照片作为输入,并将每件衬衫的颜色与其他颜色进行比较,为每件衬衫创建分类。我们称之为聚类:一种非监督学习算法,查找输入值之间的模式,并据此对它们进行分组。这是一个GeeksForGeeks文章这提供了本机学习模型的可视化。

决策树学习

你可以想到一个决策树就像一棵倒置的树:你从“顶部”开始,然后在一个狭窄的选项范围内移动。这些学习算法采用单个数据集,并通过创建规则来区分它观察到的特征,逐步将其划分为更小的组。最终,他们创建的集合足够小,可以用一个特定的标签来描述。例如,他们可能获取一个通用汽车数据集(根),并将其分类为make,然后将其分类为一个模型(叶)。


您可能已经了解到,决策树是一种监督学习算法,非常适合解决数据分析中的分类问题,比如猜测一个人的血型。看看这个深入的媒体文章这就解释了决策树是如何工作的。

整体学习

想象一下,你和你的朋友在去露营的路上,但是团队里没有人记得查看天气。注意到你的穿着总是和天气相符,你的一个朋友让你去当气象学家。根据今年的时间和目前的情况,你猜气温将是72度°F (22°c)明天。

现在想象一下,本集团的每个人都有自己的预测,为明天的天气:一个人听了天气预报员;另一个锯多普勒雷达在线报告;第三个问她的父母;并且您根据当前条件进行了预测。

你认为作为该组织指定的气象学家,你的预测是最准确的,还是四次预测的平均值更接近明天的实际天气?整体学习决定,在一起,您的预测可能会在正确的答案周围分发。平均值可能比单独猜测更接近标记。

在技术术语中,这种经常用于数据分析的机器学习模型被称为随机森林方法:通过在随机子集的数据点上训练决策树,并在训练过程中添加一些随机性,你就可以构建一个由各种树组成的森林,它提供了比任何单个树更可靠的平均值。想要更深入的了解,请阅读这篇文章教程关于在Python中实施随机森林方法的研究。

支持向量机

你曾为区分两个物种——短吻鳄和鳄鱼而挣扎过吗?过了一段时间,你会发现:短吻鳄的嘴是u形的,而鳄鱼的嘴是细长的v形;鳄鱼的嘴比短吻鳄的嘴更有牙齿。但在大沼泽地之旅中,你遇到了一种爬行动物,令人困惑的是,它具有两种动物的特征——那么你怎么分辨它们的区别呢?支持向量机(SVM)算法可以帮助您解决这个问题。

首先,让我们用一个特征(嘴型)作为x轴,另一个特征(齿感)作为y轴画一个图。我们将用两种物种的大量数据点填充图表,然后找到将两种物种分开的平面(或者,在这个2D例子中,是线)。

我们的目标是找到一个“超平面”,可以通过最大化分割平面和每个类最接近的点的距离来划分数据。Crocs和Gators之间不再混淆:一旦SVM找到这一超平面,您就可以通过查看每个土地的侧面轻松地将爬行动物分类为您的假期照片中。

支持向量机算法只能用于分类数据,但并不总是能够用2D图区分类别。要解决此问题,您可以使用内核:将数据映射到更高维度的既定模式。通过使用内核和参数调整的组合,您将能够找到一个非线性超平面,并继续您的方式区分爬行动物。这YouTube视频可以清楚地了解内核与SVM集成的方式。

线性回归

如果您曾使用过散点图​​以在两组数据之间找到一个原因和效果关系,那么您已经使用了线性回归。这是一种建模方法,其适用于预测和发现数据分析中变量之间的相关性。

例如,假设你想知道疲劳和工作时间之间是否有联系。您从一组有着各种工作日程安排的人那里收集数据,并绘制出您的发现。寻找自变量(工作时间)和因变量(疲劳程度)之间的关系,您会注意到,斜率为正的直线可以最好地模拟这种相关性。您刚刚使用了线性回归!如果你对机器学习的线性回归的详细理解感兴趣,看看这个博客pos.从机器学习掌握。

逻辑回归

线性回归算法寻找本质上连续的变量之间的相关性,逻辑回归是分类分类数据的理想选择。鳄鱼对鳄鱼的问题实际上是一个逻辑回归问题。支持向量机模型可以处理非线性核,而逻辑回归是有限的(和伟大的)线性分类。看到这个深入的概述逻辑回归,特别适合微积分爱好者。

概要

在本文中,我们研究机器学习如何自动化和缩放数据分析。我们总结了一些重要的机器学习算法,并看到了他们的现实生活应用。

虽然机器学习在数据分析中提供精度和可扩展性,但重要的是要记住,评估机器学习结果的实际工作仍然属于人类。如果您认为这可能是您的职业道路,请查看UDACITY的188bet网投成为一台机器学习Enginee课程。

开始学习