上次更新了

在过去的几年里,在以前的人类历史的千年内产生了更多的数据。该数据代表了商业价值方面的金矿,也是决策者的重要参考资料。但大部分这个价值将保持未开启 - 或者更糟糕的是,被误解 - 只要处理交易量的信息所需的工具仍然无法使用。

在本文中,我们将看看机器学习如何在大数据的大数据中欣赏我们的模式,并提取隐藏在其中的关键信息。

什么是机器学习?

核心机器学习由自学习算法组成,通过在分配的任务中不断改进来发展。当正确构造并馈送适当的数据时,这些算法最终在模式识别和预测建模的上下文中产生结果。

对于机器学习算法,数据就像练习:越多越好。算法与他们培训的数据进行微调,奥运会运动员每天训练磨练他们的身体和技能。

许多编程语言与机器学习一起工作,包括Python,R,java.javascript.和scala。Python是许多开发人员的首选,因为它纹orflow.图书馆,提供了一个全面的机器学习工具生态系统。如果您想在实际算法上练习编码,请查看我们的文章用Python机器学习。

什么是大数据?

数据包括在计算机可以处理的方式格式化的数字,单词,测量和观察结果。大数据是指的大量数据,结构化或非结构化。

数字时代为传统数据处理软件提供了挑战:信息在这些体积,速度和变化中可用,即它最终超越了以人为本的计算。我们可以使用这三个“V”S:体积,速度和品种来描述大数据。指可用数据的规模;速度是数据累积的速度;品种指它来自的不同来源。

另外两种vs通常被添加到上述三个:真实性指源数据中的一致性和确定性(或缺乏),而测量从收到的数据中提取的数据的有用性。

良好的数据分析要求有人拥有商业敏锐,编程知识和全面的数学和分析技术技能。但是如何通过数百万信用卡分数或数十亿的社交媒体互动排序,如何使用传统技术进行专业武装武装?这就是机器学习进来的地方。

大数据符合机器学习

由于训练数据集的大小增长,机器学习算法变得更加有效。因此,在将大数据与机器学习结合时,我们有效两次:算法帮助我们跟上持续的数据涌入,而相同数据的体积和各种提供算法并帮助它们增长。

让我们来看看这个集成过程如何工作:

通过将大数据馈送到机器学习算法,我们可能希望看到定义和分析的结果,如隐藏的模式和分析,可以有助于预测建模。

对于某些公司来说,这些算法可能自动化以前以人为本的流程。但是,一家公司更频繁地审查算法的调查结果并搜索它们,以指导业务运营的宝贵见解。
这是人们回到图片的地方。而AI.数据分析在超越人类的计算机上运行的计算机缺乏巨大的保证金,他们缺乏某些决策能力。计算机尚未复制人类固有的许多特征,例如批判性思维,意图和使用整体方法的能力。如果没有专家提供正确的数据,算法生成的结果的值会减少,而没有专家解释其输出,算法的建议可能会损害公司决策。

大数据的机器学习应用

让我们来看看一些现实的例子,展示了大数据和机器学习可以共同努力的。

云网络

研究公司拥有大量的医疗数据,它想要学习,但为了执行此类服务器,在线存储,网络,网络和安全资产,所有这些都会增加不合理的费用。相反,该公司决定在Amazon EMR投资一个云服务,该服务在托管框架内提供数据分析模型。

此类机器学习模型包括GPU加速的图像识别和文本分类。这些算法部署后不学习,因此可以由内容传递网络(CDN)分发和支持。查看Liveramp的详细大纲描述大数据环境对云的迁移。

网刮

让我们想象一家厨房用具制造商了解零售商季度报告的市场趋势和客户满意趋势。在他们渴望找到报告可能已经遗漏的内容中,制造商决定Web抄写了庞大数量的现有数据,这些数据涉及在线客户反馈和产品评论。通过将此数据汇总并将其送到深度学习模型,制造商学习如何提高和更好地描述其产品,从而提高销售额。

虽然Web Scraping产生了大量数据,但值得注意的是,选择此数据的源是过程中最重要的部分。看看这一点它是svit guid.对于一些最好的数据挖掘实践。

混合倡议系统

建议制度在Netflix主页上建议标题采用协作过滤:它使用大数据来跟踪您的历史(以及其他人的)和机器学习算法来决定它应该推荐的内容。该示例演示了混合主动系统的竞技场或人机相互作用中的大数据和机器学习如何,其结果来自人类和/或机器采取主动性。

同样,智能汽车制造商在运行其产品的预测分析系统中实施大数据和机器学习。例如,特斯拉汽车与其驱动程序通信,并通过使用数据进行基于算法的决策来响应外部刺激。

要记住什么

从机器学习实现准确的结果有一些先决条件。除了一个良好的学习算法之外,您还需要清洁数据,可扩展工具,清楚地了解您想要实现的内容。虽然有些人可能会看到这些要求作为阻止其业务从利用机器学习使用大数据的益处的障碍,但实际上任何希望正确实施这项技术的商业都应该投资它们。

数据卫生

正如对运动的培训可能会对伤害运动员造成危险,从不合理或不正确的数据学习可能会变得昂贵。如本文所讨论的,错误地训练验证的算法产生了将产生的成本,而不是保存在他们身上走向数据科学。由于误标记,缺失或无关的数据可能会影响算法的准确性,因此您必须能够证明数据集的质量和完整性以及它们的来源。

用真实数据练习

假设您想创建一种机器学习算法,但缺乏培训它所需的大量数据。你听到了某个地方派生计算数据可以代替您生成的真实数据。但要注意:因为一个理想的算法应该解决特定问题,所以它需要一个特定类型的数据来学习。派生数据很少模仿真实数据算法需要解决问题,因此使用它几乎保证训练有素的算法不会满足其潜力。实验与实际数据提供最安全的路径。

知道你想要实现的目标

不要让炒作整合机器学习与大数据最终激发你对你想要解决的问题的理解差。如果您已经确定了一个复杂的问题,但不知道如何使用数据来解决它,您可以将不恰当的数据送入算法或以不准确的方式使用正确的数据。为了利用大数据的力量,我们建议在潜水到算法之前创建自己的数据所需的时间。这样您就可以了解自己的数据,因此当时间来时,您可以使用(和列车)适合您问题的算法。

缩放工具

大数据使我们能够获得更多信息,并且机器学习增加了解决问题的能力。结合在一起,这两个展示了整个业务的机会。为了利用这一点,我们还应该准备其他工具(在金融,通信等领域)以进行缩放。

概要

在本文中,我们讨论了将机器学习应用于大数据分析的有用性。通过编程机器来解释人类来单独处理的数据,我们可以根据更准确的见解做出决策。

我们还涉及一些应用程序,这些应用程序使用大数据与机器学习以及开始此过程时要记住的一些东西。如果您有兴趣成为机器学习工程师,请退房这个课程通过U188bet网投dacity。

开始学习