您的当前位置:首页->新闻中心
新闻中心

特性工程是什么?机器学习的关键所在

标签:特性,工程,是什么,什么,机器,学习,关键,关键所在  2018-12-18 9:07:36  预览次

  人工智能是曩昔两到三年时间内科技行业最热的话题。而人工智能技术提高的背后,实质上是机器学习快速发展后所带来的伟大提拔。

本文引用地址:http://www.esouou.com/eepw.com7843/article/201812/395666.htm

  机器学习被广泛定义为“行使经验来改善计算机系统的自身性能”。事实上,“经验”在计算机中重要是以数据的情势存在的,因此数据是机器学习的前提和基础。

  在第一期格物汇的文章中,我们介绍了工业数据预处理的方法,重要针对数据格式非常,数据内容非常等题目进行了简要探究。做数据预处理的重要目的是将紊乱无章的数据规整成我们想要的矩阵、表格、张量等结构河北人事考试,方便在之后的机器学习中进行模型训练。然而数据中的题目还包含了冗余,噪声,高维度,体量大等许多题目。解决这些题目的方法与数据预处理的方法在机器学习中被统称为特性工程,今天我们就来了解一下吧。

  特性工程是什么

  当你想要你的展望模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。那么题目来了,你应该如何为你的展望模型得到更好的数据呢?这就是特性工程要做的事,它的目的就是获取更好的训练数据。

  维基百科中给特性工程做出了简单定义:特性工程是行使数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特性的过程。简而言之,特性工程就是一个把原始数据变化成特性的过程,这些特性可以很好的描述这些数据,并且行使它们建立的模型在未知数据上的体现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特性工程就是人工地去设计输入变量X。

  特性工程的紧张性

  关于特性工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特性决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特性工程在机器学习中占据相称紧张的地位。

  1、特性越好,天真性越强

  只要特性选得好,即使是一样平常的模型(或算法)也能获得很好的性能,由于大多数模型(或算法)在好的数据特性下体现的性能都还不错。好特性的天真性在于它许可你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。

  2、特性越好,构建的模型越简单

  有了好的特性,即便你的参数不是最优的,你的模型性能也能仍然会体现的很nice,所以你就不必要花太多的时间去探求最有参数,这大大的降低了模型的复杂度,使模型趋于简单。

  3、特性越好,模型的性能越出色

  显然,这一点是毫无争议的,我们进行特性工程的最终目的就是提拔模型的性能。

  特性工程怎么做

  既然特性工程这么紧张,那么我们就来看看特性工程到底是如何实现或者工作的。特性工程到底分为哪些内容?我们大致可以参考如下贱程图来看看。

  


  简单来说,特性处理重要分如下三个方法:

  特性构建

  特性构建是指从原始数据中人工的找出一些具有现实意义的特性。必要花时间去观察原始数据,思考题目的潜在情势和数据结构,对数据敏感性和机器学习实战经验能帮助特性构建。除此之外,属性分割和结合是特性构建时常使用的方法。特性构建是个特别很是麻烦的题目,书里面也很少提到详细的方法,必要对题目有比较深入的理解。

  特性抽取

  一些观测数据假如直接建模,其原始状况的数据太多。像图像、音频和文本数据,假如将其看做是表格数据,那么其中包含了数以千计的属性。特性抽取是自动地对原始观测降维,使其特性荟萃小到可以进行建模的过程。通常可采用主成分分析(PCA)、线性判别分析(LDA))等方法;对于图像数据,可以进行线(line)或边缘(edge)的提取;根据响应的领域,图像、视频和音频数据可以有许多数字旌旗灯号处理的方法对其进行处理。

  特性选择

  不同的特性对模型的正确度的影响不同打包钢带,有些特性与要解决的题目不相关,有些特性是冗余信息,这些特性都应该被移除掉。特性选择是自动地选择出对于题目最紧张的那些特性子集的过程。常用的特性选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。

  小结

  总的来说,数据会存在各种各样的题目百度排名,针对这些题目我们的特性工程给出了响应的解决办法:1.特性诠释能力不足,我们可以尝试使用特性构建,对数据进行升维来提拔特性诠释能力;2.特性冗余,维度太高,噪声太多,我们可以通过特性抽取和特性选择,来对数据进行降维去噪,提炼特性。当然还有其他的特性处理方法,一样平常必要根据详细题目而定。