机器学习综述及示例


huhuhang大佬

1、机器学习综述及示例

1.1 介绍

机器学习是概率论、统计学、计算理论、最优化方法、以及计算机科学组成的交叉学科,其主要的研究对象是如何从经验中学习并改善具体算法的性能。

1.2 知识点

  • 机器学习介绍
  • 监督学习介绍
  • 无监督学习介绍

1.3 机器学习介绍

Machine Learning是人工智能的一个分支,其核心构成为机器学习算法,并通过从数据中获取经验来改善自身的性能。机器学习的诞生时间很早,但随着近些年计算机技术及相关领域的迅速发展,机器学习再一次变得热闹起来。 什么是机器学习:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。《机器学习》-Tom M Mitchell 其中,计算机程序的核心就是我们所说的机器学习算法,而机器学习算法则来源于基础数学理论和方法。有了可以自主学习的算法,程序就可以从训练数据中自动分析获得规律,并利用规律对位置数据进行预测。

1.4 机器学习&深度学习&人工智能

我们经常会从媒体报道及学术资料中看到机器学习、深度学习、人工智能三个不同的名词,但往往又捉摸不透几者之间的关系。它们之间是包含,交叉,还是完全独立呢? 可以概括为下图[] 目前我们所说的机器学习大致包含四大类:监督学习Supervised Learning;无监督学习Unsupervised Learning;半监督学习Semi-supervised Learning;强化学习Reinfocement Learning。

1.5 监督学习方法

要想了解监督学习,首先从定义展开。 关于监督学习的定义,这里引用著名机器学习专家Mehryar Mohri在其专著Foundations of Machine Learning中的叙述:监督学习室基于示例输入=输出数据对,在输入和输出数据之间建立数学函数的机器学习任务,而该数学函数来源于对有标签训练数据集的学习过程。

1.6 监督学习示例

如图所示,训练数据集给出了 3 种不同花朵的花瓣长度特征(训练集特征),我们已经知道这 3 朵花的种类 A,B,C(标签)。那么,对于一朵未知种类的花,就可以根据它的花瓣长度(测试样本特征)来判断它所属种类(测试样本标签)。下图中,未知花朵判断成 B 类肯定更合适一些。 综上,监督学习中的「监督」就体现在训练集具有「标签」。就像上图中,我们给出了已知种类的花,对于未知种类的花就根据特征去比较就可以了。

1.7 分类与回归

类似于上面这种识别类别的问题,我们一般称之为监督学习的分类问题,分类其实是一种最常见的问题类型,例如:东吴的种类判断、植物的种类判断、各类物品、人类性别的判断等等。除了分类问题,监督学习中还有十分重要的一类,那就是回归问题,首先,回归问题和分类问题一样,训练数据都包含标签,这也是监督学习的特点。而不同之处在于,分类问题预测的是类别,回归问题预测的是练血实数值。例如股票价格、房价等的预测这都是机器学习回归问题,因为我们预测的目标都不是类别,而是实数值。

1.8 无监督学习介绍

在监督学习的介绍中,我们曾经引用了著名机器学习专家 Mehryar Mohri 的叙述。其强调了,当监督学习算法去数据集中积累经验时,很关键的一点在于训练数据集是有标签的。数据带有标签用通俗的话来讲,就是我需要告诉算法这个是房子,这个是人,这个是花,然后它就慢慢学会认识这些事物了。 但是,生活中我们遇到的大部分数据它是没有标签的。真的,如果你留意的话,你会发现无标签数据相对于有标签数据要多很多,为什么呢? 因为给数据添加标签是一个十分繁重的工作呀!你在监督学习中用到的鸢尾花数据集、手写字符数据集都是需要人工去添加标签的。想想如果需要给几十万、上百万的数据添加标签,需要多大的工作量? 不过,面对无标签数据,我们还有一类机器学习方法叫做无监督学习。

1.9 无监督学习示例

无监督学习是面对无标签数据常常使用的一类机器学习方法,而通常我们用的较多的就是数据聚类。 当然,数据聚类只是无监督学习中的主要任务。无监督学习实际上还包括数据降维、图分析、关联规则分析等。

1.10 总结

以上重点了解了机器学习机细分类别的概念。需要对监督学习和无监督学习有充分的认识,并明白其本质区别。此外,对于回归问题、分类问题、聚类问题的特点及所解决的问题有直观上的认识和理解。