数据、算力和算法是AI发展的三大基石。数据和算力是AI发展的物质基础,算法则是AI发展的灵魂。算法能够指数级地释放数据和算力的价值,应用好、改进好算法成为新一轮AI技术发展的关键。AI领域较为知名的算法包括感知器、聚类算法、决策树、支持向量机和卷积神经网络等。
1、感知器
美国计算机科学院罗森布拉特(F.Roseblatt)于1957年提出感知器,是神经网络第一个里程碑算法。所谓感知器,是一种用于二分类的线性分类模型,其输入为样本的特征向量,计算这些输入的线性组合,如果输出结果大于某个阀值就输出1,否则输出-1。作为一个线性分类器,感知器有能力解决线性分类问题,也可用于基于模式分类的学习控制中。感知器只能解决简单的线性分类问题,应用面很窄,但是在人工智能发展中起到了很大推动作用,由于是第一个神经网络算法,吸引了大量学者对神经网络开展研究,同时感知器也为后期更复杂算法如深度学习奠定基础。
2、聚类算法
从机器学习的角度,聚类算法是一种“无监督学习”,训练样本的标记信息是未知的,根据数据的相似性和距离来划分,聚类的数目和结构没有事先给定。聚类的目的是寻找数据簇中潜在的分组结构和关联关系,通过聚类使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。在人工智能中,聚类分析亦被称为“无先验学习”,是机器学习中的重要算法,目前被广泛应用于各种自然科学和工程领域。
目前已经提出多种聚类算法,可分为:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。其中著名的分类算法k-means算法就是基于划分的聚类算法。
3、决策树
决策树是一种简单却使用广泛的分类器,通过训练数建立决策树对未知数据进行高效分类。一棵决策树一般包括根结点、内部结点和叶子结点;叶子结点对应最终决策结果,每一次划分过程遍历所有划分属性找到最好分割方式。决策树的目标是将数据按照对应的类属性进行分类,通过特征属性的选择将不同类别数据集合贴上对应的类别标签,使分类后的数据集纯度最高,而且能够通过选择合适的特征尽量使分类速度最快,减少决策树深度。
4、支持向量机
支持向量机SVM(Support Vector Machine)是由Cortes和Vapnik于1995年首先提出的,它是一种基于统计学习的机器学习方法,在小样本分类上也能获得良好统计规律。同时,由于在文本分类中表现出特有的优势,成为当时机器学习领域研究的热点。SVM的学习方法主要包括线性可分向量机、线性支持向量机以及非线性支持向量机。
SVM通过建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。SVM采用核函数技巧将原始特征映射到更高维空间,解决原始低纬空间线性不可分的问题。通过将复杂的模式分类问题非线性投射到更高维空间变成线性可分的,SVM算法可在特征空间建立分类平面,解决非线性可分的问题。其学习策略是间隔最大化,将分类问题转化为一个凸二次规划问题的求解。
5、卷积神经网络
卷积神经网络(CNN)是近年发展起来,并引起广泛重视的一种高效识别方法。CNN受生物自然视觉认知机制启发而来。一般地,其基本结构包括两层,一是特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位臵关系也随之确定下来;二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。