vc维(vc维生素c什么时候吃比较好) - 鸿海伟业生活资讯网
本文目录一览:
- 1、如何通俗的理解机器学习中的VC维,shatter和break point
- 2、提出SVM *** 的学者是
- 3、VC维的来龙去脉
如何通俗的理解机器学习中的VC维,shatter和break point
有可能的话,找一个安静的、舒适的地方学习。选择某个地方作你的学习之处,这一点很重要。它可以是你的单间书房或教室或图书馆,但是它必须是舒适的,安静而没有干扰。当你开始学习时,你应该全神贯注于你的功课,切忌“身在曹营心在汉”。
提出SVM *** 的学者是
苏联学者VladimirNVapnik和AlexanderYLerner。SVM是由模式识别中广义肖像算法发展而来的分类器。1964年,Vapnik和AlexeyYChervonenkis对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM。此后在二十世纪70到80年代,随着模式识别中更大边距决策边界的理论研究、基于松弛变量的规划问题求解技术的出现,和VC维的提出,SVM被逐步理论化并成为统计学习理论的一部分。
VC维的来龙去脉
本文转自: VC维的来龙去脉
VC维在机器学习领域是一个很基础的概念,它给诸多机器学习 *** 的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言,SVM,LR,深度学习等可能都已经用到线上了,但却不理解VC维。
这里,在台湾大学 机器学习基石 课程的基础上,我们简单聊聊“VC维的来龙去脉”。我们将解决以下问题:为什么某机器学习 *** 是可学习的?为什么会有过拟合?拿什么来衡量机器学习模型的复杂度?深度学习与VC维的关系?
在讲VC维之前,我们不妨来说说VC维的历史。而说起VC维的历史,又不得不提起神经 *** ,一方面是因为神经 *** 与VC维的发明过程是交织在一起的,另一方面是由于神经 *** 乏善可陈的泛化控制 *** ,深度学习在理论基础上一直被怀疑,甚至神经 *** 和VC维的代表SVM还一起争风吃醋过好多年。
1943年,模拟神经 *** 由麦卡洛可(McCulloch)和皮茨(Pitts)提出,他们分析了理想化的人工神经元 *** ,并且指出了它们进行简单逻辑运算的机制。
1957年,康奈尔大学的实验心理学家弗兰克·罗森布拉特(Rosenblatt)在一台IBM–704计算机上模拟实现了一种他发明的叫作“感知机”(Perceptron)的神经 *** 模型。神经 *** 与支持向量机都源自于感知机(Perceptron)。
1962年,罗森布拉特著作:《神经动力学原理:感知机和大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechani *** s)。
1969年,明斯基和麻省理工学院的另一位教授佩普特合作著作:《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry)。在书中,明斯基和佩普特证明单层神经 *** 不能解决XOR(异或)问题。
1971年,V. Vapnik and A. Chervonenkis在论文“On the uniform convergence of relative frequencies of events to their probabilities”中提出VC维的概念。
1974年,V. Vapnik提出了结构风险最小化原则。
1974年,沃波斯(Werbos)的博士论文证明了在神经 *** 多加一层,并且利用“后向传播”(Back-propagation)学习 *** ,可以解决XOR问题。那时正是神经 *** 研究的低谷,文章不合时宜。
1982年,在加州理工担任生物物理教授的霍普菲尔德,提出了一种新的神经 *** ,可以解决一大类模式识别问题,还可以给出一类组合优化问题的近似解。这种神经 *** 模型后被称为霍普菲尔德 *** 。
1986年,Rummelhart与McClelland发明了神经 *** 的学习算法Back Propagation。
1993年,Corinna Cortes和Vapnik等人提出了支持向量机(support vector machine)。神经 *** 是多层的非线性模型,支持向量机利用核技巧把非线性问题转换成线性问题。
1992~2005年,SVM与Neural network之争,但被互联网风潮掩盖住了。
2006年,Hinton提出神经 *** 的Deep Learning算法。Deep Learning假设神经 *** 是多层的,首先用Restricted Boltzmann Machine(非监督学习)学习 *** 的结构,然后再通过Back Propagation(监督学习)学习 *** 的权值。
现在,deep learning的应用越来越广泛,甚至已经有超越SVM的趋势。一方面以Hinton,Lecun为首的深度学习派坚信其有效实用性,另一方面Vapnik等统计机器学习理论专家又坚持着理论阵地,怀疑deep learning的泛化界。
Hoeffding不等式是关于一组随机变量均值的概率不等式。 如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为:
接下来,我们希望可以将机器学习关联到上一节讨论的hoeffding不等式。
一个基本的机器学习过程如下图所示。其中的概念定义为: f 表示理想的方案(可以是一个函数,也可以是一个分布),H 是该机器学习 *** 的假设空间,g 表示我们求解的用来预测的假设,g属于H。
机器学习的过程就是:通过算法A,在假设空间H中,根据样本集D,选择更好的假设作为g。选择标准是 g 近似于 f。
Eout(h),可以理解为在理想情况下(已知f),总体(out-of-sample)的损失(这里是0–1 loss)的期望,称作expected loss。
根据上面不等式,我们可以推断,当N足够大时,expected loss和expirical loss将非常接近。
注意在上面推导中,我们是针对某一个特定的解h(x)。在我们的假设空间H中,往往有很多个假设函数(甚至于无穷多个),这里我们先假定H中有M个假设函数。
上面式子的含义是:在假设空间H中,设定一个较小的ϵ值,任意一个假设h,它的Ein(h)与Eout(h)的差由该值2Mexp(−2ϵ2N)所约束住。注意这个bound值与 “样本数N和假设数M” 密切相关。
上面这两个核心条件,也正好对应着test和train这两个过程。train过程希望损失期望(即Ein(g) )尽可能小;test过程希望在真实环境中的损失期望也尽可能小,即Ein(g)接近于Eout(g)。
但往往我们更多在关心,如何基于模型的假设空间,利用更优化算法,找到Ein最小的解g。但容易忽视test这个过程,如果让学习可行,不仅仅是要在训练集表现好,在真实环境里也要表现好。
M太小,当N足够大时,Ein和Eout比较接近,但如果候选假设集太小,不容易在其中找到一个g,使得Ein(g)约等于0,第二项不能满足。
而如果M太大,这时候选集多了,相对容易在其中找到一个g,使得Ein(g)约等于0,但之一项就不能满足了。所以假设空间H的大小M很关键。
虽说假设空间很大,上述推导里,我们用到了P(h1 or h2 … hm) = P(h1) + P(h2) + … + P(hm)。但事实上,多个h之间并不是完全独立的,他们是有很大的重叠的(这里重叠可理解为不同模型可能发生相同的错误,即这些错误重叠),也就是在M个假设中,可能有一些假设可以归为同一类。
下面我们以二维假设空间为例,来解释一下该空间下各假设在确定的训练样本上的重叠性。
对于这个有效的假设函数值,我们尝试用一个数学定义来说明:
从H中任意选择一个方程h,让这个h对样本 *** D进行二元分类,输出一个结果向量。例如在平面里用一条直线对2个点进行二元分类,输出可能为{1,–1},{–1,1},{1,1},{–1,–1},这样每个输出向量我们称为一个dichotomy。
下面是hypotheses与dichotomies的概念对比:
注意到,如果对平面上的4个点来分类,根据前面分析,输出的结果向量只有14种可能,即有14个dichotomies。
如果有N个样本数据,那么有效的假设个数定义为: effective(N) = H作用于样本集D“最多”能产生多少不同的dichotomy。
H作用于D“最多”能产生多少种不同的dichotomies?这个数量与假设空间H有关,跟数据量N也有关。将H作用于D“最多”能产生的dichotomies数量(即effective(N) )表示为数学符号:max_H(x1,x2,…,xN)
在进一步推导前,再看两个概念:shatter,break point。
Shatter的概念:当假设空间H作用于N个input的样本集时,产生的dichotomies数量等于这N个点总的组合数2^N是,就称:这N个inputs被H给shatter掉了。
对于给定的成长函数m_H(N),从N=1出发,N慢慢变大,当增大到k时,出现mH(N)2k的情形,则我们说k是该成长函数的break point。对于任何N k个inputs而言,H都没有办法再shatter他们了。
举例来说,对于上面的positive ray的例子,因为m_H(N)=N+1,当N=2时,m_H(2)2^2, 所以它的break point就是2。
说完break point的概念后,再回到成长函数。
我们将成长函数的上界,设为B(N,k),意为:maximum possible m_H(N) when break point = k。
那么我们做一些简单的推导:
B(2,2)=3。因为break point=2,任意两个点都不能被shatter,m_H(2)肯定小于22,所以B(2,2)=3。
B(3,2)=4。因为任意两个点都不能被shatter,那么3个点产生的dichotomies不能超过4,所以B(3,2)=4。
B(N,1)=1。
B(N,k)=2N for N k;B(N,k)=2N–1 for N=k;
B(4,3)=?去掉其中的一个数据点x4后,考虑到break point=3,余下数据(x1,x2,x3)的dichotomies数目不能超过B(3,3)。当扩展为(x1,x2,x3,x4)时,(x1,x2,x3)上的dichotomies只有部分被重复复制了,设被复制的dichotomies数量为a,未被复制的数量为b。于是有B(3,3) = a+b; B(4,3) = 2a + b。因为a被复制了,表示x4有两个取值,那么(x1,x2,x3)上的a应该小于等于B(3,2)。所以推导出B(4,3) = 2a + b = B(3,3) + B(3,2)。
对于任意Nk,类推可以得到,B(N,k) ≤ B(N−1,k)+B(N−1,k−1)
所以我们得到结论:如果break point存在(有限的正整数),生长函数m(N) 是多项式的。
再重复一遍,H作用于数据量为N的样本集D,方程的数量看上去是无穷的,但真正有效(effective)的方程的数量却是有限的,这个数量为m_H(N)。H中每一个h作用于D都能算出一个Ein来,一共有m_H(N)个不同的Ein。
OK,到目前为止,关于m_H(N)的推导结束。回到growth function小节提出的问题,能否用m_H(N)直接替换M?
关于这个公式的数学推导,我们可以暂且不去深究。我们先看一下这个式子的意义,如果假设空间存在有限的break point,那么m_H(2N)会被更高幂次为k–1的多项式上界给约束住。随着N的逐渐增大,指数式的下降会比多项式的增长更快,所以此时VC Bound是有限的。更深的意义在于,N足够大时,对H中的任意一个假设h,Ein(h)都将接近于Eout(h),这表示学习可行的之一个条件是有可能成立的。
说了这么多,VC维终于露出庐山真面目了。此概念由Vladimir Vapnik与Alexey Chervonenkis提出。
一个假设空间H的VC dimension,是这个H最多能够shatter掉的点的数量,记为dvc(H)。如果不管多少个点H都能shatter它们,则dvc(H)=无穷大。还可以理解为:vc-dim就是argmax_n {growth function=power(2,n)}。
根据定义,可以得到一个明显的结论:
k = d_vc(H) + 1
根据前面的推导,我们知道VC维的大小:与学习算法A无关,与输入变量X的分布也无关,与我们求解的目标函数f 无关。它只与模型和假设空间有关。
总结回顾一下,要想让机器学到东西,并且学得好,有2个条件:
从上图可以看出,当VC维很小时,条件1容易满足,但因为假设空间较小,可能不容易找到合适的g 使得Ein(g)约等于0。当VC维很大时,条件2容易满足,但条件1不容易满足,因为VC bound很大。
VC维反映了假设空间H 的强大程度(powerfulness),VC 维越大,H也越强,因为它可以打散(shatter)更多的点。
注意在前述讨论中,理想的目标函数为f(x),error measure用的是“0–1 loss”。如果在unknown target上引入噪声(+noise),或者用不同的error measure *** ,VC theory还有效吗?这里只给出结论,VC theory对于绝大部分假设空间(or 加入噪声)和error度量 *** ,都是有效的。
除此外,我们为了避免overfit,一般都会加正则项。那加了正则项后,新的假设空间会得到一些限制,此时新假设空间的VC维将变小,也就是同样训练数据条件下,Ein更有可能等于Eout,所以泛化能力更强。这里从VC维的角度解释了正则项的作用。
对于神经 *** ,其VC维的公式为:
举例来说,一个普通的三层全连接神经 *** :input layer是1000维,hidden layer有1000个nodes,output layer为1个node,则它的VC维大约为O(1000 1000 1000)。
可以看到,神经 *** 的VC维相对较高,因而它的表达能力非常强,可以用来处理任何复杂的分类问题。根据上一节的结论,要充分训练该神经 *** ,所需样本量为10倍的VC维。如此大的训练数据量,是不可能达到的。所以在20世纪,复杂神经 *** 模型在out of sample的表现不是很好,容易overfit。
但现在为什么深度学习的表现越来越好。原因是多方面的,主要体现在:
但即便这样,深度学习的VC维和VC Bound依旧很大,其泛化控制 *** 依然没有强理论支撑。但是实践又一次次证明,深度学习是好用的。所以VC维对深度学习的指导意义,目前不好表述,有一种思想建议,深度学习应该抛弃对VC维之类概念的迷信,尝试从其他方面来解释其可学习型,例如使用泛函空间(如 Banach Space )中的概率论。
上面仔细分析了VC维的来龙去脉,讲述了VC维在机器学习理论中的指导意义。考虑到VC维在机器学习领域虽是基础,却也是大坑,所以难免有理解不深或不当之处,敬请谅解。若希望获得更深理解,请参考下面的参考文献。
vc维(责任编辑:晋城市)
- 双创周(河南双创周) - 鸿海伟业生活资讯网
- 深港学车 - 鸿海伟业生活资讯网
- 社保查询官网 - 鸿海伟业生活资讯网
- 成都购房落户(2022成都购房落户) - 鸿海伟业生活资讯网
- 太钢不锈最新消息(太钢不锈最新消息股吧) - 鸿海伟业生活资讯网
- 大连东软信息学院学费(大连东软信息学院学费为什么这么贵) - 鸿海伟业生活资讯网
- 个人公积金(个人公积金账户怎么开) - 鸿海伟业生活资讯网
- 离婚办理流程(厦门离婚办理流程) - 鸿海伟业生活资讯网
- 中国人口自然增长率 - 鸿海伟业生活资讯网
- 成都空气(成都空气质量) - 鸿海伟业生活资讯网
- 个人所得税办理 - 鸿海伟业生活资讯网
- 九寨沟婚纱 - 鸿海伟业生活资讯网
- 违章记录查询(微信怎么查交通违章记录查询) - 鸿海伟业生活资讯网
- 最新电脑 - 鸿海伟业生活资讯网
- 香港住宿(香港住宿哪里便宜又好) - 鸿海伟业生活资讯网
- 每日坚果哪个牌子好 - 鸿海伟业生活资讯网
- 兰花花期多长时间(兰花的花期多久) - 鸿海伟业生活资讯网
- 什么是纳税人识别号 - 鸿海伟业生活资讯网
- 李勤勤个人资料简介(李勤勤个人资料简介及图片) - 鸿海伟业生活资讯网
- 乘地铁(乘地铁下载什么软件) - 鸿海伟业生活资讯网
- 51色(51色达开放吗) - 鸿海伟业生活资讯网
- 一日游去哪里(连云港一日游去哪里) - 鸿海伟业生活资讯网
- 九寨沟3日游(九寨沟3日游报团ppt) - 鸿海伟业生活资讯网
- 世界奢侈品 - 鸿海伟业生活资讯网
- 心娘 - 鸿海伟业生活资讯网
- 领养(领养宠物的平台) - 鸿海伟业生活资讯网
- 法式西餐 - 鸿海伟业生活资讯网
- 高温补助(高温补助一个月多少钱) - 鸿海伟业生活资讯网
- 教资成绩什么时候出 - 鸿海伟业生活资讯网
- 300067 - 鸿海伟业生活资讯网
- 陕西的大学排名(陕西省的大学排名) - 鸿海伟业生活资讯网
- 避孕套牌子排行榜(避孕套牌子排行榜知乎) - 鸿海伟业生活资讯网
- 三国小说排行榜(特种兵穿越三国小说排行榜) - 鸿海伟业生活资讯网
- 吉林的大学的排名 - 鸿海伟业生活资讯网
- 眉山桂花湖(眉山桂花湖怎么坐车) - 鸿海伟业生活资讯网
- lowe玻璃的优缺点(lowe玻璃的优缺点 防爆吗) - 鸿海伟业生活资讯网
- 社保服务大厅 - 鸿海伟业生活资讯网
- 高铁路线图(g2710高铁路线图) - 鸿海伟业生活资讯网
- pet是什么材质(透明pet是什么材质) - 鸿海伟业生活资讯网
- 新型冠状病毒最新消息 - 鸿海伟业生活资讯网
- 高压锅压力(高压锅压力阀顶不起来) - 鸿海伟业生活资讯网
- 新冠核酸检测(新冠核酸检测实验过程中产生的废液) - 鸿海伟业生活资讯网
- 情人节送老婆什么礼物(情人节送老婆什么礼物更好) - 鸿海伟业生活资讯网
- 真空电镀油漆(真空电镀油漆喷薄了会起黑点) - 鸿海伟业生活资讯网
- 全国艺术类院校排名(全国艺术类院校排名2022) - 鸿海伟业生活资讯网
- 党员的自我总结(党员的自我总结与自我批评) - 鸿海伟业生活资讯网
- 骑车旅游 - 鸿海伟业生活资讯网
- 蓝莓基地(信阳君林蓝莓基地) - 鸿海伟业生活资讯网
- 泸州市教育局 - 鸿海伟业生活资讯网
- 封层 - 鸿海伟业生活资讯网
- 怎么看无线网密码(苹果笔记本怎么看无线网密码) - 鸿海伟业生活资讯网
- 各大银行利率(大额存单2021各大银行利率) - 鸿海伟业生活资讯网
- 机场班车(开平市到白云机场班车) - 鸿海伟业生活资讯网
- 公寓为什么不能买(公寓为什么不能买二手房) - 鸿海伟业生活资讯网
- 一个立一个羽 - 鸿海伟业生活资讯网
- 灵活就业保险(灵活就业保险没交够15年死了咋办?) - 鸿海伟业生活资讯网
- 怎么看直播(怎么看直播间) - 鸿海伟业生活资讯网
- 太阳镜品牌排行榜(太阳镜品牌排行榜前十名) - 鸿海伟业生活资讯网
- 第二套房政策 - 鸿海伟业生活资讯网
- 天亮以后说分手(天亮以后说分手19位女性) - 鸿海伟业生活资讯网
- 毛阿敏的歌曲 - 鸿海伟业生活资讯网
- 厕所堵了怎么办 - 鸿海伟业生活资讯网
- 高速封闭(高速封闭通知最新) - 鸿海伟业生活资讯网
- 香草天空 - 鸿海伟业生活资讯网
- 鸡脚神 - 鸿海伟业生活资讯网
- 四川省公安厅(四川省公安厅副厅长) - 鸿海伟业生活资讯网
- 成都苏坡医院 - 鸿海伟业生活资讯网
- 叠墅是什么意思(叠墅跟别墅是什么意思) - 鸿海伟业生活资讯网
- 韩国bb霜 - 鸿海伟业生活资讯网
- 松下浴霸价格 - 鸿海伟业生活资讯网
- 喜剧演员排名(香港喜剧演员排名) - 鸿海伟业生活资讯网
- 林育群(林育群自己) - 鸿海伟业生活资讯网
- 天府三小 - 鸿海伟业生活资讯网
- 明星人气排名 - 鸿海伟业生活资讯网
- 雅西高速(雅西高速天气预报) - 鸿海伟业生活资讯网
- 人口普查时间 - 鸿海伟业生活资讯网
- 重庆到泸州(重庆到泸州多少公里) - 鸿海伟业生活资讯网
- 荷花池街道(荷花池街道社区卫生服务中心) - 鸿海伟业生活资讯网
- 温泉旅游(新疆温泉旅游) - 鸿海伟业生活资讯网
- 芮姬 - 鸿海伟业生活资讯网
- 各大银行利率(大额存单2021各大银行利率) - 鸿海伟业生活资讯网
- 公安局上班时间(公安局上班时间周六上班吗) - 鸿海伟业生活资讯网
- 社保种类 - 鸿海伟业生活资讯网
- 深港学车 - 鸿海伟业生活资讯网
- 喜剧演员排名(香港喜剧演员排名) - 鸿海伟业生活资讯网
- 新股申购一览表(可转债申购一览表) - 鸿海伟业生活资讯网
- 韩国旅游景点(韩国旅游景点有哪些) - 鸿海伟业生活资讯网
- 电视机怎么连接wifi(电视机怎么连接wifi看 *** 电视) - 鸿海伟业生活资讯网
- 主板排行(电脑主板性能排行榜) - 鸿海伟业生活资讯网
- 成都空气(成都空气好的地方) - 鸿海伟业生活资讯网
- 曼联名宿:博格巴总幻想自己世界最佳 需有人敲打他 views+
- 付辛博颖儿樱花下甜蜜依偎 俊男美女撒狗粮 views+
- cos:东方Project-和服芙兰朵露·斯卡雷特 views+
- 李小璐接甜馨放学 母女二人一路牵手有爱 views+
- 5月1号12星座运势播报,处女座偏财运佳 views+
- 美航借道南航入华 航空联盟格局生变 views+
- 内外混搭 长安CS75百万版售9.58-10.78万 views+
- 二战德国巨炮重1350吨炮弹重7吨 views+
- 小米5G手机终于来了!瑞士首发 价格够狠 views+
- “轮上功率”是什么鬼?聊聊近期轮毂电机为什么这么火 views+
- 签了合同才能结婚?准夫妻闹矛盾闹到派出所 views+
- 压垮我的不是加班,而是通勤 views+
- 虎牙最新股权曝光:腾讯持股31.5% 李学凌持股3% views+
- 大蒜是把防癌“双刃剑”,看你怎么用! views+
- 欧冠-梅西两球 巴萨总分4-0曼联晋级 views+
- 衡水中学举办成人礼!父亲的一张照片让无数高中生泪奔... views+
- 广告周CMO谈与网易战略合作 views+
- 幸福牛肉酱:有了它,我可以天天吃白米饭 views+
- 告别低效,人人必备的聪明工作法 views+
- 刚买一年,价格掉一半!新能源车,为啥转手就尴尬 views+
- 江疏影素颜亮相皮肤白皙 与粉丝热聊露灿笑 views+
- 100天52本经典好书,不想变优秀都难 views+
- 利物浦足球流氓将亚裔老人扔水池 事后还种族歧视 views+
- 疯狂的瑞幸,资本的盛宴 views+
- 章子怡一袭红裙摇曳生姿 与汪峰贴身热舞 views+
- 戒赌吧老哥们,后来都怎样了 views+
- 张庭亲自为老公敷面膜 鼓励员工五月赚20亿 views+
- 在线观看:2001太空漫游 views+
- 防近视 江苏禁止学生将个人手机、平板带入课堂 views+
- 太甜了!女星许玮甯风波后首现身 约会抚摸男友腹肌 views+
- 年轻妈妈一手抱两月大婴儿 一手开车上高速 views+
- 欧洲旅游如何付小费?意大利最绅士全凭自愿 views+
- 最大比特币交易所被查!加密币市场百亿美元蒸发 views+
- 美军与B-2轰炸机合影:科幻感十足 views+
- 每个Excel小白,都被这些函数公式折磨过 views+
- 寻访“海龟天堂”:中国最大的海龟产床什么样? views+
- 《纪元1800》评测:迎接工业时代的洗礼 views+
- 观众及名人为万玛才旦新片《撞死了一只羊》打气 views+
- 用人荒!年轻人宁愿送外卖也不去工厂 views+
- 想开口赢就精读这12本书 views+
- 格力公布2018财报,董明珠赢得与雷军的"十亿赌约" views+
- 最前线丨盒马开业三年首关店,要开始考虑盈... views+
- 中俄联合军演俄方参演舰艇抵达青岛 views+
- Selina恋爱:别再为爱下跪 views+
- 谈恋爱第一印象很重要? "先入为主"或让你错失良缘 views+
- 下雨下雪下冰雹,都拦不住二哈犯二,而且还要跟天空打架 views+
- “成年人的恋爱不是牵手拥抱就可以了的。” views+
- 靠脸上位,是对他最大的羞辱 views+
- 同样是背锅,为何李鸿章渐渐被洗白,而秦桧却难洗白 views+
- 无力抚养孩子的人,别再生了 views+