如何评价 Coursera 的机器学习 课程

登录网易通行证
使用网易通行证(含网易邮箱)帐号登录
提交您的投诉或建议
视频画面花屏
视/音频不同步
播放不流畅
登录后才能查看我的笔记
暂时没有笔记!
确定删除笔记?
即将播放下一集,请您保存当前的笔记哦!
对字幕纠错要登录哦!
内容不能少于3个字
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
[第1课]938 机器学习基石
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
专供coursera课程查询
学校:Coursera
讲师:多人
授课语言:中文
类型:其他
课程简介:专供coursera课程简介第二批
扫描左侧二维码下载客户端机器学习(8)
机器学习为什么可能?
引入计算橙球概率问题通过用Hoeffding's
inequality解决上面的问题,并得出PAC的概念,证明采样数据学习到的h的错误率可以和全局一致是PAC的将得到的理论应用到机器学习,证明实际机器是可以学习
&&机器学习的大多数情况下是让机器通过现有的训练集(D)的学习以获得预测未知数据的能力,即选择一个最佳的h做为学习结果,那么这种预测是可能的么?为什么在采样数据上得到的h可以认为适用于全局,也就是说其泛化性的本质是什么?
&&课程首先引入一个情景:
&&如果有一个装有很多(数量很大以至于无法通过数数解决)橙色球和绿色球的罐子,我们能不能推断橙色球的比例?
&&很明显的思路是利用统计中抽样的方法,既然我们无法穷尽数遍所有罐子中的球,不如随机取出几个球,算出其中两种颜色球的比例去近似得到我们要的答案,
&&这样真的可以么?我们都知道小概率事件也会发生,假如罐子里面大部分都是橙色球,而我们恰巧取出的都是绿色,这样我们就判断错了,那么到底通过抽样得出的比例能够说明什么呢?似乎两者不能直接划等号。
&&由此,课程中引入了一个非常重要的概念,PAC,要理解这个,先得理解一个超级重要的不等式:Hoeffding's
inequality
&&这个不等书说明了对于未知的那个概率,我们的抽样概率可以根它足够接近只要抽样的样本够大或者容忍的限制变松,这个和我们的直觉是相符的。式子最后给出了PAC的概念,即概率上几乎正确。所以,我们通过采用算出的橙球的概率和全局橙球的概率相等是PAC的。
&&这些和机器学习有什么关系?其实前文中提到的例子可以和机器学习问题一一对应:
&&映射中最关键的点是讲抽样中橙球的概率理解为样本数据集D上h(x)错误的概率,以此推算出在所有数据上h(x)错误的概率,这也是机器学习能够工作的本质,即我们为啥在采样数据上得到了一个假设,就可以推到全局呢?因为两者的错误率是PAC的,只要我们保证前者小,后者也就小了。
& 请注意,以上都是对某个特定的假设,其在全局的表现可以和其在DataSet的表现PAC,保证DataSet表现好,就能够推断其能泛化。可是我们往往有很多假设,我们实际上是从很多假设中挑一个表现最好(Ein最小)的作为最终的假设,那么这样挑的过程中,最小的Ein其泛化能力一定是最好么?肯定不是。
& 上面的例子很形象,每一个罐子都是一个假设集合,我们默认是挑表现最好的,也就是全绿色(错误率为0)的那个假设。但是当从众多假设选择时,得到全对的概率也在增加,就像丢硬币一样,当有个150个童鞋同时丢硬币5次,那么这些人中出现5面同时朝上的概率为99%,所以表现好的有可能是小概率事件发生(毕竟对于每个假设其泛化能力是PAC),其不一定就有好的泛化能力(Ein和Eout相同),我们称这次数据是坏数据(可以理解为选到了泛化能力差的假设),在坏数据上,Ein和Eout的表现是差别很大的,这就是那个小概率事件,Hoeffding's
inequality告诉我们,每个h在采样数据上Ein和Eout差别很大的概率很低(坏数据):
由于有这个bound,那么我们每次选取Ein最小的h就是合理的,因为如果M小N大,出现表现好的坏数据的假设几率降低了,我们选择表现后就有信心认为其有良好的泛化能力。
总结一下:
& M小,N足够大,可以使得假设具有良好的泛化能力;& 如果同时,Ein很小,那么这个假设就是有效地。机器是可以学习的,学习到的就是这个表现最好的假设。
整体证明机器可以学习分了两个层面,首先对于单个假设,根据Hoeffding不等式,当N很大时,其泛化能力强是PAC的;而实际上机器学习是从众多假设中挑Ein最小的(通过测试集找)假设,这个的理论基础是当M不大,N大,选到泛化能力差的假设概率低(用到了单个假设的结论)。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:363745次
积分:4127
积分:4127
排名:第5958名
原创:85篇
转载:97篇
评论:59条
(1)(1)(2)(1)(3)(6)(8)(6)(1)(11)(18)(4)(10)(5)(5)(2)(2)(2)(1)(2)(1)(2)(1)(3)(1)(3)(3)(6)(2)(1)(1)(1)(2)(6)(14)(2)(7)(2)(9)(10)(2)(6)(7)I Love Natural Language Processing
斯坦福大学机器学习第四课”多变量线性回归“学习笔记,本次课程主要包括7部分:
1) Multiple features(多维特征)
2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用)
3) Gradient descent in practice I: Feature Scaling(梯度下降实践1:特征归一化)
4) Gradient descent in practice II: Learning rate(梯度下降实践2:步长的选择)
5) Features and polynomial regression(特征及多项式回归)
6) Normal equation(正规方程-区别于迭代方法的直接解法)
7) Normal equation and non-invertibility (optional)(正规方程在矩阵不可逆情况下的解决方法)
以下是每一部分的详细解读:
1) Multiple features(多维特征)
中我们谈到的是单变量的情况,单个特征的训练样本,单个特征的表达式,总结起来如下图所示:
对于多维特征或多个变量而言:以房价预测为例,特征除了“房屋大小外”,还可以增加“房间数、楼层数、房龄”等特征,如下所示:
n = 特征数目
\(x^{(i)}\)= 第i个训练样本的所有输入特征,可以认为是一组特征向量
\(x_j^{(i)}\) = 第i个训练样本第j个特征的值,可以认为是特征向量中的第j个值
对于Hypothesis,不再是单个变量线性回归时的公式:\(h_\theta(x)=\theta_0 + \theta_1 x\)
\[h_\theta(x)=\theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n\]
为了方便,记\(x_0\) = 1,则多变量线性回归可以记为:
\[h_\theta(x)=\theta^Tx\]
其中\(\theta\)和x都是向量。
2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用)
对于Hypothesis:
\[h_\theta(x)=\theta^Tx=\theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n\]
其中参数:\(\theta_0\), \(\theta_1\),…,\(\theta_n\)可表示为n+1维的向量
\(\theta\)
对于Cost Function:
\[J(\theta) = J(\theta_0, \theta_1, … ,\theta_n) = \frac{1}{2m}\sum_{i=1}^m{(h_\theta(x^{(i)}) – y^{(i)})^2}\]
梯度下降算法如下:
对\(J(\theta)\)求导,分别对应的单变量和多变量梯度下降算法如下:
当特征数目为1,也就是n=1时:
当特征数目大于1也就是n&1时,梯度下降算法如下:
3) Gradient descent in practice I: Feature Scaling(梯度下降实践1:特征归一化)
核心思想:确保特征在相似的尺度里。
例如房价问题:
特征1:房屋的大小(0-2000);
特征2:房间数目(1-5);
简单的归一化,除以每组特征的最大值,则:
目标:使每一个特征值都近似的落在\(-1\leq x_i \leq 1\)的范围内。
举例:因为是近似落在这个范围内,所以只要接近的范围基本上都可以接受,例如:
0&=x1&=3, -2&=x2&=0.5, -3 to 3, -1/3 to 1/3 都
但是:-100 to 100, -0.0001 to 0.0001不Ok。
Mean Normalization(均值归一化):
用\(x_i – \mu_i\)替换\(x_i\)使特征的均值近似为0(但是不对\(x_0=1\)处理),均值归一化的公式是:
\[x_i \leftarrow \frac{x_i – \mu_i} {S_i}\]
其中\(S_i\)可以是特征的取值范围(最大值-最小值),也可以是标准差(standard deviation).
对于房价问题中的两个特征,均值归一化的过程如下:
4) Gradient descent in practice II: Learning rate(梯度下降实践2:步长的选择)
对于梯度下降算法:
需要注意两点:
-“调试”:如何确保梯度下降算法正确的执行;
-如何选择正确的步长(learning rate):
\(\alpha\);
第二点很重要,它也是确保梯度下降收敛的关键点。要确保梯度下降算法正确运行,需要保证 \(J(\theta)\)在每一步迭代中都减小,如果某一步减少的值少于某个很小的值 \(\epsilon\) , 则其收敛。例如:
如果梯度下降算法不能正常运行,考虑使用更小的步长\(\alpha\),这里需要注意两点:
1)对于足够小的\(\alpha\),
\(J(\theta)\)能保证在每一步都减小;
2)但是如果\(\alpha\)太小,梯度下降算法收敛的会很慢;
1)如果\(\alpha\)太小,就会收敛很慢;
2)如果\(\alpha\)太大,就不能保证每一次迭代\(J(\theta)\)都减小,也就不能保证\(J(\theta)\)收敛;
如何选择\(\alpha\)-经验的方法:
…, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1…
约3倍于前一个数。
5) Features and polynomial regression(特征及多项式回归)
例子-房价预测问题:
特征\(x_1\)表示frontage(正面的宽度),特征\(x_2\)表示depth(深度)
同时\(x_1, x_2\)也可以用一个特征表示:面积 Area = frontage * depth
即 \(h_\theta(x) = \theta_0 + \theta_1x\) , x表示面积。
多项式回归:
很多时候,线性回归不能很好的拟合给定的样本点,例如:
所以我们选择多项式回归:
对于特征的选择,除了n次方外,也可以开根号,事实上也是1/2次方:
6) Normal equation(正规方程-区别于迭代方法的直接解法)
相对于梯度下降方法,Normal Equation是用分析的方法直接解决\(\theta\).
正规方程的背景:
在微积分里,对于1维的情况,如果\(\theta\) 属于R:
\[J(\theta) = a\theta^2 + b\theta + c\]
求其最小值的方法是令:
\[\frac{d}{d\theta}J(\theta) = …=0\]
然后得到\(\theta\).
同理,在多变量线性回归中,对于\(\theta \in R^{n+1}\),Cost Function是:
求取\(\theta\)的思路仍然是:
对于有4组特征(m=4)的房价预测问题:
其中X 是m * (n+1)矩阵:
y是m维向量:
则Normal equation的公式为:
\[\theta = (X^T X)^{-1}X^T y\]
注:这里直接给出了正规方程的公式,没有给出为什么是这样的,如果想知道原因,建议看看 第4章4.3节“最小二乘法”的相关内容,这里面最关键的一个点是:
“The partial derivatives of \(||Ax – b||^2 \) are zero when \(A^TA x = A^Tb\).
举例可见官方的PPT,此处略;
Octave公式非常简洁:pinv(X’ * X) * X’ * y
对于m个样本,n个特征的问题,以下是梯度下降和正规方程的优缺点:
梯度下降:
需要选择合适的learning rate \(\alpha\);
需要很多轮迭代;
但是即使n很大的时候效果也很好;
Normal Equation:
不需要选择\(\alpha\);
不需要迭代,一次搞定;
但是需要计算\((X^TX)^{-1}\),其时间复杂度是\(O(n^3)\)
如果n很大,就非常慢
7) Normal equation and non-invertibility (optional)(正规方程在矩阵不可逆情况下的解决方法)
对于Normal Equation,如果\(X^TX\) 不可逆怎么办?
1) 去掉冗余的特征(线性相关):
例如以平方英尺为单位的面积x1,
和以平方米为单位的面积x2,其是线性相关的:
\(x_1=(3.28)^2 x_2\)
2) 过多的特征,例如m &= n:
删掉一些特征,或者使用regularization–之后的课程会专门介绍。
参考资料:
以下是第四课“多变量线性回归”的课件资料下载链接,视频可以在Coursera机器学习课程上观看或下载:
另外关于第三课“线性代数回顾”,由于课程内容相对简单,没有以笔记的形式呈现,而是换了一种写法,具体可参考:
不过大家仍可从以下链接下载官方第三课的相关课件:
如转载上的任何原创文章,请务必注明出处,谢谢!
原文链接:
此条目发表在分类目录,贴了, , , , , , , , , , , , 标签。将加入收藏夹。
NLP相关网站
本站架设在
上, 采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.后使用快捷导航没有帐号?
查看: 15953|回复: 639
(再次更新下载地址)coursera上的机器学习视频下载
金牌会员, 积分 1006, 距离下一级还需 1994 积分
论坛徽章:2
本帖最后由 reg027 于
09:23 编辑
这是ag的视频,包括所有的视频、讲义和作业要求
非常棒的课程,讲的很慢,而且还有字幕,可以说是深入浅出
============更新===========
不好意思,刚刚发现百度认为该视频名称非法,取消了我的分享
我现在更改了名称,大家可以再试试
============更新==========
这次是里面的一段字幕中包含非法文字,具体是什么文字,我也不清楚,
所以我把这个字幕文件删除掉了,应该不回影响大家的学习!
游客,如果您要查看本帖隐藏内容请
注册会员, 积分 71, 距离下一级还需 129 积分
论坛徽章:8
谢谢分享!!
新手上路, 积分 3, 距离下一级还需 47 积分
论坛徽章:0
金牌会员, 积分 1188, 距离下一级还需 1812 积分
论坛徽章:5
看他的视频才知道梯度下降与logistic regression之间的关系
金牌会员, 积分 2999, 距离下一级还需 1 积分
论坛徽章:28
coursera上的视频主要都是英文的
金牌会员, 积分 1481, 距离下一级还需 1519 积分
论坛徽章:29
讲的内容不一样,很好!
金牌会员, 积分 1481, 距离下一级还需 1519 积分
论坛徽章:29
好像已经删除了?
论坛徽章:35
正在灌互动作业,居然遇到主动要回复的
金牌会员, 积分 1654, 距离下一级还需 1346 积分
论坛徽章:16
金牌会员, 积分 1852, 距离下一级还需 1148 积分
论坛徽章:7
挺好,下来看看
扫一扫加入本版微信群}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信