为什么说普通最小二乘法原理是对样本点的一个最优拟合

点击联系发帖人 时间：2017-09-21 03:25

普通最小二乘法的推导

 上传我的文档
 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
第2讲_普通最小二乘法[1]
下载积分：900
内容提示：第2讲_普通最小二乘法[1]
文档格式：PPT|
浏览次数：4|
上传日期： 04:30:32|
文档星级：
全文阅读已结束，如果下载本文需要使用
 900 积分
下载此文档
该用户还上传了这些文档
第2讲_普通最小二乘法[1]
官方公共微信python_numpy最小二乘法的曲线拟合 - 简书
python_numpy最小二乘法的曲线拟合
在了解了最小二乘法的基本原理之后，就可以用最小二乘法做曲线拟合了
1.直线拟合
已知图中拟合数据的坐标，对图中的拟合数据进行直线拟合。依旧使用最小二乘法求解
Ax=b——————1无解下的最优解。已知点的个数为n，所求直线的方程为y1=ax1+b，A由方程右边的a，b的系数构成构成(nx2)的矩阵,每行为（x1,1），b由已知点的y1坐标构成矩阵(nx1)。方程1中的x为要求的列向量[a,b]。 A.TAx'=A.Tb x'=(A.TA)^(-1)A.TC 求得x‘后，画出拟合曲线的yy=Ax'
import numpy as np
import matplotlib.pyplot as plt
#x的个数决定了样本量
x = np.arange(-1,1,0.02)
#y为理想函数
y = 2*np.sin(x*2.3)+0.5*x**3
#y1为离散的拟合数据
y1 = y+0.5*(np.random.rand(len(x))-0.5)
##################################
one=np.ones((len(x),1))#len(x)得到数据量
x=x.reshape(x.shape[0],1)
A=np.hstack((x,one))#两个100x1列向量合并成100x2,(100, 1) (100,1 ) (100, 2)
C=y1.reshape(y1.shape[0],1)
#等同于C=y1.reshape(100,1)
#虽然知道y1的个数为100但是程序中不应该出现人工读取的数据
def optimal(A,b):
B = A.T.dot(b)
AA = np.linalg.inv(A.T.dot(A))#求A.T.dot(A)的逆
P=AA.dot(B)
return A.dot(P)
#求得的[a,b]=P=[[
2.] [ -1.]]
yy = optimal(A,b)
#yy=P[0]*x+P[1]
##################################
plt.plot(x,y,color='g',linestyle='-',marker='',label=u'理想曲线')
plt.plot(x,y1,color='m',linestyle='',marker='o',label=u'拟合数据')
plt.plot(x,yy,color='b',linestyle='-',marker='.',label=u"拟合曲线")
# 把拟合的曲线在这里画出来
plt.legend(loc='upper left')
plt.show()
直线拟合结果
从结果中可以看出，直线拟合并不能对拟合数据达到很好的效果，下面我们介绍一下曲线拟合。
2.曲线拟合
图中的拟合数据如果用直线进行拟合效果会更差，曲线能更好的表达数据的特征。这里我们使用多项式函数进行拟合。拟合函数：
y=ax^n+bx^(n-1)+cx^(n-2)+...+d假设拟合数据共有100个由
Ax=bA=[x1^n x1^(n-1) x1^(n-2) ...... 1]
[x2^n x2^(n-1) x2^(n-2) ...... 1]
[x100^n x100^(n-1) x100^(n-2) . 1]
解得拟合函数的系数[a,b,c.....d]CODE:
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(-1,1,0.02)
y = ((x*x-1)**3+1)*(np.cos(x*2)+0.6*np.sin(x*1.3))
y1 = y+(np.random.rand(len(x))-0.5)
##################################
### 核心程序
#使用函数y=ax^3+bx^2+cx+d对离散点进行拟合，最高次方需要便于修改，所以不能全部列举，需要使用循环
for i in xrange(7):#这里选的最高次为x^7的多项式
m.append(a)
A=np.array(m).T
b=y1.reshape(y1.shape[0],1)
##################################
def projection(A,b):
AA = A.T.dot(A)#A乘以A转置
w=np.linalg.inv(AA).dot(A.T).dot(b)
print w#w=[[-0.][ 0.1995869 ] [ 2.] [ 1.][-5.] [-0.][ 2.]]
return A.dot(w)
yw = projection(A,b)
yw.shape = (yw.shape[0],)
plt.plot(x,y,color='g',linestyle='-',marker='',label=u"理想曲线")
plt.plot(x,y1,color='m',linestyle='',marker='o',label=u"已知数据点")
plt.plot(x,yw,color='r',linestyle='',marker='.',label=u"拟合曲线")
plt.legend(loc='upper left')
plt.show()
根据结果可以看到拟合的效果不错。我们可以通过改变
拟合函数类型
样本数（此处为x的个数）
来调整拟合效果。如果此处我们把拟合函数改为最高次为x^20的多项式
for i in xrange(20):
m.append(a)
所得结果如下：
x^20 样本数100
这种现象称为过拟合现象
可以通过增加样本数数，
降低拟合函数的次数
矫正过拟合现象在保持拟合函数改为最高次为x^20的多项式的条件下，增大样本数：
x = np.arange(-1,1,0.005) #原来是x = np.arange(-1,1,0.02)
x^20 样本数400
通过结果可以看出，过拟合现象得到了改善。最小二乘法 -
- ITeye博客
博客分类：
最小二乘法：残差平方和最小，拟合曲线
5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》，想到能见到传说中的项亮大神，特地拿了本《推荐系统实践》求签名。讲座开始，主讲人先问了下哪些同学有机器学习的背景，我恬不知耻的毅然举手，真是惭愧。后来主讲人在讲座中提到了最小二乘法，说这个是机器学习最基础的算法。神马，最基础，我咋不知道呢！看来以后还是要对自己有清晰认识。
回来赶紧上百度，搜了下什么是最小二乘法。
先看下百度百科的介绍：最小二乘法（又称最小 1 平方法）是一种优化技术。它通过最小化的平方和寻找数据的最佳匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间的平方和为最小。最小二乘法还可用于。其他一些优化问题也可通过最小化或最大化熵用最小二乘法来表达。
通过这段描述可以看出来，最小二乘法也是一种优化方法，求得目标函数的最优值。并且也可以用于曲线拟合，来解决回归问题。难怪《统计学习方法》中提到，回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以著名的最小二乘法来解决。看来最小二乘法果然是机器学习领域做有名和有效的算法之一。
二. 最小二乘法
我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面...
对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：
（1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
（2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
（3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。
　最常用的是普通最小二乘法（ Ordinary
Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。
　样本回归模型：
其中ei为样本（Xi, Yi）的误差
平方损失函数：
则通过Q最小确定这条直线，即确定，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。求Q对两个待估参数的偏导数：
根据数学知识我们知道，函数的极值点为偏导为0的点。
这就是最小二乘法的解法，就是求得平方损失函数的极值点。
三. C++实现代码
2 最小二乘法C++实现
3 参数1为输入文件
4 输入： x
5 输出：预测的y
7 #include&iostream&
8 #include&fstream&
9 #include&vector&
12 class LeastSquare{
14 public:
LeastSquare(const vector&double&& x, const vector&double&& y)
double t1=0, t2=0, t3=0, t4=0;
for(int i=0; i&x.size(); ++i)
t1 += x[i]*x[i];
t2 += x[i];
t3 += x[i]*y[i];
t4 += y[i];
a = (t3*x.size() - t2*t4) / (t1*x.size() - t2*t2);
// 求得β1
b = (t1*t4 - t2*t3) / (t1*x.size() - t2*t2);
// 求得β2
double getY(const double x) const
return a*x +
void print() const
cout&&"y = "&&a&&"x + "&&b&&"\n";
41 int main(int argc, char *argv[])
if(argc != 2)
cout&&"Usage: DataFile.txt"&&
return -1;
vector&double&
ifstream in(argv[1]);
for( in&&d; )
x.push_back(d);
int sz = x.size();
vector&double& y(x.begin()+sz/2, x.end());
x.resize(sz/2);
LeastSquare ls(x, y);
ls.print();
cout&&"Input x:\n";
double x0;
while(cin&&x0)
cout&&"y = "&&ls.getY(x0)&&
cout&&"Input x:\n";
四. 最小二乘法与梯度下降法
最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值，那它们有什么区别呢。
　　1.本质相同：两种方法都是在给定已知数据（independent & dependent variables）的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。　　2.目标相同：都是在已知数据的框架内，使得估算值与实际值的总平方差尽量更小（事实上未必一定要使用平方），估算值与实际值的总平方差的公式为：
其中为第i组数据的independent variable，为第i组数据的dependent variable，为系数向量。
不同　　1.实现方法和结果不同：最小二乘法是直接对求导找出全局最小，是非迭代法。而梯度下降法是一种迭代法，先给定一个，然后向下降最快的方向调整，在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢，并且对初始点的选择极为敏感，其改进大多是在这两方面下功夫。
原文网址：
摘自： http://blog.csdn.net/lotus___/article/details/
浏览: 1682 次
来自: 北京最小二乘法实现椭圆拟合Matlab源码免费下载-智慧石
最小二乘法实现椭圆拟合
收录时间：
最小二乘法实现椭圆拟合。
椭圆拟合法的基本思路是：对于给定平面上的一组样本点，寻找一个椭圆，使其尽可能靠近这些样本点。也就是说到，将图像中的一组数据以椭圆方程为模型进行拟合，使某一椭圆方程尽量满足这些数据，并求出该椭圆方程的各个参数。最后确定的最佳椭圆的中心即是搜们要确定的靶心。
最小二乘法是最早的椭圆拟合方法，它是数据拟合中的基本方法，它的基本思想就是考虑数据受随机噪声的影响进而追求整体误差的最小化。对椭圆拟合而言，就是先假设椭圆参数，得到每个待拟合点到该椭圆的距离之和，也就是点到假设椭圆的误差，求出使这个和最小的参数。随着对椭圆拟合问题的深入研究，围绕着整体误差的最小化这个整体思想出现了一些不同类型的方法，在误差距离的定义上就有几何距离和代数距离之分，在求最小值的过程中也用到了不同的方法。但最小二乘方法一般根据距离的定义分为两类，代数拟合法和几何拟合法
Least squares fittingLeast squares fitting
Copyright ((C))
2013 All Rights Reserved.【计量简答】练习册上扒来的慢看不谢要打印还是缩印随便你
1为什么要有随机干扰项计量经济学模型考察的是具有因果关系的随机变量间的具体联系方式。由于是随机变量，意味着影响被解释变量的因素是复杂的，除了解释变量的影响外，还有其他无法在模型中独立列出的各种因素的影响。这样，理论模型中就必须使用一个称为随机干扰项的变量来代表所有这些无法在模型中独立表示出来的影响因素，以保证模型在理论上的科学性。
2总体和样本回归函数区别和联系将总体被解释变量的条件期望表示为解释变量的某种函数，这个函数就称为总体回归函数；样本回归函数：将被解释变量Y的样本观测值的拟和值表示为解释变量的某种函数。样本回归函数是总体回归函数的一个近似。总体回归函数具有理论上的意义，但其具体的参数不可能真正知道，只能通过样本估计。样本回归函数就是总体回归函数的参数用其估计值替代之后的形式。
3为什么用可决系数R2评价而不是残差平方和可决系数R2=ESS/TSS=1-RSS/TSS，含义为由解释变量引起的被解释变量的变化占被解释变量总变化的比重，用来判定回归直线拟合的优劣，该值越大说明拟合的越好；而残差平方和与样本容量关系密切，当样本容量比较小时，残差平方和的值也比较小，尤其是不同样本得到的残差平方和是不能做比较的。此外，作为检验统计量的一般应是相对量而不能用绝对量，因而不能使用残差平方和判断模型的拟合优度。
4为什么还要讨论模型拟合优度普通最小二乘法所保证的最好拟合是同一个问题内部的比较，即使用给出的样本数据满足残差的平方和最小；拟合优度检验结果所表示的优劣可以对不同的问题进行比较，即可以辨别不同的样本回归结果谁好谁坏。
5多元线性回归和一元线性回归区别多元线性回归模型与一元线性回归模型的区别表现在如下几个方面：一是解释变量的个数不同；二是模型的经典假设不同，多元线性回归模型比一元线性回归模型多了个&解释变量之间不存在线性相关关系&的假定；三是多元线性回归模型的参数估计式的表达更为复杂。
6为什么说最小二乘估计量是最优线性无偏估计量在满足经典假设的条件下，参数的最小二乘估计量具有线性性、无偏性以及最小性方差，所以被称为最优线性无偏估计量（BLUE）。对于多元线性回归最小二乘估计的正规方程组，能解出唯一的参数估计量的条件是（X'X）-1存在，或者说各解释变量间不完全线性相关。
7估计的一致性是指，随着样本容量的增加，即当n&&时，参数估计量依概率收敛于参数的真值
8异方差的影响（1）性质：OLS估计量仍是线性无偏的，但不再具有最小方差，即不再有效；大样本情况下，具有一致性，但不具有渐近有效性。（2）影响：由于相应的置信区间和t检验、F检验都与估计量的方差相关，因此会造成建立的置信区间以及t检验与F检验都不再是可靠的。
9一阶自相关估计自相关参数（1）利用D.W.统计量（大样本情况下）求ρ的估计值；（2）柯-奥迭代法；（3）杜宾两步法。不论哪种方法，其基本思路都是采用OLS方法估计原模型，得到随机干扰项的&近似估计值&，然后利用该&近似估计值&求得随机干扰项相关系数的估计量。
10序列相关后果当模型存在序列相关时，根据普通最小二乘法估计出的参数估计量仍具有线性特性和无偏性，但不再具有有效性；用于参数显著性的检验统计量，要涉及到参数估计量的标准差，因而参数检验也失去意义
11结构式方程识别的阶条件和秩条件联立方程计量经济学模型的结构式中的第i个方程中包含个gi内生变量和ki个先决变量，模型系统中内生变量和先决变量的数目用g和k表示，矩阵表示第i个方程中未包含的变量在其它个方程中对应系数所组成的矩阵。于是，判断第i个结构方程识别状态的结构式条件为：如果R&g-1，则第i个结构
分享这篇日志的人也喜欢
你不来我不走
早安小伙伴
第二天、求关注，求守护??
来吧，小伙伴！
热门日志推荐
人人最热标签
北京千橡网景科技发展有限公司：
文网文[号··京公网安备号·甲测资字
文化部监督电子邮箱：wlwh@··
文明办网文明上网举报电话：举报邮箱：&&&&&&&&&&&&
请输入手机号，完成注册
请输入验证码
密码必须由6-20个字符组成
下载人人客户端
品评校花校草，体验校园广场}

我爱游戏网