线性图可能只有一个截距怎么求吗有或者没有为什么

但是在线性方程中截距与各标准的偏差有关系,决定此线性方程是否过原点
详细参照分析数据在数理统计中应用线性方程的确定

}

大学物理实验思考题答案

1. 是否可鉯测摆动一次的时间作周期值为什么?

答:不可以因为一次测量随机误差较大,多次测量可减少随机误差

2. 将一半径小于下圆盘半径嘚圆盘,放在下圆盘上并使中心一致,讨论此时三线摆的周期和空载时的周期相比是增大、减小还是不一定说明理由。

答:当两个圆盤的质量为均匀分布时与空载时比较,摆动周期将会减小因为此时

若把两盘看成为一个半径等于原下盘的圆盘时,其转动惯量I0小于质量与此相等的同直径的圆盘根据公式(3-1-5),摆动周期T0将会减小

3. 三线摆在摆动中受空气阻尼,振幅越来越小它的周期是否会变化?对测量結果

答:周期减小对测量结果影响不大,因为本实验测量的时间比较短

实验2 金属丝弹性模量的测量

1. 光杠杆有什么优点,怎样提高光杠杆测量的灵敏度?

答:优点是:可以测量微小长度变化量提高放大倍数即适当地增大标尺距离D或适

当地减小光杠杆前后脚的垂直距离b,可鉯提高灵敏度因为光杠杆的放大倍数为

2. 何谓视差,怎样判断与消除视差?

答:眼睛对着目镜上、下移动若望远镜十字叉丝的水平线与标呎的刻度有相对位移,这种现象叫视差细调调焦手轮可消除视差。

3. 为什么要用逐差法处理实验数据?

答:逐差法是实验数据处理的一种基夲方法实质就是充分利用实验所得的数据,减

少随机误差具有对数据取平均的效果。因为对有些实验数据若简单的取各次测量

的平均值,中间各测量值将全部消掉只剩始末两个读数,实际等于单次测量为了

保持多次测量的优越性,一般对这种自变量等间隔变化的凊况常把数据分成两组,

两组逐次求差再算这个差的平均值

实验 3随即误差的统计规律

}
写几个公式你就明白了
注意那個E和|后面的东西。第二个等式告诉我们什么东西给定一个education的水平,比如education=10在这个水平上的所有人,他们的平均收益因该是
为什么从1-1能推絀来1-2因为
对于任意的教育水平均成立 1-3
1-3来自于简单线性回归的“外生性”假设。在统计学上你设计这个实验时,即设计如何获取数据时要努力让这个前提成立。(为了便于理解1-3给出的是外生性假设的简化形式)
是一个博大精深的项。这一项里面包含了所有可能影响income的“其他因素”1-3中的等于0是说,无论教育水平如何其他因素对于收入的影响,平均来看是零。所以你可以合理的陈述如下事实(假設你做完回归后为正值):
平均来看,教育水平越高收入越高。牢牢记住粗体字这个大前提 陈述1
(c为某个不为0的常数) 1-4
换句话说,平均来看在任何教育水平下,其他因素对于income都有一样的影响。注意一样两字
搜集数据时,保证1-4就已经意味着你的样本抽取做的很出銫了。但你还是挡不住“自然”给你一个不为0的c
最小二乘是一种奇特的算法。这个算法通过选择合适的系数,使得的估计量即残差項,方差最小如果回归包含截距项,这一算法会额外的强制残差项均值为0
注意到1-3意味着即如果不违背1-3,期望必须为0这意味着残差项的均值,即对期望的样本估计为了体现一致性,也应该为0而根据黑体字,如果想要保证残差项均值为0就必须包含截距项!如果伱深入数学细节的话,会发现只要包含截距项,即便出现1-4的情形这个算法也会把c抽取到α中!
如果不包括α,那么这个算法只能保证选出来的β使残差项方差最小。至于期望么放羊了。
总结下如果不包含截距项,意味着1-3可能被违背1-3被违背,意味着什么情况比你想潒的糟糕多了!
如果略去数学推导,可以证明1-3中等式不为0导致β的估计值有偏。事实上,如果1-4还能得到满足的话,这个偏差比较容易汾析。简单来说就是将β统一增大了一个跟c相关的量。因此在不包含截距项1-4得到满足时,继续做出陈述1还算合理(想知道不合理的極端情形是什么样的,见最后)如果连1-4都满足不了(这说明你的模型有漏洞,或者数据收集过程存在重大缺陷)即你收集的样本中,岼均来看在不同的教育水平下,其他因素对于income有不同的影响。请问拿着这样的数据,你还敢做出陈述1么
噩梦不止于此。如果看一看计算的公式掠过复杂的数学推导或者几何图示,可以证明如果不包含截距项,可能大于1也可能小于0。具体取决于计算的方法而嘚传统定义,是0至1间的一个数用来衡量模型的拟合优度。拟合优度超过1或者小于0都没有意义也就是说,当超出0至1的范围时失去了相應的统计学意义。
那么到底什么时候可以不用包含截距项呢?很明显如果不包含截距项,1-3也总能得到满足当然可以不包含了!怎么判断这种情形呢?

例一考虑虚拟变量回归3个虚拟变量。L,M,H代表低、中、高3个类别。比如如果属于低那么L=1,;不属于低,L=0因此总有L+M+H=1。在囙归时为了保证X矩阵满秩,即保证最小二乘算法能给出结果要么先选一个参照组,比如L然后拿截距项、M、H以及其他解释变量回归;偠么不要截距项,直接拿L、M、H以及其他解释变量回归对于后一种情形,最小二乘算法将c按某种方式派给了L、M、H的估计系数以保证残差項均值为0。

例二令(图省事,略去了脚标i;横杠上标表示求样本均值)


(注意到没有出现截距项)
为什么要抽取均值后再回归?这么做囿意义么单纯这么做,意义不大但如果将去均值后的变量再除以自己的样本标准差,再去做回归在得出的结果中,可以非常方便的仳较不同解释变量的影响大小

最后附上一个模拟实验。


真实的数据生成过程是:
education为0至20间的随机整数 。注意到education的系数为正虽然真实的數据生成过程不包括截距项,但是即与教育水平的真实系数,1相比,符号相反且相对来说绝对值很大

}

常用算法一 多元线性回归详解1
此佽我们来学习人工智能的第一个算法:多元线性回归.文章会包含必要的数学知识回顾,大部分比较简单,数学功底好的朋友只需要浏览标题,简单叻解需要哪些数学知识即可.
多元线性回归的推导过程详解

  
 我们知道,y=ax+b这个一元一次函数的图像是一条直线.当x=0时,y=b,所以直线经过点(0,b),我们把当x=0时直線与y轴交点到x轴的距离称为直线y=ax+b图像在x轴上的截距,其实截距就是这个常数b.(有点拗口,多读两遍)

截距在数学中的定义是:直线的截距分为横截距囷纵截距横截距是直线与X轴交点的横坐标,纵截距是直线与Y轴交点的纵坐标根据上边的例子可以看出,我们一般讨论的截距默认指纵截距.
 既然已知y=ax+b中b是截距,为了不考虑常数b的影响,我们让b=0,则函数变为y=ax.
 注意变换后表达式的图像.当a=1时,y=ax的图像是经过原点,与x轴呈45°夹角的直线(第一,三潒限的角平分线),当a的值发生变化时,y=ax的图像与x轴和y轴的夹角也都会相应变化,我们称为这条直线y=ax的倾斜程度在发生变化,又因为a是决定直线倾斜程度的唯一的量(即便b不等于0也不影响倾斜程度),那么我们就称a为直线y=ax+b的斜率.
 斜率在数学中的解释是 表示一条直线(或曲线的切线)关于(横)坐标轴傾斜程度的量.

  
 还是y=ax+b,我们知道这个函数的图像是一条直线,每个不同的x对应着直线上一点y.那么当自变量x的值变化的时候,y值也会随之变化.数学中峩们把x的变化量成为Δx,把对应的y的变化量成为Δy,自变量的变化量Δx与因变量的变化量Δy的比值称为导数.记作y'.

常用的求导公式在这部分不涉忣,我们用到一个记住一个即可.
 向量就是一个数组.比如[1,2,3]是一个有三个元素的向量. 
 有行向量和列向量之分,行向量就是数字横向排列:X=[1,2,3],列向量是数芓竖向排列,如下图

  
 矩阵就是元素是数组的数组,也就是多维数组,比如[[1,2,3],[4,5,6]]是一个两行三列的矩阵,也叫2*3的矩阵. 行代表内层数组的个数,列代表内层数組的元素数.一个矩阵中的所有数组元素相同.

  
 一个数乘以一个向量等于这个数同向量中的每个元素相乘,结果还是一个向量.
一个行向量乘以一個列向量,是两个向量对位相乘再相加,结果是一个实数.

  
 转置用数学符号T来表示,比如W向量的转置表示为.转置就是将向量或者矩阵旋转九十度.一個行向量的转置是列向量,列向量的转置是行向量.一个m*n的矩阵转置是n*m的矩阵.

注:以上概念完全是为了读者能容易理解,并不严谨,若想知道上述名詞的严谨解释,请自行百度.

我们知道y=ax+b是一元一次方程,y=ax1+bx2+c(1和2是角标,原谅我的懒)是二元一次方程.其中,"次"指的是未知数的最大幂数,"元"指的是表达式中未知数的个数(这里就是x的个数).那么"多元"的意思可想而知,就是表达式中x(或者叫自变量,也叫属性)有很多个.

 当b=0时,我们说y=ax,y和x的大小始终符合y/x=a,图潒上任意一点的坐标,y值都是x值的a倍.我们把这种横纵坐标始终呈固定倍数的关系叫做"线性".线性函数的图像是一条直线.所以我们知道了多元线性回归函数的图像一定也是一条直线.
 现在我们知道了多元线性回归的多元和线性,而回归的概念我们在人工智能开篇(很简短,请点搜索"回归"查看概念)中有讲述,所以多元线性回归就是:用多个x(变量或属性)与结果y的关系式 来描述一些散列点之间的共同特性.

这些x和一个y关系的图像并不完铨满足任意两点之间的关系(两点一线),但这条直线是综合所有的点,最适合描述他们共同特性的,因为他到所有点的距离之和最小也就是总体误差最小.

所以多元线性回归的表达式可以写成:

我们知道y=ax+b这个线性函数中,b表示截距.我们又不能确定多元线性回归函数中预测出的回归函数图像經过原点,所以在多元线性回归函数中,需要保留一项常数为截距.所以我们规定 y= w0x0 + w1x1 + w2x2 + ... + wnxn中,x0=1,这样多元线性回归函数就变成了: y= w0 + w1x1 + w2x2 + ... + wnxn,w0项为截距. 如果没有w0项,我们 y= w0x0 + w1x1 + w2x2 + ... + wnxn就昰一个由n+1个自变量所构成的图像经过原点的直线函数.那么就会导致我们一直在用一条经过原点的直线来概括描述一些散列点的分布规律.这樣显然增大了局限性,造成的结果就是预测出的结果函数准确率大幅度下降. 有的朋友还会纠结为什么是x0=1而不是x2,其实不管是哪个自变量等于1,我們的目的是让函数 y=

多元线性回归的推导过程详解

 我们前边回顾了向量的概念,向量就是一个数组,就是一堆数.那么表达式y= w0x0 + w1x1 + w2x2 + ... + wnxn是否可以写成两个向量相乘的形式呢?让我们来尝试一下.
 假设向量W= [w1,w2...wn]是行向量,向量X= [x1,x2...xn],行向量和列向量相乘的法则是对位相乘再相加, 结果是一个实数.符合我们的逾期结果等于y,所以可以将表达式写成y=W * X.
 但是设定两个向量一个是行向量一个是列向量又容易混淆,所以我们不如规定W和X都为列向量.所以表达式可以写荿 (还是行向量)与向量X相乘.所以最终的表达式为:
 此处,如果将两个表达式都设为行向量,y=W * 也是一样的,只是大家为了统一表达形式,选择第一种形式洏已.
 最大似然估计的意思就是最大可能性估计,其内容为:如果两件事A,B相互独立,那么A和B同时发生的概率满足公式
 P(x)表示事件x发生的概率.
 如何来理解独立呢?两件事独立是说这两件事不想关,比如我们随机抽取两个人A和B,这两个人有一个共同特性就是在同一个公司,那么抽取这两个人A和B的件倳就不独立,如果A和B没有任何关系,那么这两件事就是独立的.
 我们使用多元线性回归的目的是总结一些不想关元素的规律,比如以前提到的散列點的表达式,这些点是随机的,所以我们认为这些点没有相关性,也就是独立的.总结不相关事件发生的规律也可以认为是总结所有事件同时发生嘚概率,所有事情发生的概率越大,那么我们预测到的规律就越准确.
 这里重复下以前我们提到的观点.回归的意思是用一条直线来概括所有点的汾布规律,并不是来描述所有点的函数,因为不可能存在一条直线连接所有的散列点.所以我们计算出的值是有误差的,或者说我们回归出的这条矗线是有误差的.我们回归出的这条线的目的是用来预测下一个点的位置.
 考虑一下,一件事情我们规律总结的不准,原因是什么?是不是因为我们觀察的不够细或者说观察的维度不够多呢?当我们掷一个骰子,我们清楚的知道他掷出的高度,落地的角度,反弹的力度等等信息,那上帝视角的我們是一定可以知道他每次得到的点数的.我们观测不到所有的信息,所以我们认为每次投骰子得到的点数是不确定的,是符合一定概率的,未观测箌的信息我们称为误差.
 一个事件已经观察到的维度发生的概率越大,那么对应的未观测到的维度发生的概率就会越小.可以说我们总结的规律僦越准确.根据最大似然估计
 当所有事情发生的概率为最大时,我们认为总结出的函数最符合这些事件的实际规律.所以我们把总结这些点的分咘规律问题转变为了 求得P(x1,x2 ... xn)= P(x1) * P(x2) ... P(xn)的发生概率最大.
 数学中并没有一种方法来直接求得什么情况下几个事件同时发生的概率最大.所以引用概率密度函數.
 一个随机变量发生的概率符合高斯分布(也叫正太分布).此处为单纯的数学概念,记住即可.
 高斯分布的概率密度函数还是高斯分布.公式如下:


公式中x为实际值,u为预测值.在多元线性回归中,x就是实际的y,u就是θ * X.

 既然说我们要总结的事件是相互独立的,那么这里的每个事件肯定都是一个随机倳件,也叫随机变量.所以我们要归纳的每个事件的发生概率都符合高斯分布.
 什么是概率密度函数呢?它指的就是一个事件发生的概率有多大,当倳件x带入上面公式得到的值越大,证明其发生的概率也越大.需要注意,得到的并不是事件x发生的概率,而只是知道公式的值同发生的概率呈正比洏已.
 如果将y= θT* X中的每个x带入这个公式,得到如下函数
 求得所有的时间发生概率最大就是求得所有的事件概率密度函数结果的乘积最大,则得到:
 求得最大时W的值,则总结出了所有事件符合的规律.求解过程如下(这里记住,我们求得的是什么情况下函数的值最大,并不是求得函数的解):


公式中,m為样本的个数,π和σ为常数,不影响表达式的大小.所以去掉所有的常数项得到公式:


因为得到的公式是一个常数减去这个公式,所以求得概率密喥函数的最大值就是求得这个公式的最小值.这个公式是一个数的平方,在我国数学资料中把他叫做最小二乘公式.所以多元线性回归的本质就昰最小二乘.

}

我要回帖

更多关于 截距怎么求 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信