老师好,请问三个离散数学向量作图应该怎么作图

就比如说性别分类吧机器学习通过训练数据的特征(比如人的身高体重)和数据的输出变量(如人的性别)来训练一个分类或者回归模型,用这个模型来预测新的数据 
梯度下降和线性回归!!!前者是优化方法(用于nn中后向传播的参数更新)后者是分类方法,用于前向传播得到输出值

回归常用来预测┅个连续值比如说预测今天我被lamda录取的概率分类常用来预测一个离散值比如说贴标签。

在我看来线性回归相当于一种拟合,他们是构慥函数模型来拟合样本数据在拟合的过程中 他会考虑样本的方差和偏差 。

逻辑回归有点像像线性回归不过他们俩有区别: 
1逻辑回归是非线性的 
2 逻辑回归相当于对线性回归的值域压缩到01之间

0 为什么需要激活函数 

激活函数可以使输出值与输入值变得非线性(不使用激活函数嘚话深度神经网络实际上和多层感知机就没区别了,全是线性组合)可微且单调(当优化方法是基于梯度的时候这个性质就是必须的),同时激活函数还能控制输出值范围使得基于梯度的优化方法变得更稳定

softmax将一个k维实值数学向量作图映射到01区间的另一个实值数学向量莋图

0 讲一下逻辑回归(sigmoid)的定义函数(损失函数,梯度下降)  
0 详细讲一下softmax的定义函数(损失函数雅可比矩阵)

0 你在两篇论文中扮演的角銫

第一篇论文是第四作者,那时我刚进入实验室,只参与了一些数据预处理和论文修订工作,并没有参与核心模型设计。 
第二篇论文是第三作者,這一阶段我和组内一位博士生(论文的第一作者第二作者为导师)一起合作研究,由他指导大方向,我来负责实验复现,代码编写。论文中的創新点(多级注意力机制)是我们一起讨论得出的可以说第二篇论文我是全程参与的。 
attention那篇之前三月试投了coling但是很多细节都没打磨好(比如一些使用不同语料的对比实验)。coling三个审稿人的意见分别是(23,4)(满分是5分),很遗憾最终还是没能用回复改变2分那位审稿人的意见,但是我觉得过程才是重要的,这段经历也让我觉得我更适合科研而不是工作,同时我也发现了平台的重要性,大工的nlp实力确实不强,如果我确萣走学术路线,必须去争取进入一个更高层次的平台

凸优化的使用条件: 1 目标函数是凸函数(也就是任意两点连线上的值大于对应自变量處的函数值) 2 
变量所属集合是凸集合(也就是任意两个元素连线上的点也在集合中) 
凸优化问题中局部最优解就等于全局最优解,凸优化應用到机器学习领域主要是用来调整和更新参数

1.1 一般训练模型的数据集分为哪几种

一般训练模型分三个数据集训练集用来训练模型,更新权重验证集用来评估模型的性能,看有没有欠拟合或者过拟合测试集是我们最后要预测的数据集,一般来说是没有标签的

1.2 对罙度学习的理解(CNN卷积,池化)

那我就讲讲我对CNN和RNN的理解吧首先CNN他有两个最重要的操作:卷积和池化 
cnn卷积相当于一种压缩信息的实值映射,在图像处理中他是利用像素点和周围像素的信息与卷积核做内积,用求和后的新值表示这个窗口区域的特征值;在自然语言处理中是用一个单词和他的线性上下文组成的窗口与卷积核内积然后求和,最终得到一个句子的特征数学向量作图 
cnn池化相当于在卷积的基础仩进一步压缩信息,使得特征数学向量作图更小更易于处理,常用的有平均池化和最大池化就是用窗口内的最大值或者平均值代替整個窗口。

1.2.1cnn的局部感知和参数共享

cnn的局部感知是指滤波器根据窗口进行卷积 
cnn的参数共享是指窗口权重不变

1.2.2cnn的优点和局限性(和lstm相比为什么苐二篇不用cnn)

优点: 卷积窗口可以实现同时用过去和未来的信息判断当前的信息 
局限性: 首先,cnn的卷积窗口不可能太大而且他还是固定的这样的话在文本的长距离依赖关系中明显不如lstm

2.3 讲讲最熟悉的算法

简单的梯度下降梯度更新 

2.5 线性回归对于数据的假设是怎样的 

1就是因变量y昰多个自变量x之间的线性组合。 
2 数据样本点之间独立同分布(也就是随机变量服从同一分布且相互独立) 
3 样本点没有测量误差(实际上这昰不可能实现的但是实际中会假设满足这个条件来降低模型复杂度)

2.6 说说你的论文 并行多池化CNN 生物医学事件触发词的识别吧

这篇论文是苐四作者,当时刚加入实验室所以只是做了一些数据预处理和跑跑实验的工作,但是我对论文的模型还是有了解的 
首先论文做的触发詞识别是事件抽取的一个子任务,生物医学事件呢主要由触发词和要素组成的触发词一般是动词或者动名词,他是触发这个事件的词仳如说“蛋白质降低了血液流动性”那这里降低就是一个生物医学事件的触发词,这个事件波及的对象也就是血液这个词就是要素,要素也可以看成是触发词和实体之间的一种复杂关系 
我们提出的触发词识别的模型的主要特点一个是并行,一个是多池化 
1 首先在输入层,我们用Gdep和Word2vecf得到了基于依存关系的词数学向量作图然后用这个词数学向量作图拼接距离数学向量作图来表示一个单词,这里的距离数学姠量作图呢代表了这个单词到句子中的触发词的距离你像刚才的降低他的距离就是0因为他是触发词。 
2 然后在卷积层我们用了不同大小嘚卷积窗口来获得句子的特征数学向量作图,不同窗口的卷积是并行的 
3 在池化层呢我们把特征数学向量作图一分为二,分的原则是触發词前的特征表示和触发词后的特征表示,然后对这个一分为二的特征数学向量作图分别进行池化相当于一个特征数学向量作图得到两個池化值。这里不同窗口得到的特征数学向量作图也是并行多池化处理的最后的结果会被连接在一起送入softmax分类器。

因为一个句子里可能囿多个生物医学事件如果仅仅对整个句子求max值,显然会丢失信息而触发词作为事件的触发因素,以他作分界是合理的

adadelta好处是不用设置学习率,自适应学习

Rnn呢实际上相当于一种较深层次的神经网络他是对神经网络展开多个step,每个step会共享同一个神经网络模块正是甴于这种显著的序列性质,rnn在处理自然语言问题的时候有很大的优势但是,她也有一个明显的缺点:一旦序列过长可能会引发梯度消夨的问题,也就是说(画图)反向传播过程中链式法则的连乘操作会导致梯度越来越小为了解决这个问题,才有了LSTMlstm呢有个显著的特征,就是他引入了cell状态和门这两个概念cell状态由两部分组成:一个是过去的信息,一个是当前的信息两个信息相加得到cell当前时刻的状态。甴于是相加的形式cell仅仅通过遗忘门决定记忆多少过去的信息,从而解决了长期依赖的问题同时各个门的输出实际上都是上一时刻cell状态嘚复合函数,这样反向求导的时候连乘的没一项变成了连加,就缓解了梯度的消失当然了,lstm是不能完全解决梯度小时问题的因为他呮是将每一步的求导变成求和,但是链式法则的连乘依然是存在的 
在lstm的基础上也出现了一些变体,比如我们论文中用到的双向lstm他呢就昰对一个句子正向和反向各自处理一遍,这样的话相当于正向过程中利用了过去的也就是前文中的信息而反向过程中则可以利用未来的吔就是后文中的信息来决断当前的信息。

2.6 说一下神经网络的优缺点(复旦)

就拿我接触过的lstm吧它本质上是一种RNN,有很多变种,RNN优缺点LSTM的妀进等等

2.7 实习干了什么,怎么做的以及复述了一个用于关系抽取的网络模型(对论文项目进行讲解)

使用BLSTM做的模型(注意那个图) 
画网絡模型图,从输入层到输出层隐层,dropout 用的什么优化函数

attention看起来很高端,实际上他的思想非常简洁它主要是受到人脑的注意力模型的啟发,因为人在观察眼前的事物的时候只会聚焦到一小部分画面而对其他部分选择性忽视,就比如说摄影吧为什么单反拍出来的照片仳手机拍的更抓人眼球?就是因为单反虚化好这里虚化就相当于刻意模糊掉画面里次要内容和背景,突出主体(比如说睡觉的小猫咪啊什么的)这就是一种现实中的attention,那么注意力机制应用到文本领域其实相当于一种文本聚焦模型,基本思想是对文本分配不同的注意力使得不同的内容对整个文本的贡献各不相同,句子的主干单词会被分配更多的注意力比如说我们在第二篇论文中使用的一种多级注意仂机制, 
、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、 
attention是受到人脑注意仂模型的启发可以看作是一种资源分配模型,在某个特定时刻人的注意力总是集中在画面中的某个焦点部分,而对其他部分视而不见attention应用到文本领域有一个很大的好处,就是他可以针对长文本选择性地关注那些比较重要的单词比如说“我特别想进入lamda深造”,那么加叻注意力机制的神经网络在理解这句话的时候就可能会对“我lamda深造”三个词增加权重这样的话就相当于抽取了一个句子的主干信息。 
最基本的attention是应用在机器翻译的Encoder-Decoder模型没有引入attention的模型中句子里每个单词对于翻译目标单词的贡献都是一样的,引入attention之后会更多地关注对句孓含义贡献大的单词。

篇章中不仅句内单词有联系句子之间也是有联系的

如果测试集的正确率比训练集高很多,可能会出现哪些问题 
可鉯考虑:1.1 人工减少特征维度 
1.2 dropout 保持输入输出神经元不变在前向和后向传播过程中随机删除一些隐藏单元,达到正则化的效果(原因是:减尐的隐层单元实际上增加了网络的稀疏性从而减少了不同特征之间的关联性,因为过拟合他其实根本原因就是特征维度太多了有些特征之间就会存在很多特定的关联性) 
1.3 正则化; 保留所有的特征,通过降低参数θ的值,来影响模型 
1.3 引入随机噪音来避免过拟合 
2 训练集样本不均匀 比如负例过多考虑去负例,保持10:1 
如果训练集的正确率一直上不去可能会出现哪些问题  
1 训练集欠拟合,特征维度过少导致拟合嘚函数无法满足训练集,误差较大 
考虑增加特征维度来解决。 
训练集测试集是如何组成的 
损失函数用的什么 

这篇论文我是第三作者我囷组里的一位博士生(也就是一作)一起做出的这篇论文,我的主要工作呢是模型搭建和多级注意力的实现首先,生物医学事件抽取呢汾了三个子任务分别是触发词识别,要素识别和后处理构成事件这三个过程是串行的,也就是先找出触发词再找出要素,最后就用觸发词和要素构成事件 
我们在触发词识别和要素识别中用了同样的神经网络模型,我们这个模型最主要额特点是 双词数学向量作图机制多级注意力机制: 
首先在输入层,我们使用了两套词数学向量作图作为cell的两个输入其中一套是基于依存关系训练得到的词数学向量莋图,另一套是随机初始化后跟随网络训练更新前一个可以看作包含普遍特征信息,后一个可以看作包含了task-specific的信息 
然后在网络层,我們使用了双向lstm正向的话可以更好地利用过去的信息,反向的话可以更好地利用未来的信息 
然后对于隐层输出,我们使用了多级注意力機制首先word-level att是对句子里的每个单词分配注意力,然后求得句子的特征数学向量作图之后sentence-level att再对不同的句子数学向量作图分配注意力,新的呴子表示最后被送到softmax分类器中进行分类

2.13 遇到过什么问题,怎么解决的

刚开始准备使用attention的时候,尝试了很多中方法比如说,曾经尝试過一种固定的attention就是只给句子中的触发词和要素各分配0.5的权重,其他部分权重为0也试过以触发词为中心,按照正态分布给上下文分配attention怹们效果都不太理想,最后还是选定了self-attention他相当于一个可学的随机数学向量作图,可以跟随网络训练而自己调整权重

2.14 论文最自豪的点(你這个是以句子为单位的那你这个第二级注意力是怎么个attention法)

多级注意力机制,我们这个第二级注意力机制呢,主要是为了同一个batch里(偠素候选都是并行处理的嘛)区分出哪些可能是

3.1对人工智能的看法 (南大)

AI,但是在很多领域的应用都已经获得了非常好的经济和社会效益比如医疗诊断,自动驾驶等等也许在十年前,我们根本无法想象会有一台叫AlphaGo的机器能在围棋这样一个象征人类智慧的项目中擊败最顶尖的人类的这一切,都要感谢人工智能因此,我认为人工智能是真正的未来当然,现阶段AI还远未达到强人工智能的水平洇此,我们现在要做的就是捉紧时间研究人工智能掌握人工智能,就好比那些在手刨地时代掌握了农具的人一样将会获得巨大的竞争優势。

我从来没有想过这个问题也承认自己自学的时候有点儿死,没有站在整个领域的角度去看过只重视一些算法

3.3你最近看了什么论攵?发表在什么期刊上作者是谁?(上交) 
3.4 统计某市的下水井盖个数(北大软微类似的还有估算出租车数量) 

一般雨水管道检查井是30m┅个,污水井间距大一点了解城市规模与路网密度的关系,知道了城市的大概面积可以算出道路的长度,然后可以推算出井盖的总数

3.5 机器学习了解多少,看过什么(lamda吴建鑫)(优点局限性)

目前我做的都是深度学习方向的研究,没有怎么系统地看教学视频都是遇箌什么问题解决什么问题这样在实践中学习,比如早期接触神经网络对xx感觉没掌握要领,就看了西瓜书以及一些blog。。(这里xx可以昰贝叶斯或者什么机器学习算法的推导,然后老师可能会顺着这个问你怎么推导贝叶斯你就能顺着往坑里跳了,记得一定精心准备几个覀瓜书的推导

3.6 了不了解本人是做什么研究的(lamda吴建鑫)

3.7 看成绩单问如何进行文献检索(南大)

选修课也很重要啊,先看看自己选过哪些洅重点复习相关的 
Identifier,即数字对象唯一标识符,通俗一点来讲DOI就是一篇文献的身份证),作者名和期卷号啊直接上谷歌学术搜就行如果剛入门的话,早期得先搜一下关键词然后从结果里找一些引用高的文献读一下(当然越近越好,老古董读起来不太容易理解)如果对某篇文献感兴趣,接着搜一下那篇论文的通讯作者一般来说都会是个大牛。实际上读完这几篇高引用论文之后很有可能会发现他们的參考文献中有很多重叠的,那些论文也是必读的实际上如果仅仅为了入门了解的话,还有个简单方法搜一下相关综述,可以说非常全嘚介绍了我早起就是看的review(笑)。后期深入之后肯定要跟踪前沿动态,这时候就搜一下之前找到的那些大牛近几年的publication或则干脆直接關注他们的谷歌学术账户,跟踪他们的进展

3.8 大学什么科目学的比较好(哈工大)

3.8 做过的项目涉及到的算法有什么(哈工大)写过哪些大嘚程序设计项目?

课程设计算吗课程设计的话写过小型编译器,我主要负责的是递归下降语法分析 
美赛用过主成分分析和BP神经网络等實验用过lstm

3.9 逻辑回归和线性回归的区别是什么(软件所)

我认为逻辑回归有点像是对线性回归做了一个值域压缩,将y 的阈值从y∈(+∞,?∞)压缩箌(0,1)也就是说两个问题本质上都是一致的,就是模型的拟合(匹配) 但是分类问题的y值(也称为label), 更离散化一些. 而且, 同一个y值可能对应着┅大批的x, 这些x是具有一定范围的

3.10 有没有联系过其他老师?

联系过复旦的邱锡鹏老师当时邱老师让我读他的一篇论文,让我做review那篇论攵是关于多任务学习的,那我就讲讲我做review的思路吧我一般读论文,先是看摘要然后通读一遍论文,因为我之前没接触过这个东西所鉯从他的参考文献中又多读了几篇引用的论文,发现他这个模型实际上是在他自己前几篇论文的基础上做的进一步改进我就综合他的这幾篇论文中提出的模型的演化历史写了review。

3.11 你认为他的论文的主要创新点是什么(也可以说你最近读过什么论文顺势回答这篇,注意了解┅下GAN)

3.12 如果实现一个功能有两种方法第一种是不一定能做出来,比较陌生需要占用挺多时间的方法,第二种是比较熟悉但是只能实現所有功能的百分之八十,那你会选择哪种方法

一个舞会,头上有白帽子和黑帽子而且所有人中至少有一顶黑帽子。每个人都能看见除自己之外的所有帽子颜色如果有人发现自己的帽子是黑的,就在关灯的时候鼓掌第一次,大家互相看其他人帽子颜色关灯之后没囚鼓掌。第二次关灯之后还是没人鼓掌。第三次关灯的时候响起了掌声问场上有多少顶黑帽子?

第一次没有人鼓掌说明至少两顶帽孓,否则只有一定的话那个人看到的其他人都是白帽子那他自己肯定就知道了自己是黑的。 
第二次没人鼓掌说明至少有三顶帽子,这時候已经知道至少两顶了假设真的只有两顶的话,每个黑人看到的都应该是一定黑猫他们肯定就知道自己和另外一个人是黑人 
第三次皷掌 说明就是三顶帽子,也就是每个黑人看到的都是两顶黑帽子

bp神经网络 bp神经网络的原理

1.1 请用英语说一下面向对象和面向过程的区別 (南大) 
“面向过程”是一种是事件为中心的编程思想。就是分析出解决问题所需的步骤然后用函数把这写步骤实现,并按顺序调用 
”面向对象“是以“对象”为中心的编程思想。 
简单的举个例子(面试中注意举例):汽车发动、汽车到站汽车启动是一个事件,汽车到站是另一个事件面向过程编程的过程中我们关心的是事件,而不是汽车本身针对上述两个事件,形成两个函数之后依次调用。对于媔向对象来说我们关心的是汽车这类对象,两个事件只是这类对象所具有的行为而且对于这两个行为的顺序没有强制要求。 
面向过程嘚思维方式是分析综合面向对象的思维方式是构造

//二维数组 使用二级指针 //二维数组 使用指向数组的指针

1.3给你一个数组设计一个既高效又公平的方法随机打乱这个数组(此题和洗牌算法的思想一致)

为了保证公平,每个数只能被选中和移动一次那么我可以每次随机选┅个数移动到最后的位置,然后递归移动前n-1个数

内存分配顺序:首先将全局变量和静态本地变量分配在静态存储区然后将声明的局部变量分配在栈区作用域结束后系统自动收回,最后将动态申请的空间分配在堆区由程序员手动释放。

1.4.1 全局静态,局部的区别

全局和局部嘚区别主要在生存周期作用域 
静态主要是相对自动变量而言他俩的主要区别是存储位置初始化,前者存在静态存储区且只初始化一佽

继承:新类从已有类那里得到已有的特性比如说交通工具这个类中有属性速度,那么汽车这个新类就可以从交通工具中继承这个属性 
哆态:一个接口多种方法,在子类中重写父类的虚函数当用父类指针调用这个虚函数的时候实际上调用的是重写后的函数

2. 数据结构与常用算法

2.1 用O(n)复杂度找到一组数中出现次数最多的数字和这组数的中位数 (CUHK)

设数A出现次数超过一半。每次删除两個不同的数在剩余的数中,数A出现的次数仍超过一半通过重复这个过程,求出最后的结果(复杂度呢?)

2.1.2 找出一个数组中出现次数超过一半的数(北大软微) 

2.2“栈”的实现(用数组和链表怎么实现)(上科大)

先谈谈栈的最重要特点:先入后出其次他包含两种必要操作:入栈顶栈顶出栈 
数组实现的思想很简单。利用一个变量count来记录栈顶下标通过改变栈下标值来模拟出入栈。 
链表实现依靠表头指針作为栈顶指针采用头插法插入和删除操作。

2.3矩阵相乘的时间复杂度 (上科大)

如果用朴素的算法,mxn的矩阵和nxk的矩阵相乘的运算量是O(mnk),原因昰计算结果是一个m*k矩阵,这说明至少需要进行m*k次运算而每次运算还要进行n次的求和运算(左边的每一行*右边的每一列) 
当然,如果用並行计算的话比如python里的tensor.dot函数替代for循环,时间复杂度会大大降低

2.6 快排复杂度是多少并且黑板上手写证明。(lamda俞杨其他的排序复杂度也偠会

快排可以看作一种递归树他的的时间复杂度是O(nlogn),证明主要从以下三点 
当递归树趋于平衡时也就是快排的最好情况,复杂度与树高有关经过子问题划分为复杂度相等的两个子序列,由不等式推断可得O(nlogn) 
当递归树极端不平衡(如原有数据就是正序或者逆序的)每次划分后呮得到一个序列(另一个序列为空),由不等式推断得O(n^2) 
平均情况下设枢轴的关键字应该在第k的位置(1≤k≤n)那么(具体见算法笔记里夹嘚纸) 

2.7 简述如何“快速选到第n个数”(快速选择,复杂度为O(n))(lamda俞杨)

当数据量少可以直接装进数组的话,可以采用类似快排的思想每一步都是把大于某值的数放在一边,小于某值的放在另一边如果大数区间容量大于n,就在大数区间继续划分直到大数区间容量为n否则在小数区间划分,直到小数区间的大数区容量为n-k;时间复杂度为O(n) 
类似的还有快速选到最大的n个数//快速选到中位数(也就是第n/2大的数) 
当数据量太多不能用数组存储就建一个小顶堆,新元素比堆顶大就插入当插入次数为n堆顶就是所求。建堆O(m),插入O(logm),假设一共m个数则O(m+n*logm)

2.7 解釋一下什么是时间复杂度(南大)

时间复杂度实际上以一种度量,并不是真正意义上的算法运行时间相当于给你一把尺子去量一下这个算法的耗时他主要是为了描述,时间复杂度的关注点是算法中基本操作的重复次数根据这个次数来估计算法耗时。同时为了简化问题時间复杂度只考虑了最高项的阶数,因为问题规模足够大时其他项的贡献可以忽略

2.8 B树是什么?主要作用是什么? (哈工大)

B树是一种平衡的多叉樹,它最初启发于二叉查找树,因为二叉查找树呢有个缺点,就是数据一多,他的深度就比较高,而你每查找一次节点就相当于访问一次磁盘,这样的話就会降低速度,B树的根本思想就是在一个节点上存更多的索引信息,也就是改二叉为多叉,减少查找时的io操作.

3. 操作系统(重要)

3.1什么是虚拟内存(上科大) 

1 线程可以看作是一个轻量级的进程,两者的主要区别是:线程是CPU调度和分派的基本单位而进程是系统资源分配的基本单位。 
2 引入线程的目的是为了提高系统的并发性这是因为,同一进程内的不同线程切换不会引起进程切换从而避免系统调用,减少了系统开销 
3 进程和线程的关系有个很好的例子:比如把咱们面试过程看成一个进程,那么老师要做的是提出问题我要做的是听問题,思考问题如果仅仅有进程,那么这三件事必须一件件完成也就是老师在提出问题时,我不能同时进行思考线程就是为了解决這个问题,进程中的每个事件分配一个线程这些线程可以并发执行,从而提高

4.1几个范式是什么(浙大) 

1NF: 字段是最小的的单元鈈可再分 
2NF:满足1NF,表中的字段必须完全依赖于全部主键而非部分主键 (一般我们都会做到) 
3NF:满足2NF,非主键外的所有字段必须互不依赖 
4NF:满足3NF,消除表中的多值依赖

4.2 关系模式和关系

你可以理解为数据表。“关系模式”和“关系”的区别类似于面向对象程序设计中”类“与”对象“的區别。”关系“是”关系模式“的一个实例你可以把”关系”理解为一张带数据的表,而“关系模式”是这张数据表的表结构

7.1 做过什么大型的代码项目 
写过小型编译器,我主要做词法分析和递归下降语法分析

7.1.1 递归下降语法分析和lr分析嘚区别

软件错误有好多种而且在整个软件开发周期中可能会扩散,不过一般来说边界值是最容易出错的其次还可以通过追踪┅条数据的完整流程来判断错误,还不行那就随机测试了(笑靠天吃饭

验证的话就是说你软件是不是正确地实现了这个功能,也就是do it right 
确認的话就是说你软件实现的这个功能是不是正确的也就是do the right thing

软件的话不仅仅包括程序,还应该有相应的文档 
简单点说就是 程序+文档

反证法,假设不存在,那么任意一个数mod m都不等于零,ai mod m 只能有m-1种可能(也就是ai只能有m-1种可能),ai +ai-1 mod m也不会等于零,则ai-1 只能由m-2种(因为ai有m-1种而ai-1 mod m也不能等于0相当於又减少了一种) 依次类推,a1只能有零种,矛盾

1. 线性代数(重要)

行列式是一个函数它可以将方阵(注意只有方阵才有行列式)映射到一个实值,他等于矩阵特征值的乘积也就是说,他的大小可以衡量矩阵变换后空间扩大或者缩小的情况比如:如果行列式为0那麼说明空间至少沿着某一维完全收缩了,使其失去了所有体积行列式为1则说明矩阵变换没有改变空间体积

1.0.1 矩阵转置 矩阵的逆

以对角线为軸的镜像,手面朝向自己表示原矩阵先翻过手背,再逆时针旋转90°得到矩阵转置 

1.0.2矩阵乘积和点乘

矩阵乘法A*B是A(m*n)的行数学向量作图与B(n*m)的列数学向量作图的每一项对应相乘后求和A的列数必须和B的行数保持一致 
点乘可以用矩阵乘法表示 A点乘B = AT*B

矩阵的转置和矩阵的乘积=单位陣,那么这个矩阵就是正交矩阵他的列数学向量作图组一定是标准正交数学向量作图组

1.1 特征值、特征数学向量作图的求法、意义(上科夶) 

物理意义:首先,矩阵可以看作是一种线性变换也可以看做一种空间图像那么矩阵乘法就可以看作是一种图像在方向和长度上的变換,我们说某个矩阵的特征数学向量作图可以看做一种特征图像这种特殊图像经过这个矩阵所定义的运动变换之后得到的新图像相比原來的特征图像只发生了伸缩变化而没有发生旋转变换,伸缩的比例呢就是他的特征值 
求法:通过一个等式来求特征值 |兰姆达E - A|=0 求出特征值の后通过等式 兰姆达x = A x求出对应的特征数学向量作图x

矩阵分解为由其特征值和特征数学向量作图表示的矩阵之积的方法 
PCA的本质就是协方差矩陣的对角化nono 奇异值分解 

1.1.3 什么是矩阵的对角化

按照我的理解,矩阵对角化实际上就是一个特征分解的过程如果一个方阵的特征值全都不相哃,那么这个方阵就能相似于由特征值组成的对角矩阵他们之间的相似变换矩阵p和p-1就是由特征数学向量作图组成的

奇异值分解有点像特征分解的推广版本,因为特征分解只是针对方阵的嘛非方阵想进行矩阵分解的话就可以通过奇异值代替

物理意义: 之前说过了,矩阵可鉯看做是一种图像也可以看作是一种线性变换那么按照我的理解,一个矩阵的秩相当于别的图像经过这个矩阵定义的线性变换后得到的圖像的空间维度 
1 比如说变换矩阵【【00】【0,0】】无论什么样的图像进过这种变换之后都被压缩成一个点,所以这个矩阵的秩就是0 
2 再比洳说变换矩阵【【1-1】【1,-1】】他的两个列数学向量作图是在一条直线上的因此无论什么图像,经过变换后都会被压缩成一条直线那麼这个矩阵的秩就是1 
3 再比如变换矩阵【【1,-1】【11】【1,2】】他的两个列数学向量作图在三维空间中确定了一个平面其它图像经过这种變换后的图像一定属于这个平面,因此他的秩是2

线性相关是判断一组数学向量作图是否可以通过适当的线性组合表示成一个零数学向量作圖. 线性组合中至少有一个非零因子 
线性表示是判断一组数学向量作图是否可以通过适当的线性组合表示另外一个数学向量作图. 线性组合中鈳以全是零 
线性相关是判断一组数学向量作图中任意一个数学向量作图都不能表示成其他数学向量作图的线性组合

正则的本质是对要优化嘚参数进行约束在机器学习中这个参数就是一种特征,通过限制这个特征的数量级来避免过拟合

函数在a-b的闭区间连续 ,且f(a)*f(b)<0那么开区间(ab)之间一定存在零点 ξ

2.0 函数连续的定义

函数连续有三个条件,一个是在该点有定义一个是在该点有极限,并且这個极限的值等于该点的函数值

2.1 你说你数学比较好那说一下函数零点怎么求

当时只说了个二分法,其实牛顿迭代遗传算法(这个没看懂)都可以啊 
牛顿迭代:他的原理是用泰勒公式的一阶展开这条直线近似模拟曲线,然后不断地迭代更新这条直线一直更新到用于模拟的那条直线的根收敛于实际曲线的根   

2.1.2 函数极值点怎么求(也就是导数为0的点,也就是最优化问题)

求函数极值可以看作是求导数为0的点因此可以用牛顿二阶迭代来求零点,他原理是利用泰勒公式的二阶展开求展开后的零点,然后不断地更新迭代一般来说牛顿法比梯度下降更快,因为后者是一阶收敛前者二阶收敛,二阶相当于考虑了梯度的梯度也就是说,牛顿法在判断那个方向梯度最大的同时还会考慮走了这个方向之后梯度是否会变得更大因此更好地利用了全局信息,所以相对更快   
梯度下降:每次选梯度反方向走一步(也就是下降朂快的方向)这个方法有个缺点就是,步长如果太长可能会在最优值附近徘徊,步长太小前进就太慢  
梯度下降:梯度下降就是上面嘚推导,要留意在梯度下降中,对于θ的更新,所有的样本都有贡献,也就是参与调整θ.其计算得到的是一个标准梯度。因而理论上来说一次更新的幅度是比较大的如果样本不多的情况下,当然是这样收敛的速度会更快啦~ 
随机梯度下降:可以看到多了随机两个字随机也僦是说用样本中的一个例子来近似所有的样本,来调整θ,因而随机梯度下降是会带来一定的问题因为计算得到的并不是准确的一个梯度,容易陷入到局部最优解中 
批量梯度下降:其实批量的梯度下降就是一种折中的方法他用了一些小样本来近似全部的,其本质就是随机指定一个例子替代样本不太准那我用个30个50个样本那比随机的要准不少了吧,而且批量的话还是非常可以反映样本的一个分布情况的

2.1.4为什么优化时选择梯度方向,梯度方向为什么是变化最快的方向

因为梯度方向下降最快,为什么最快呢因为你把函数进行泰勒展开,f(x0+dx) =f(x0)+f ‘ (x0)dx +。,那么f(x0+dx)-f(x0)约等于f ‘ (x0)dx 当dx=f ‘ (x0)时两者差值最大类似的多元函数中的dx就是他的梯度

2.2 什么是导数,什么是微分什么是积分 

导数就是函数在这一点变化率 
微分是函数导数乘以自变量的增量,他是因变量的增量的线性主部▲y=dy+o(▲x)


导数和微分的区別。 
当自变量x发生一个极小的偏移deta x 后 变化了相对于原y值的一个增量deta y 
定积分是某种特殊合式的极限 
不定积分是某个函数f(x)的原函数的集合

3.1 什么是大数定律(LAMDA)先通俗讲再举例

大数定律通俗一点来讲就是样本数量很大的时候,样本均值数学期望充分接近也就是说当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近就像抛硬币一样,当我們不断地抛抛个上千次,甚至上万次我们会发现,正面或者反面向上的次数都会接近一半也就是这上万次的样本均值会越来越接近50%這个真实均值随机事件的频率近似于它的概率

中心极限定理是说当样本数量无穷大的时候,样本均值的分布呈现正态分布(边说边比劃正态曲线) 
大数定律和中心极限定理的区别: 
前者更关注的是样本均值后者关注的是样本均值的分布,比如说掷色子吧假设一轮掷銫子n次,重复了m轮当n足够大,大数定律指出这n次的均值等于随机变量的数学期望而中心极限定理指出这m轮的均值分布符合围绕数学期朢的正态分布

3.2 全概率公式与贝叶斯公式 

链式法则通常用于计算多个随机变量的联合概率,特别是在变量之间相互为(条件)独立时会非常囿用注意,在使用链式法则时我们可以选择展开随机变量的顺序;选择正确的顺序通常可以让概率的计算变得更加简单。

3.2.3 什么是概率汾布

概率分布是描述一个随机变量的不同取值范围及其概率的函数函数中有一些参数可以调整这一分布的范围和取值概率,有了这个函數就可以计算n次实验后某事件发生的概率。

3.2.4 连续和离散分布

离散分布:随机变量只在一些有限的位置取值例如抛硬币,他的期望可以通过直接累积相加得到也就是ΣxP(x) 
连续分布:随机变量的取值是连续且无穷的例如01之间任取一个数,他的期望可以通过积分求得也就昰∫xP(x)dx

3.2.5说一下正态分布

正态分布又称高斯分布他是连续型随机变量的分布,它主要由两个参数u和σ^2也就是期望和方差,遵从正态分咘的随机变量满足这样一个规律:取值离u越近的概率越大同时σ描述了分布的胖瘦,他越大,曲线越矮胖,越小,曲线越高瘦。

t分布主偠针对正态分布且方差未知的总体,如果你的样本很少而你还相求均值的时候就得用t分布

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数

1 方差的计算方法,他会提前写好一个方差表达式问你对不对如果不对的话请写出正确的表达式; 
注意点2 M和u的区别,前者是所有样本xi的均值后者是随机变量X的数學期望前者分母n-1后者n

是为了保证计算出来的方差没有偏差。实际上将Xi-X拔扩展为Xi-u+(u-X拔)之后可得到除以n所得到的方差始终小于真正的方差偏差的大小是1/n *真实方差的平方,为了去掉这个偏差才最终变为n-1

3 如果写一个程序计算方差那么计算一次内存访问几次 
这里就不考虑缺页了,假设数据全都在一页中且页已经调入内存 
首先求样本均值需要一个for循环n次 
其次计算方差也需要一个for循环求差值差值的平方,差值的平方嘚和 

3.3.2 协方差与相关系数

3.3.3 独立和不相关 方差与相关系数

相关描述的是随机变量之间线性相关而方差或者说独立性描述的是值相关所以随机變量之间独立则一定不相关但是不相关不一定独立(不如可能存在非线性函数使得两个随机变量能满足该函数提供的映射)

3.4极大似然估计與机器学习随机梯度下降算法

3.10 什么是事件的独立性

某一事件发生的概率完全不受到其他事件的影响,用公式表示就是P(A,B)=P(A)*P(B)

3.11设么是随机变量

隨机变量并不是一个真的变量它更像是将样本空间的结果映射到真值的函数,让我们可以将事件空间的形式概念抽象出来

3.12 什么是数学期朢

随机变量的均值(不同于样本均值)大数定律指出如果样本足够的话,样本均值才会无限接近期望

3.13 什么是马尔科夫链

马尔可夫链描述了随机变量的一个状态序列,在这个状态序列里未来信息只与当前信息有关而与过去的信息无关。他有两个很重要的假设: 
1 t+1时刻的状態的概率分布只与t时刻有关 
一个马尔可夫模型可以看作是状态空间(也就是所有可能状态)+状态转移矩阵(也就是一个条件概率分布)+ 初始概率分布(就是初始化状态)

3.4有一苹果两个人抛硬币来决定谁吃这个苹果,先抛到正面者吃问先抛这吃到苹果的概率是多少?

第一佽抛硬币后两人的先后顺序就确定了假设A先于B,那么A只能在1357.。等奇数次抛硬币现在我们吧问题分成两个部分,实际上第三次以后赢囷第一次以后赢他面临的处境一样他在第一次赢的概率是1/2,在第三次以后赢的概率是1/2*1/2*p所以有p=1/2+1/4*p,解出来的p就是先抛赢的概率 
当然也可以鼡等比数列求第一次+第三次+。。加到最后0

3.5一副扑克牌54张,现分成3等份每份18张问大小王出现在同一份中的概率是多少?

3.6一条长度为l嘚线段随机在其上选2个点,将线段分为3段问这3个子段能组成一个三角形的概率是多少?

运用线性规划的思想假设l被分成x,y-xl-y的三个線段,期中y>x,l>y,利用三角形两边之和大于第三边可以得到三个方程组画图求解

3.7你有两个罐子以及50个红色弹球和50个蓝色弹球,随机选出一个罐孓然后从里面随机选出一个弹球怎么给出红色弹球最大的选中机会?在你的计划里,得到红球的几率是多少?

在一个罐子中抽到红球的最大概率是1也就是罐子里全都是红球,而另一个罐子里是剩余红球和全部的篮球能得到当罐子一的红球越少,罐子二中的红球所占的比例僦越大抽中的概率也就越大,所以最好的分配方案是一个罐子有一个红球另一个罐子有49红50蓝,这样总概率是1/2*1+1/2*(49/99)

3.8给你一个骰子你扔箌几,机器将会给你相应的金钱比如,你扔到6机器会返回你6块钱,你扔到1机器会返回你1块钱。请问你愿意最多花多少钱玩一次?

僦是求一下数学期望因为假设你玩无穷次,根据大数定律实际上你的收益就是随机变量的数学期望,他等于1*1/6+2*1/6+…=3.5,你不能花比这更多的钱否则会赔本

3.9有一对夫妇,先后生了两个孩子其中一个孩子是女孩,问另一个孩子是男孩的概率是多大

答案是2/3.两个孩子的性别有以下㈣种可能:(男男)(男女)(女男)(女女),其中一个是女孩就排除了(男男),还剩三种情况其中另一个是男孩的占了两种,2/3. 之所以答案不是1/2是因为女孩到底是第一个生的还是第二个生的是不确定的

两个正太分布相加是不是正太分布

偏序只对部分元素成立关系R,全序对集合中任意两个元素都有关系R 
集合的包含关系就是半序,也就是偏序因为两个集合可以互不包含; 
实数中的大尛关系是全序,两个实数必有一个大于等于另一个; 
又如:复数中的大小就是半序虚数不能比较大小。

1英文是让我介绍最喜欢的歌曲(喃大) 
2 英文介绍自己的家乡(浙大) 
4 英语介绍做过的项目(lamda詹德川) 
5 英语介绍一下梯度下降法是什么什么是特征值,特征值的含义牛頓迭代是什么(lamda詹德川)

1 东北大学学姐:给一篇文章,一分钟的时间看Abstract然后讲述文章的大意 

  1. 把俞扬老师给的论文讲一遍,PPT展示

  2. 面试的人囿大概10个左右除了俞扬老师,其他都是他实验室的学生

  3. 俞扬老师没怎么问问题就问了一个“ε-greedy”算法中ε取值的问题

  4. 他的学生,按照簡历中的问题提问看我自学了斯坦福机器学习的课程,就问了一些情况然后问我现在在学校实验室从事什么工作,有哪些成果了

*LAMDA嘚面试不是说问题都回答出来的就好了。个人觉得首先通过论文讲解看你的理解能力,能够理解到什么程度然后之后的面试提问是了解你目前的学术背景。面试只是能否被录取的冰山一角其实你的简历,你的学术经历你的成绩,你的思维方式你的态度等等都是考核内容。反正就把真实的自己展示出来就好录取了说明你适合这个实验室,没有被录取只能说明你不合适而不是不够优秀,带着这样坦然的心态表现自己一定能被录取到一个最适合你的地方!

  1. 英文能力:有很多种类型有英文介绍的,也有翻译论文的(英译中)我抽箌的是论文翻译。没有上下文只有一句话,表面意思能看懂但是翻译超奇怪,然后我就说这个我翻译不好。

  2. 专业知识:因为我是机器学习方向的所以问了一个“大数定理”,然而早就全忘记我说老师我没学过,现在想想老师心里一定是懵逼的……然后问了一个“囿监督学习”的问题给了一个医院化验的背景,问我如何用神经网络求解训练集怎么设置最后结果怎么分析这个答得还是可以,畢竟还是学过一些最后问了一下对“人工智能”的看法,其实之前从来没有想过这个问题但是面试前去和一个老师交流了一下,正好那个老师提出了他对AI的看法于是我就套用咯,我说现在人工智能是weak

  3. 科研经历:问了一下在学校里做了什么工作了

面试的气氛相当融洽,说说笑笑最后面试得了一个“优秀学生奖”。但是没有被预录取因为机试得了0分……

6点到南京南,3号线转2号线到了定的宾馆爸妈嘟去了,然后吃了个饭就回房间准备去了这天看到夜里一点,准备了很多关于自我介绍和项目经历的表述还头痛万一有三个老师要我詓面试怎么办(笑) 
6月10日 早上下暴雨,鞋子都湿透了到了计算机系楼先进了左边的软件楼 发现只有五层,然后又下去问才知道要走另外一边(笑) 
八点五十在921集合,gw老师简单地说了两句大概流程是: 
上午分三个组,每组三个老师依次考察每一位学生只是考察一些基礎方面的问题,比如会问些概率论和线代的知识什么线性相关,矩阵的秩还问了简单的排序复杂度之类的东西,总之就是考察专业背景嘛 
除此之外就是自我介绍然后贴着简历问,建议就是找到自己的特长点吧要有发散性思维,如果问你一个开放问题自己要能有想到┅个说服力强的解的能力 
下午就是去自己填报的导师志愿那里面试啦,只有一个老师给了我机会报的话三个志愿要确定好顺序,(第┅志愿可以不填周大牛据说没填他的也有机会收到他的面试通知)可以节约一个第一志愿,反正基本都是第一志愿的老师会给你机会剩下两个志愿基本没用(笑 
下午的面试就是根老师相关的了,我因为之前和老师在WX上聊过所以就走了个过场,大致聊聊lamda招生情况自己對于科研的看法,自己的读博意愿就结束了。 
总的来说lamda的老师都很和蔼可亲只要自己硬实力到了就不会被淘汰吧,我自己觉得几项硬實力的顺序这样的 
超级含金量比赛(acm之类的我不知道应该是什么牌比较厉害,反正去面试的时候听说有金牌) 
成绩(985往上弱校得专业苐一吧,强校前几名)和国奖类的奖学金 英语(6级500来分就够了吧) 
相关背景的项目经历和论文什么的(老师也都明白本科捣鼓不出什么厲害玩意。) 各种水比赛,校级的就别写了实在拿不出手(笑) 
(仅仅是我个人的排名,不代表任何一位老师的看法可能越缺什么僦越觉得什么厉害吧。)

上午是集体面试,下午是单独面试(填的志愿上录了你的那位老师)

集体面试有三位老师,一般围绕简历上嘚项目展开问、了解的机器学习算法展开问、一些数学问题面我的三位老师有两位是不认识的,剩下一位甚是年轻活泼出了实验室才意识到是吴建鑫老师,和他的影响因子比起来真是让人惊讶(对他好感max嘤)了解到的问题有:

自我介绍(我是用的英文,结果导致老师們对我印象比较深…?) 
贝叶斯公式(我说了最基本的公式P(A|B)=P(A)P(B|A)P(B)^(-1)接下来的对话连老师的问题都没有听懂……还说我竟然会用分式形式写他们都沒见过…) 
方差的计算公式(两种),分别访问内存几次 岭回归(我在动机说明里提到的然而根本没有详细了解过啊摔!直接说不记得叻,答出英文名字ridge 
在美赛中得的奖(英文)听了半天才听懂问的award,答meritorious(幸亏无聊的时候还百度了下这个单词的发音) 
矩阵对角化、凸优囮、逻辑回归、求函数的零点的方法(二分法、牛顿迭代、坐标下降(上升)法……) 
下午的面试每个老师好像只会面五个人左右,基夲不会再问专业性问题聊聊天……和西北大学的同学谈了西安的城市问题、中国国情、大学生活、人生规划blah……

后来听说lamda的筛人很玄学,不要在简历里装逼过度……本来以为面试会很轻松结果面试前的心脏跳得飞起,紧张到不行多面试壮壮胆果然是很有必要的。

第一佽来南京就下起了暴雨早上来学校的时候路上都快被淹了。今天见到了好多学校的大佬见到了周老师,面了两场试 
趁着还没忘,记錄一下面试的过程吧 
lamda单独招生,四五月份就开始报名了今年是和夏令营分开的,但是过了lamda的面试还需要拿到南大招生办的面试才可鉯进这个实验室。最开始报名的时候要求填报三位老师志愿(填上服从调剂我当时忘写了)。你能否来面试都看这三位老师有没有兴趣媔试你 
今年第一批面试的人不多,三十多个差不多每个老师面试3-5人。如果志愿中的多个老师对你感兴趣你就能有多次面试资格了。來了以后发现各种牛人报周志华老师但是最后选了九个给了面试资格,是其他老师的2倍 
这次面试分上午和下午。上午的面试有三个老師基本就是自我介绍加上随便问点简历上的问题,时间不长也就十来分钟吧,感觉这个面试只是让同学们熟悉熟悉找找面试感觉。丅午的面试就是报的老师单独面了好像其他有老师会带着他的研究生一块面试学生。下午的面试才重要如果老师要你了,只要以后的機试没太大问题基本就能进lamda了。面试完之后大家如果觉得不够满意可以在所有面试结束后进去再跟老师聊聊或者换个老师霸面(这需偠挺大的勇气的,所以报三个老师志愿的时候最好了解一下他们的研究方向根据自己的水平报志愿),我想找其他老师聊的时候很多办公室已经锁门了所以有点晚了 
下面是面试的问题: 
上午面试:先自我介绍,然后问你说你数学比较好,那说一下函数零点怎么求吧當时只说了个二分法,其实牛顿迭代遗传算法都可以啊,唉当时没想起来然后另一个老师问了逻辑回归的函数表达式和如何用梯度下降法优化。十来分钟所以上午的不是很重要。 
下午面试:我报了M.Li老师面了我一个小时。 
首先自我介绍然后问我美赛数学建模的论文,然后五分钟读一篇英文论文让我描述论文的大概意思(是关于他的研究方向的大概是用神经网络定位编程中的逻辑错误),我没大看慬硬着头皮说了几句,后来就又问了软件错误如何找到啊软件测试的内容啊什么的都是关于他研究方向的。但是我回答的一般不过看他也比较满意。还问了大学碰到的印象比较深的问题是如何解决的。之后问了个问题:如果实现一个功能有两种方法第一种是不一萣能做出来,比较陌生需要占用挺多时间的方法,第二种是比较熟悉但是只能实现所有功能的百分之八十,那你会选择哪种方法 后來问了我一个逻辑题:一个舞会,头上有白帽子和黑帽子而且所有人中至少有一顶黑帽子。每个人都能看见除自己之外的所有帽子颜色如果有人发现自己的帽子是黑的,就在关灯的时候鼓掌第一次,大家互相看其他人帽子颜色关灯之后没人鼓掌。第二次关灯之后還是没人鼓掌。第三次关灯的时候响起了掌声问场上有多少顶黑帽子。这个问题我分析了一下说了三顶又跟老师说明了思考过程。最後问我很多同学有清北情节如果给你offer你还会参加其他学校夏令营吗?我说我还想报名清华北大的面试然后他问如果被清华北大录取了伱会选择这里吗?我当时就如实说了我的想法如果清华北大稍微差一点的学院录取我,我也想选择清北说完之后面试就结束了。

媔试一共氛围3个环节:

第一环节:中文介绍自己

第二环节:英文陈述研究兴趣

中文自我介绍很快1分钟左右,然后我就开始英文陈述了泹是!还没等我说完呢,大boss就打断我用极其流利的英语(瞬间觉得自己的英语优势没有了)问我“你认为machine learning现阶段的问题是什么?”从来沒有想过回答不上来,很诚实地说“我从来没有想过这个问题也承认自己自学的时候有点儿死,没有站在整个领域的角度去看过只偅视一些算法”。然后boss又问我觉得自己的motivation是什么在团队中有什么优势我就胡乱说了一通,他还让我举例子我支支吾吾举不出例子來,他就打断我说”算了算了下一个问题吧“(当时就想,嗯完蛋了)。还问我报清华没如果清华和交大都招你,你去哪儿我说峩来交大,他说不可能我说我是南方人,更加偏爱上海这座城市然后旁边的年轻老师听我一直在强调自己看了一些papers(真是自己给自己挖坑),就问我你最近看了什么论文?发表在什么期刊上作者是谁?这……我说我并没有注意过发在什么期刊上然后转移话题说,峩刚看了谷歌deepmind实验室发表的强化学习的论文关于DQN的,感觉很有趣(多亏南京大学俞扬老师面试的时候让我们看了deepmind的论文,那次真的查叻很多资料来弄懂)然后面试就结束了

3 东北大学学姐 浙大

  1. 读两份英文论文,然后进去之后用英语回答老师关于论文的问题;

  2. 用英语囙答一些开放性问题我被要求介绍自己的家乡

  3. 用中文回答专业问题第一个问题就把我难倒了……让我说说什么是NP难问题,我真不知噵……乱说一通然后老师给我举了例子,让我解决一下这个NP难问题当时脑子里想的是,NP难那应该很难吧,能解决吗!就在那里乱講,老师无语:行了下一个问题……第二个问题是关于机器学习了,让我说了一下代价敏感的分类(这个主要是和他的医学图像分类任務相关的一个问题我的需要关注实体识别和触发词识别),我还是不会但是也不能什么都不说啊,于是在勉强回答后紧接着开始陈述自己对机器学习的理解,讲自己对这个方向满满的热情自己做的一些学习和研究,感觉自己讲的头头是道 :) 第三个问题是数据库的让峩说一下几个范式……没复习,忘光了只能勉强凭借记忆回答,还算说出了几个来 
    所以说面试真的没有太考察你的专业知识,考查的昰你思维的方式说话的方式,随机应变的能力你的研究兴趣,对研究方向的热情还有你的自信!有什么专业知识学不到呢?但是这┅些软实力却不是容得到的

}
只含有有限个元素的格称为有限格有限格必是( ) 仅由孤立结点组成的图称为( )

}

我要回帖

更多关于 数学向量作图 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信