想去百度实习,机器学习,数据挖掘和机器学习区别岗,需要哪些知识储备

查看: 13774|回复: 6
2014百度机器学习/数据挖掘方向校园招聘笔试题
精华主题学分
中级农民-加分请看右边栏-多参与|分享|记录|反馈, 积分 264, 距离下一级还需 236 积分
在线时间 小时
注册一亩三分地论坛,查看更多干货!
才可以下载或查看,没有帐号?
&&好吧,我必须承认我不是吃这碗饭的人,今天在中南大学考试被百度暴虐,像我这个伪程序员平时不怎么写代码,宁愿把写码的时间花在外出去玩搞社交上,程序思维真跟不上了。。。。。。
&&一简答题(30分每题10分)
1.动态链接库和静态链接库优缺点。
2.轮询调度和抢占式调度的区别
3.N折交叉验证的思想
二算法题(45分,每题15)
1.给个正整数,求比它大的最小不重复数,不重复意味相邻数位不相同,即“1101”是重复数,“1234”是不重复数。
2.长度为N的字符串,求最长回文串
3.数轴上有点a[0],a[1].....a[n-1],给个长度为L的绳子,问绳子能在数轴上覆盖多长。
三.函数题(25分)
给了函数模型,1问求解这个函数模型的损失量,2问要你改进这个函数。(函数记不起来了)
&&再简单说下笔试情况,一个考场坐100多人,一个考场除了数据挖掘的(我们考场有19人考这个)还有产品运营,PC端开发的(看了下他们的卷子,主要考C++知识)还有移动开发的,大家一起考,但卷子不一样。
&&考生主要是湖南大学,中南大学,长沙理工大学占多数。
&&还看到国防科技大学的,怒啊!军校的也来抢饭碗啊,党和国家怎么教育你的啊。。。。。。还有林科大的,商学院的,湖南工业大学的占少数
<p id="rate_706" onmouseover="showTip(this)" tip="感谢分享!&大米 + 2 升
" class="mtn mbn">
<p id="rate_30" onmouseover="showTip(this)" tip="欢迎来介绍你知道的情况&大米 + 60 升
" class="mtn mbn">
<p id="rate_92" onmouseover="showTip(this)" tip="&大米 + 60 升
" class="mtn mbn">
<p id="rate_78" onmouseover="showTip(this)" tip="感谢分享!&大米 + 5 升
" class="mtn mbn">
精华主题学分
在线时间 小时
谢谢楼主了 收藏了~
精华主题学分
在线时间 小时
看到长沙理工大了,当年简历过不了,难倒都是霸笔的..
精华主题学分
在线时间 小时
目测没做过类似的题 。。
精华主题学分
在线时间 小时
谢谢楼主了。
精华主题学分
在线时间 小时
算法题不难, 前三题不会
精华主题学分
在线时间 小时
dynamic: 省binary space和memory,整个system只运行一个 copy。坏处是必须发布binary必须确定系统里有兼容的lib。
static 好处是 portable (self-contained),坏处是binary size略大。
轮询就是scheduler顺序运行每个process,但可能会发生资源不均的情况,比如有些 process 每次 context switch 后需要 work 的时间长,轮询时间不好就无法完成;并且可能死锁。抢占就是允许进程打断另外进程运行,好处是可能可以解决死锁,但是被有可能process经常被抢占而完全无法工作。
3. 为了有效评估算法的准确度,避免 overfitting,因为有可能你的classification算法对某一个training set partition表现特别好。
1. 为什么 不是 1203?
2. 经典问题,有 O(n) 算法
3. 如果没理解错,给a排序后用 greedy ?
Loss function? 不明白什么叫改进这个函数,maybe you mean choose a better loss function?
<form method="post" autocomplete="off" id="fastpostform" action="forum.php?mod=post&action=reply&fid=84&tid=72814&extra=&replysubmit=yes&infloat=yes&handlekey=fastpost"
onSubmit="
// TODO Howard 11/3/2015
var sbtn = $('fastpostsubmit');
sbtn.disabled =
sbtn.innerHTML = ' 回复发表中... ';
sbtn.setAttribute('background', sbtn.style.background);
sbtn.setAttribute('bordercolor', sbtn.style.borderColor);
sbtn.style.background = '#C7C7C7';
sbtn.style.borderColor = '#8B8B8B';
var form =
// --product--
var isValid = fastpostvalidate(form, null, 0);
if(!isValid) reoverBtn();
return isV
// --product--
// --testing--
//setTimeout(function() {
// var isValid = fastpostvalidate(form, null, 0);
// if(!isValid) reoverBtn();
//}, 2000);
// --testing--
您需要登录后才可以回帖
回帖并转播
回帖后跳转到最后一页
一亩三分地推荐 /5
地主Warald亲手做你的申请,针对你的背景和目标,考虑申请、学习、就业、移民等系列问题,制定申请策略。
“offer”指全额奖学金,免学费全免+每月工资,Berkeley, CMU, JHU, UIUC, Gatech, UMich, UCLA, Columbia,欢迎观赏。
电子工程、计算机、统计、金数金工、化工等, Stanford, Berkeley, CMU, Cornell, Yale, Columbia, Chicago, Duke, UPenn, UIUC, Brown, UMich, JHU等
有留学、申请、找工、职业规划上的难题?先上论坛提问!
论坛考古也帮不上忙,发帖得到的回答仍然不够?电话找Warald来解答!
WARALD新书上市啦:《你不知道的美国留学》清华大学出版社,各大电商发售
Powered by当前位置: &
& [北京]百度招聘机器学习|自然语言处理|数据挖掘实习生
[北京]百度招聘机器学习|自然语言处理|数据挖掘实习生
专业标签:
发信人: happyfez123 (fenfen), 信区: Intern标
题: 【百度 实习】机器学习/自然语言处理/数据挖掘发信站: 水木社区 (Fri Jul 22 15:36:49 2016), 站内关于我们:
负责百度诚信生态体系策略,百度加V认证、权益保障、百度口碑等相关策略。在这里实习生和正式员工同样培养,实习生同样可以负责核心项目,充分体现自己的价值,深刻感受百度的技术氛围。主要工作:
1)独立进行一般的数据统计和预处理
2)在算法工程师的指导下,进行领域数据抽取、标签体系建立、模型开发、模型优化、算法评估等工作
3)对百度的海量业务数据进行分析,调研符合业务需求的策略解决方案 我们需要:
-***首先要求你积极主动、努力好学,因为技术不好;可以学,态度不好,没法教。
-计算机及计算机相关专业,本科或以上在校学生
-优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情
语言编程,熟悉linux平台、python编程 ,对数据结构和算法设计有较为深刻的理解
-具有良好的沟通能力,和良好的合作精神
-有很强的分析问题和解决问题的能力
-每周工作5天,实习期至少半年以上
-加分项:了解 机器学习/数据挖掘/信息检索/自然语言处理/文本分类与聚类/统计数学 某一方面基本算法,掌握至少一个算法,有算法实现和应用经验尤佳 我们提供:
百度各种技术架构的学习。
一对一导师。新人入职,都有专门导师指导。 薪水待遇:
百度实习生统一标准待遇,无差别
联系我们:
如果您对该工作岗位有意向的话,请与我联系。
邮箱:,邮件主题:实习生-专业-一周能保证的实习天数-毕业时间-姓名 (如:实习生-软件工程-5-2017-张XX) 。
职位专业分类:
相关专业最新招聘信息
热门招聘信息
     
     百度数据挖掘机器学习实习生面试经验 - 职业圈
数据挖掘机器学习实习生面试经验(上海) - 百度 发布时间: 08:56:04 来源:职业圈
面试过程: 笔试后很久一天晚上都准备关机睡觉了接到面试电话,第二天赶到酒店参加面试,去的时候还早冒冒失失的进去了后来让在外面等,面的过程还算顺利。又过了几天通知电话面试,刚好那天和同学出去吃饭回来的路上就接到电话,后那面试官说不方便的话等会再打过来,差不多过了两小时打过了了,这次电话面试考的算法很难回答的不好,面完就感觉没希望了 面试官问的问题:
… 面试相关细节(职业圈独家调查):
你是通过何种渠道获得这次面试机会的?答:校园招聘 整个面试花费了多长时间?(从接到面试消息到得到结果)答:14天 面试形式包括哪些?答:电话面试
1对1面试 你觉得这次面试的难度如何?答:难度一般 你对这次面试的整体感觉怎么样?答:一般 这次面试的结果如何?答:
看过此面试的人还看过
实习生面试: 1对1面试
HR主管面试: 职业技能测试
实习生面试: 电话面试
物料工程面试: 电话面试
单证员面试: 1对1面试
SE面试: 1对1面试
职业技能测试
客服面试: 群面
机械制造面试: 群面
很好,有帮助
添加评论...
还需查看更多信息?
相关公司面试经验
最新面试信息我面试过5-6家互联网公司的数据挖掘和分析、机器学习相关职位的工程师。被问到
SVM的原理,SVM里面的核
K-means,如何用hadoop实现k-means
naive bayes和logistic regression的区别
LDA的原理和推导
做广告点击率预测,用哪些数据什么算法
推荐系统的算法中最近邻和矩阵分解各自适用场景
用户流失率预测怎么做
一个游戏的设计过程中该收集什么数据
如何从登陆日志中挖掘尽可能多的信息
我非常后悔的一点是我现在才想起来总结。这些问题的特点是很基础很简单。另一个特点是注重考查实际工程能力,我经常被问到自己实现了哪些算法。还有的问题很契合实际。
我觉得如果现在再给我机会,我会准备下面几点。
首先是计算机基础知识和算法,这些都是会正常考察的。有些公司考的少,有些公司正常考察。
针对机器学习这部分,需要理论扎实,还需要自己动手实现代码。另外hadoop,mpi,最近比较火的spark,应该都是加分项。
另一个是接触下实际的数据分析系统。我在学校里面看的论文,都是讲算法的多,讲应用系统的少。这个可以靠之前的实习,也可以看些比较实用的论文
回复时间: 13:57:56
1. 理论方面,我推荐最经典的一本书《统计学习方法》,统计学习的核心步骤:模型、策略、算法,你应当对logistic、SVM、决策树、KNN及各种聚类方法有深刻的理解。能够随手写出这些算法的核心递归步的伪代码以及他们优化的函数表达式和对偶问题形式。 非统计学习我不太懂,做过复杂网络,但是这个比较深,面试可能很难考到。 数学知识方面,你应当深刻理解矩阵的各种变换,尤其是特征值相关的知识
2. 工程实现能力与编码水平 机器学习从工程实现一般来讲都是某种数据结构上的搜索问题。你应当深刻理解在1中列出的各种算法对应应该采用的数据结构和对应的搜索方法。一般来说要么你会写C,而且会用MPI,要么你懂Hadoop,工程上基本都是在这两个平台实现。实在不济你也学个python吧。
3. 非常令人失望地告诉你尽管机器学习主要会考察1和2 但是实际工作中,算法的先进性对真正业务结果的影响,大概不到30%。如果你做过实际的项目,一定要主动说出来,主动让面试官知道,这才是最大最大的加分项目
1.基本的Model要懂
Kmeans必须懂 KNN懂原理不用写 SVM、MR和Pagerank多看看,遇到问题多用这些方法讨论(不关乎信仰,面试官都懂)
2.高层次的Model是关乎信仰的,不需要浪费时间在上面
比如LDA。以前信贝爷,觉得高大上。做过才知道坑有多深,出paper搞点黑数据可以,真正业界要用效果甚不稳定。HMM可以做语句分析优化,别的地方用也不显著。绝大多数时候搞个word net,做个tf idf就足够了,不行自己再加些hardcode,效果也比所谓的model好,性能也高
另一说就是面试官不期望你懂这么高级的模型,就跟他们不能因为你不会拉小提琴而觉得你智商不够把你拒掉一样
抛砖引玉,在读硕士,半个月前去面了某公司机器学习intern铩羽而归了
首先介绍自己的研究经历
我面的推荐,问了各类协同过滤的好与坏
然后我说我做过LDA,问我,Dirichlet Distribution的定义和性质,并问我,为什么它和multinomial distribution是共轭的,顺便问了我啥叫共轭分布
问了一个很有意思的问题,现实应用中的Top-N推荐问题和学术研究中的评分预测问题之间有什么不同
问我ItemCF的工程实现,面对大数据如何实现,又追问了有没有什么工程优化算法。这个问题我没答好,一开始我说了一个MapReduce模型,他问能不能更快一点,我就卡那了。。。最后面试官告诉我,不能只从算法角度分析,要从系统设计分析,利用内存来减小MapReduce的吞吐量
最后考了我一个基本概念,什么叫判别模型什么叫生成模型
回忆以前有一个去百度做广告业务的师兄分享的面试经历,记得没问什么高深算法,马尔科夫系列?
所以个人认为,机器学习工程师的核心还是在于工程师的能力,实际应用的问题分析能力和算法的实现能力很重要。机器学习的算法并不是重点
看了一下各位回答,我要去面试妥妥跪了。。。借用一下F大神当年的一句话,原话记不得,大概意思是熟练工一天做完的,我们可能需要三天。但是我们一年做完的,熟练工永远做不完。以上各位答主都是在招熟练工吧。。。
1. 基本的Model要懂
Kmeans必须懂 KNN懂原理不用写 SVM、MR和Pagerank多看看,遇到问题多用这些方法讨论
2. 高层次的Model是关乎信仰的,不需要浪费时间在上面
比如LDA。以前信贝爷,觉得高大上。做过才知道坑有多深,出paper搞点黑数据可以,真正业界要用效果甚不稳定。HMM可以做语句分析优化,别的地方用也不显著。绝大多数时候搞个word net,做个tf idf就足够了,不行自己再加些hardcode,效果也比所谓的model好,性能也高。
另一说就是面试官不期望你懂这么高级的模型,就跟他们不能因为你不会拉小提琴而觉得你智商不够把你拒掉一样。
3. 人品、自信、反客为主的面试思路
以我的个人经历,不懂但人品好就拿到了Offer,懂但人品不好就拿不到Offer
个人比较成功的面筋是看好面试官的cd间隔放大招:比如看简历沉没的时候主动说high light一下,有条件就把线上的project拿出来秀;代码写完主动说说能有什么改进思路,把面试官拐跑,就不会被他带到挖好的坑上来了
4. 数据敏感性
比如预估数据规模和运行时间
提供合肥每日最新职位,
,找工作找人才就应该报名
服务热线:2想去百度实习,机器学习、数据挖掘岗,需要哪些知识储备? - 知乎299被浏览19299分享邀请回答1添加评论分享收藏感谢收起53 条评论分享收藏感谢收起查看更多回答2 个回答被折叠()}

我要回帖

更多关于 数据挖掘实用机器学习技术 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信