来自于“师徒网” 刘鹏的讲课
规模:用户上亿网页百万千万的量级
统计机器学习中大多数用的都是以上两种分布。来自于最大熵模型最大熵模型在满足一定假设上,汾布为指数族分布
指数族分布工业上的好处在于充分统计量大小和参数的空间复杂度成正比,和数据无关也就是说,在数据上加工出充分统计量后数据可以放弃,和数据没有联系运算可以限制到内存中。又提到了(PRML)这本书看了一点,还是要坚持呀!
反馈是使用EM算法中需要的
如果不是指数或混合的那么梯度族的方法解决,mapper(收集梯度)reduce(加起来迭代处理)
但是也有问题,比如需要迭代的话會反复访问数据,速度就会比较慢所以有些反而使用MPI效果好,但是对于特别大量的数据为了保护数据的有效性,要减少节点通信
据说這个不好用据说阿兹卡班用起来效果不错。