想要快速的搭建高性能机器学习平台搭建系统，企业应该怎么干

点击联系发帖人 时间：2017-07-24 01:50

机器学习平台搭建

想要快速的搭建高性能机器学习系统，企业应该怎么干？
来源：雷锋网
作者：小式
　　雷锋网（公众号：雷锋网）按：本文为「范式大学系列课程」。　　　　亚马逊目前的运维水平成为行业标准，但凡有公司要自己搭建 OpenStack，先要回答一个问题：OpenStack 比亚马逊云的优势是什么？　　对于机器学习来说，公司要自己搭建机器学习系统，也可以先问一个问题：需要多长时间和多少钱，才能达到行业领先的性能？　　要知道，时间成本 + 丧失的（,,）是无价的。　　我们来算算这笔账。　　1、时间自建机器学习系统，大概有这么几步：　　步骤 1：招聘机器学习团队的 Leader，2 个月　　步骤 2：搭建机器学习团队，2 个月　　步骤 3：前期业务调研，2 个月　　步骤 4：前期技术调研，2 个月　　步骤 5：数据采集相关开发和数据积累，0.5 个月　　步骤 6：数据分析处理，1 个月　　步骤 7：模型调研，0.5 个月　　步骤 8：线上系统开发，0.5 个月　　步骤 9：a/b测试和模型优化，0.5 个月　　合计：11 个月　　这是相对较快的时间表，如果在哪个环节踩到坑，拖延的时间就没法计算了。　　如果要减少时间，关键是什么？　　专业化分工 + 专注核心环节。　　实际上，真正需要自己做的是数据采集、模型调研和模型优化，在专业化工具的帮助下，这些环节可以缩短到 1 个月。而其他 10 个月时间的工作，已经有专业化工具可以替代，沟通和实施时间可以缩短到 0.5 个月。　　这样就从原来的 11 个月，变成了 1.5 个月。　　2、钱机器学习系统的投入，一般是这样的：　　1000 万行/天的数据规模，机器学习系统一年的支出是 944 万。　　如果要减少投入，关键是什么？　　专业化分工 + 专注核心环节。　　通过使用机器学习平台，上面的投入会变成这样。　　10 台线上机器和 20 台线下机器，企业在购买时是按照峰值数据量配备的，但机器实际运转的时间，往往只有 1/8，即每天运行 3 小时。剩下的 7/8 是浪费的。另外，开源机器学习框架对资源利用效率低，又是一大块资源浪费。　　所以原本需要 10 台线上机器和 20 台线下机器，通过机器学习平台只需要 2 台线上机器和 4 台线下机器，节约了 240 万。　　在人员投入上，30 台的机器需要配备 1 个带头人、3 个研发、1 个测试、1 个运维、1 个机器学习专家和 1 个业务专家，但如果采用机器学习平台，在专业化工具的帮助下，企业只需要 0.5 个机器学习专家和 0.5 个业务专家。　　通过使用机器学习平台，企业的人力成本可以节约 588 万。　　另外，机器学习平台的思路可以实现 1.5 个月上线，如果全部自己做则需要 11 个月甚至更久。如果错过了抢占市场的期，损失就是巨大了。对于一个 1000 万行数据规模的公司来说，我们假定 9.5 个月延迟的损失是 5000 万。　　所以我们得到了两个数字：　　如果不考虑时间的机会成本，采用机器学习平台的成本是自建系统成本的 12.3%。　　如果考虑时间的机会成本（5000 万），采用机器学习平台的成本是自建系统成本的 2%。　　3、机器学习系统机器学习系统的性能有 3 个要素：　　Max AUC：模型能达到最好的效果，好比山的高度　　Actual AUC：实际上线模型的效果，好比爬到多高　　Time：模型训练和预测所需要的时间，好比多久爬到这个高度　　如果自己搭建机器学习系统，首先遇到的瓶颈一般是数据处理能力。　　对于大部分机器学习团队来说，他们一般可以处理几十万规模的数据量，但如果数据规模超过 10 亿，那么即便是简单的逻辑回归模型，也会变成一个非常困难的问题。　　为了迁就不足的计算能力，一般会做的事情是减少特征数量和样本数量，这样才能在业务需要的时间内把模型训练出来。　　但这样会造成很不好的结果，Max AUC 因为特征和样本数量减少而降低，Actual AUC 因为 Max AUC 和计算能力不足而降低，Time 因为计算能力不足而增加，最终整个系统的能力就会遇到瓶颈。　　如果要提升性能，关键是什么？　　专业化分工 + 专注核心环节。　　大规模机器学习的计算框架是一件非常难的事情，因为它不仅需要处理亿万规模的数据，而且要符合机器学习的规则。能做大规模机器学习计算框架的人全国都屈指可数，基本集中在百度、、腾讯以及少数的创业公司。　　所以对于公司来说，与其死啃大规模机器学习的计算框架，反而不如购买第三方的专业服务（这就好比你不会自己开发芯片）。而当计算能力充足的时候，公司就可以专注自己的核心环节，把特征的维度做上去，把数据的规模做上去，把数据和业务的结合做的更清晰。　　这样公司机器学习系统的性能，例如在业务需要的时间内获得的 AUC 才能提升上去。　　4、总结总的来说，公司要做机器学习，应该采取专业化分工 + 专注核心环节的方式，具体如下：　　专业化分工完成和辅助完成的：前期业务调研、前期技术调研、数据处理、模型调研、模型优化、模型上线、大规模机器学习计算框架、线下机器、线上机器、运维、大部分的工程投入。　　公司专注完成的环节：业务问题定义、数据采集、特征扩充、模型调研。　　这样，只需要 1.5 个月的时间，大约 10%（2%）的成本，不仅获得了高性能的机器学习系统，而且能带来实际业务效果的提升，让机器学习能力真正转变为市场竞争力。　　（完）　　TensorFlow & 神经网络算法高级应用班” 要开课啦！　　从初级到高级，理论 + 实战，一站式深度了解 TensorFlow！　　本课程面向深度学习开发者，讲授如何利用 TensorFlow 解决图像识别、文本分析等具体问题。课程跨度为 10 周，将从 TensorFlow 的原理与基础实战技巧开始，一步步教授学员如何在 TensorFlow 上搭建 CNN、自编码、RNN、GAN 等模型，并最终掌握一整套基于 TensorFlow 做深度学习开发的专业技能。　　两名授课老师佟达、白发川身为 ThoughtWorks 的资深技术专家，具有丰富的平台搭建、深度学习系统开发项目经验。　　时间：每周二、四晚 20：00-21：00　　开课时长：总学时 20 小时，分 10 周完成，每周 2 次，每次 1 小时　　线上授课地址：http://www.mooc.ai/　　雷锋网特约稿件，未经授权禁止转载。详情见转载须知。
责任编辑：Robot&RF13015
机会早知道
已有&0&条评论
最近访问股
以下为您的最近访问股
<span class="mh-title"
style="color: #小时点击排行您正在使用IE低版浏览器，为了您的雷锋网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器
发私信给小式
导语：雷锋网按：本文为「范式大学系列课程」。亚马逊目前的运维水平成为行业标准，但凡有公司要自己搭建 OpenStack，先要回答一个问题：OpenStack 比亚马逊
同步到新浪微博
企业如何实现 AI 转型？请持续跟踪小式~
更多内容：知乎搜索“第四范式”
当月热门文章
为了您的账户安全，请
您的邮箱还未验证,完成可获20积分哟！
您的账号已经绑定，现在您可以以方便用邮箱登录
请填写申请人资料您的位置：
如何使用 Kafka 在生产环境构建大规模机器学习
原标题：如何使用 Kafka 在生产环境构建大规模机器学习作者 | Kai Waehner 译者 | 薛命灯编辑 | VincentAI前线出品｜ ID：ai-front智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展，因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的，如非结构化数据分析、图像识别、语音识别和智能决策，这完全不同于传统的编程方式（如 Java、.NET 或 Python）。机器学习并非新生事物，大数据集的出现和处理能力的进步让每一个企业都具备了构建分析模型的能力。各行各业都在将分析模型应用在企业应用和微服务上，用以增长利润、降低成本，或者改善用户体验。可伸缩的任务关键型实时系统互联网、智能手机和持续在线思维的出现改变了人们的行为方式。其中就包括人们对与设备、产品和服务交互方式的期待：人们希望能够实时地获得信息。这也给企业带来了巨大挑战：如何快速地采取行动才能把握先机。批处理系统已经无法满足需求，取而代之的应该是实时系统。传统企业可以实现非常强大的实时处理机制来满足日常的业务需求。这通常需要借助领域知识来理解各种应用场景，并构建新的流式分析模型来增加业务价值。流式处理已经存在于各个行业中。欺诈检测。将支付信息与历史数据或已知的模式关联起来，在欺诈发生之前将其检测出来。这对处理速度提出了很高的要求，因为你必须在交易发生之前将其取消掉。交叉销售。利用客户数据为客户提供定制化的销售方案或折扣，争取让客户在离开商店之前成交订单。这种情况下，你需要利用实时数据（比如位置数据、支付数据）和历史数据（来自你的 CRM 系统或 Loyalty 平台）为每个客户提供最合适的销售方案。预测性维护。使用机器数据来预测机器故障，在发生故障之前将旧的部件更换掉。从实际情况来看，这可以节省大量的金钱（制造）、增加利润（自动售卖机）或提升用户体验（电信网络故障预测）。所有这些场景都有一个共同点，那就是在数据产生的同时处理数据。你必须尽快地处理已经发生的事件，是主动处理，而不是被动处理。你的系统需要在欺诈发生之前，或在顾客离开商店之前，或在机器发生故障之前做出决策。当然，这并不是说一定要求毫秒级别的响应时间。在某些情况下，即使是批处理也是没有问题的。比如，大部分制造行业或物联网场景中，预测性维护可以允许几个小时甚至几天的时间间隔，更换部件可以在当天或当周内完成。这样可以节省大量的金钱，因为你可以在问题发生之前检测出它们，避免造成更大范围的损失。在智能实时系统中应用机器学习任务关键型实时应用系统在不使用机器学习的情况下已经存在多年，那为什么说机器学习将给这一领域带来革命性的变化？如果你读过有关机器学习及其分支深度学习的资料，你经常会看到如下的一些场景。图像识别。上传一张图片到 Facebook 上，图像中的物体——比如你的朋友、背景或你手中的啤酒——就会被分析出来。语音翻译。机器人因此可以通过生成的文本或声音与人类进行互动。仿人类行为。IBM Watson 击败了最强大的 Jeopardy 选手；Google 的 AlphaGo 战胜了最专业的 Go 选手。上述的例子与那些想要构建创新型应用系统并从竞争当中脱颖而出的企业有着越来越紧密的联系。类似的，我们可以将机器学习应用在“传统场景”里，比如欺诈检测、交叉销售或预测性维护，以此来增强业务流程，基于数据驱动做出更好的决策。已有的业务流程可以保持原样，你只需要将业务逻辑和规则替换成分析模型来改进自动化决策即可。下面将介绍如何将 Kafka 作为流式平台来构建、运营和监控大规模、任务关键型的分析模型。机器学习——分析模型的开发生命周期先让我们了解一下分析模型的开发生命周期：构建：使用机器学习算法（如 GLM、Naive Bayes、Random Forest、Gradient Boosting、Neural Networks 等）分析历史数据，挖掘洞见。在这一步需要进行数据的收集、准备和转换。验证：使用一些验证技术（如交叉验证）再次确认分析模型能够处理新的输入数据。运营：将分析模型部署到生产环境。监控：观察分析模型的输出。这里包含了两部分内容：在达到某个阈值时发送告警（业务层面的监控）；保持结果的准确性和度量指标的质量（分析模型的监控）。持续循环：重复上述步骤来改进分析模型，可以通过手动批次的方式来完成，也可以在线完成，在新事件达到时更新模型。整个团队在一开始就要在一起工作，并考虑如下问题：它需要在生产环境有怎样的表现？生产环境系统支持哪些技术？如何监控模型的推理和性能？是构建一个完整的机器学习基础设施还是使用已有的框架来分离模型训练和模型推理？例如，一个数据科学家开发出一个 Python 程序，创建了一个精确度非常高的模型，但如果你无法将它部署到生产环境（因为它无法伸缩也无法表现得如预期一样），它就毫无用处。这个时候，或许你已经可以意识到为什么 Apache Kafka 如此适合用在生产环境的分析模型上。下面的章节将介绍使用 Apache Kafka 作为流式平台以及结合机器学习或深度学习框架来构建、运营和监控分析模型。机器学习和 Apache Kafka 架构参考在了解了机器学习开发生命周期之后，接下来我们来看一个用于构建、营运和监控分析模型的架构参考：该架构的核心之处在于它使用 Kafka 作为各种数据源、模型构建环境以及生产环境应用程序之间的媒介。用于构建模型的特征数据从各个应用程序和数据库流入 Kafka。模型构建环境可以是一个数据仓库、一个大数据环境（如 Spark 或 Hadoop）或者一个运行 Python 脚本的服务器。模型可以被部署在某个地方，只要生产环境的应用程序能够访问到它们，并把它们应用在输入样本数据上。生产环境的应用程序可以从 Kafka 数据管道接收数据，或者使用 Kafka Streams API。Kafka 成为整个系统的中枢神经，这也带来了如下好处：数据管道变得更简单的了。分析模型的构建和服务之间不再耦合。根据具体情况使用实时模式或批处理模式。分析模型可以被部署到高性能、可伸缩的任务关键型环境里。除了 Kafka 本身，还可以加入 Kafka 生态系统的其他开源组件，如 Kafka Connect、Kafka Streams、Confluent REST Proxy、Confluent Schema Registry 或者 KSQL，而不仅仅是使用 Kafka Producer 和 Consumer API。下面两个章节将介绍如何使用 Kafka Steams API 来部署分析模型。机器学习开发生命周期示例现在我们来深入了解一个围绕 Kafka 构建的机器学习架构示例：在绿色区域，我们可以看到用于构建和验证分析模型的组件。在橙色区域，我们可以看到流式平台，分析模型就部署在该平台上，用于对新事件做出推理以及执行监控。数据生产者持续地发送事件，分析平台以批次或实时的方式接收这些数据，然后使用机器学习算法来构建分析模型。分析模型被部署在流式平台上，流式平台将分析模型应用在事件上，从而推理出结果（也就是预测），最后结果被发送给数据消费者。在这个例子里，我们将模型训练和模型推理分离开，这在当今的大部分机器学习项目中是很常见的做法。模型训练数据经由 Kafka 集中到 Hadoop 集群上，进而使用 H2O.ai 分析这些历史数据，构建出神经网络。数据科学家可以使用各种接口来完成这项工作——R 语言、Python、Scala、Web UI Notebook 等。模型的构建和验证就发生在 Hadoop 集群上，最后得到一个 Java 字节码形式的分析模型，接下来就可以将它们部署到生产环境。模型推理神经网络被部署到 Kafka Streams 应用程序里。Streams 应用程序可以运行在任何地方，它可以作为单独的 Java 进程运行，也可以运行在 Docker 容器里或 Kubernetes 集群上。模型被实时地应用在每一个新生成的事件上。Kafka Streams 借助 Kafka 集群为我们提供了可伸缩、任务关键型的分析模型操作以及高性能的模型推理。在线模型训练除了分离模型训练和模型推理，我们也可以为在线模型训练构建一个完整的基础设施。很多巨头科技公司（比如 LinkedIn）在过去就将 Apache Kafka 作为模型的输入、训练、推理和输出的基础。当然，这种做法存在一些权衡。大部分传统的公司会使用第一种方案，它可以满足现今大部分的使用场景。模型监控和告警将分析模型部署到生产环境只是第一步，对模型的准确性、分数、SLA 和其他度量指标进行监控并自动实时地发出告警也同样重要。度量指标可以通过 Kafka 反馈给机器学习工具，用于改进模型。使用 H2O.ai 开发分析模型以下是使用 H2O 来构建分析模型的例子。H2O 是一个开源的机器学习框架，它在内部使用了其他框架，如 Apache Spark 或 TensorFlow。数据科学家可以在上面使用他们喜欢的编程语言，如 R 语言、Python 或 Scala。H2O 引擎会生成 Java 字节码，可以很方便地通过 Streams 进行伸缩。下面是使用 H2O.ai Flow（Web UI 或 Notebook）和 R 语言构建分析模型的截图：输出的是一个字节码形式的分析模型，它可以直接部署到任务关键型的生产环境里。因此，我们就不再需要花时间去考虑如何将 Python 或 R 生成的模型“移植”到基于 Java 平台的生产系统里。这个例子使用 H2O 来产生 Java 字节码，当然，你也可以使用其他框架（如 TensorFlow、Apache MXNet 或 DeepLearning4J）完成类似的工作。使用 Kafka Steams API 部署分析模型使用 Kafka Streams 来部署分析模型非常简单，只要将模型添加到基于 Streams 构建的应用程序里就可以了，然后将其应用在新生成的事件上。因为 Kafka Streams 应用程序实际上用到了 Kafka 的特性，所以已经具备了伸缩性和任务关键型用途，不需要对模型做出任何调整。例子的代码可以在 GitHub 上找到：/kaiwaehner/kafka-streams-machine-learning-examples拉取项目代码，运行 maven 构建命令，就可以看到 H2O 模型是如何与 Kafka Streams 应用集成在一起的。后续我们会不断扩充这个例子，加入更多复杂的应用场景，不仅使用 H2O，还会加入 TensorFlow 和 DeepLearning4J。借助一些 CI/CD 工具，如 Maven、Gradle、Chef、Puppet、Jenkins，机器学习与流式处理相结合的方式可以很容易地被集成到自动化持续集成工作流当中。使用开放标准在训练和推理之间共享分析模型以下是其他一些用于在数据科学家之间共享和更新模型以及 DevOps 团队部署模型的方式。原生模型（Native Model）：直接将模型部署到流式处理引擎里，比如通过 JNI 将 Python 模型部署到 Java 应用程序里字节码生成（Generated Code）：不管使用哪一种编程语言来构建模型，都可以通过生成二进制库或源代码的方式将它们部署到流式处理应用里。它们经过优化，可以获得更好的性能。例如，数据科学家使用 R 语言或 Python 训练的模型可以转成 Java 字节码的形式。外部服务器（External Server）：以请求和响应的方式调用外部的分析服务器。外部调用可以通过 SAS、MATLAB、KNIME 或 H2O 这类分析工具来完成，它们一般会提供 REST 接口。PMML（预测模型标记语言）：这是一种比较古老的 XML 标准，尽管还存在一些局限和不足，一些分析工具仍然在支持它。PFA（可移植分析格式）：一种新标准，可以为模型提供预处理，利用了 JSON、Apache Avro，并支持 Hadrian。不过大部分分析工具并没有为它提供开箱即用的支持。以上这些方案之间存在权衡的关系。例如，PFA 带来了独立性和可移植性，但同时也存在一些限制。从 Kafka 角度来看，如果要部署大规模的任务关键型系统，使用 Java 字节码生成的方式会更加合适，因为这种方式具有更高的性能、更容易伸缩，并且更容易嵌入到 Kafka Streams 应用中。同时，在进行模型预测时，它免去了与外部 REST 服务器交互的成本。结论机器学习为行业带来了价值，Kafka 迅速成为很多企业的中枢神经系统。我们可以借助 Kafka 来：进行实时的模型推理监控和告警在线训练模型将数据摄取到批次层或分析集群上进行分析模型的训练查看英文原文
声明:91.com所发布的内容均来源于互联网，目的在于传递信息，但不代表本站赞同其观点及立场，版权归属原作者，如有侵权，请联系删除。
信息也是生产力，精简才是硬道理！情报猎手带你突破信息迷雾，每日独家为您锁定最有价值的IT行业新鲜事。打开微信，扫描关注，赢取每月粉丝奖！业界 | 想要快速的搭建高性能机器学习系统，企业应该怎么干？
AI科技评论按：本文为「范式大学系列课程」。Web服务器部署在云上已经算是常见的事情了，那么机器学习系统如何呢？
亚马逊AWS目前的运维水平成为行业标准，但凡有公司要自己搭建 OpenStack，先要回答一个问题：OpenStack 比亚马逊云的优势是什么？
对于机器学习来说，公司要自己搭建机器学习系统，也可以先问一个问题：需要多长时间和多少钱，才能达到行业领先的性能？
要知道，时间成本 + 丧失的竞争优势是无价的。
我们来算算这笔账。
自建机器学习系统，大概有这么几步：
步骤 1：招聘机器学习团队的 Leader，2 个月
步骤 2：搭建机器学习团队，2 个月
步骤 3：前期业务调研，2 个月
步骤 4：前期技术调研，2 个月
步骤 5：数据采集相关开发和数据积累，0.5 个月
步骤 6：数据分析处理，1 个月
步骤 7：模型调研，0.5 个月
步骤 8：线上系统开发，0.5 个月
步骤 9：a/b测试和模型优化，0.5 个月
合计：11 个月
这是相对较快的时间表，如果在哪个环节踩到坑，拖延的时间就没法计算了。
如果要减少时间，关键是什么？
专业化分工 + 专注核心环节。
实际上，真正需要自己做的是数据采集、模型调研和模型优化，在专业化工具的帮助下，这些环节可以缩短到 1 个月。而其他 10 个月时间的工作，已经有专业化工具可以替代，沟通和实施时间可以缩短到 0.5 个月。
这样就从原来的 11 个月，变成了 1.5 个月。
机器学习系统的投入，一般是这样的：
1000 万行/天的数据规模，机器学习系统一年的支出是 944 万。
如果要减少投入，关键是什么？
专业化分工 + 专注核心环节。
通过使用机器学习平台，上面的投入会变成这样。
10 台线上机器和 20 台线下机器，企业在购买时是按照峰值数据量配备的，但机器实际运转的时间，往往只有 1/8，即每天运行 3 小时。剩下的 7/8 是浪费的。另外，开源机器学习框架对资源利用效率低，又是一大块资源浪费。
所以原本需要 10 台线上机器和 20 台线下机器，通过机器学习平台只需要 2 台线上机器和 4 台线下机器，节约了 240 万。
在人员投入上，30 台的机器需要配备 1 个带头人、3 个研发、1 个测试、1 个运维、1 个机器学习专家和 1 个业务专家，但如果采用机器学习平台，在专业化工具的帮助下，企业只需要 0.5 个机器学习专家和 0.5 个业务专家。
通过使用机器学习平台，企业的人力成本可以节约 588 万。
另外，机器学习平台的思路可以实现 1.5 个月上线，如果全部自己做则需要 11 个月甚至更久。如果错过了抢占市场的黄金期，损失就是巨大了。对于一个 1000 万行数据规模的公司来说，我们假定 9.5 个月延迟的损失是 5000 万。
所以我们得到了两个数字：
如果不考虑时间的机会成本，采用机器学习平台的成本是自建系统成本的 12.3%。
如果考虑时间的机会成本（5000 万），采用机器学习平台的成本是自建系统成本的 2%。
3、机器学习系统
机器学习系统的性能有 3 个要素：
Max AUC：模型能达到最好的效果，好比山的高度
Actual AUC：实际上线模型的效果，好比爬到多高
Time：模型训练和预测所需要的时间，好比多久爬到这个高度
如果自己搭建机器学习系统，首先遇到的瓶颈一般是数据处理能力。
对于大部分机器学习团队来说，他们一般可以处理几十万规模的数据量，但如果数据规模超过 10 亿，那么即便是简单的逻辑回归模型，也会变成一个非常困难的问题。
为了迁就不足的计算能力，一般会做的事情是减少特征数量和样本数量，这样才能在业务需要的时间内把模型训练出来。
但这样会造成很不好的结果，Max AUC 因为特征和样本数量减少而降低，Actual AUC 因为 Max AUC 和计算能力不足而降低，Time 因为计算能力不足而增加，最终整个系统的能力就会遇到瓶颈。
如果要提升性能，关键是什么？
专业化分工 + 专注核心环节。
大规模机器学习的计算框架是一件非常难的事情，因为它不仅需要处理亿万规模的数据，而且要符合机器学习的规则。能做大规模机器学习计算框架的人全国都屈指可数，基本集中在百度、阿里、腾讯以及少数的创业公司。
所以对于公司来说，与其死啃大规模机器学习的计算框架，反而不如购买第三方的专业服务（这就好比你不会自己开发芯片）。而当计算能力充足的时候，公司就可以专注自己的核心环节，把特征的维度做上去，把数据的规模做上去，把数据和业务的结合做的更清晰。
这样公司机器学习系统的性能，例如在业务需要的时间内获得的 AUC 才能提升上去。
总的来说，公司要做机器学习，应该采取专业化分工 + 专注核心环节的方式，具体如下：
专业化分工完成和辅助完成的：前期业务调研、前期技术调研、数据处理、模型调研、模型优化、模型上线、大规模机器学习计算框架、线下机器、线上机器、运维、大部分的工程投入。
公司专注完成的环节：业务问题定义、数据采集、特征扩充、模型调研。
这样，只需要 1.5 个月的时间，大约 10%（2%）的成本，不仅获得了高性能的机器学习系统，而且能带来实际业务效果的提升，让机器学习能力真正转变为市场竞争力。
报名 |【2017 AI 最佳雇主】榜单
在人工智能爆发初期的时代背景下，雷锋网联合旗下人工智能频道AI科技评论，携手《环球科学》和 BOSS 直聘，重磅推出【2017 AI 最佳雇主】榜单。
从“公司概况”、“创新能力”、“员工福利”三个维度切入，依据 20 多项评分标准，做到公平、公正、公开，全面评估和推动中国人工智能企业发展。
本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段：
-6.1 报名阶段
-7.1 评选阶段
最终榜单名单由雷锋网、AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出，并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。
如果您有意参加我们的评选活动，可以点击【阅读原文】，进入企业报名通道。提交相关审核材料之后，我们的工作人员会第一时间与您取得联系。
【2017 AI 最佳雇主】榜单与您一起，领跑人工智能时代。
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
今日搜狐热点}

我爱游戏网