更大的数据,更大的模型,更好的算法,深度学习兴起之后,这些因素就成了 ai 公司最重要的考量。尤其对于语音、nlp、计算机视觉等应用,海量数据与精确算法支撑下不断提升的应用,是 ai 企业建立外部认知的最重要载体。
在技术爬坡、订单获取上,算法是基础。但当企业经历几年的跑马圈地,单纯的算法之外,一家 ai 公司还需要什么?巨头与行业独角兽们正在试图回答这个问题。
近日,计算机视觉领头公司旷视正式宣布开源其深度学习框架 megengine,中文名“天元”(传送门:megengine.org.cn)。
从算法到 ai 基础设施
印奇说,旷视要成为中国最强的 ai 公司,这其中是对算法能力、产品能力、米乐m6平台的解决方案能力、业务运营能力的多重要求,而算法是旷视的核心基因。
旷视业务以机器视觉为核心,对算法精度要求更高。早几年,和很多企业一样,团队主要精力都聚焦在如何精进算法上。在算法精度上,如何在“小数点”后的数字上做提高,再把算法放入相应的场景,为客户提供视觉米乐m6平台的解决方案,是团队的工作重点。
但如 cto 唐文斌所言,ai 应用是一个无限游戏——算法无限,场景无限,对应所需要的产品也是无限的,要达成企业用 ai 惠及世界的最初愿景,一个更高效的做法是解决 ai 基础设施的问题。
何为 ai 基础设施?唐文斌给出了两大核心要素:承载 ai 计算的芯片平台是其一,一个可以协同优化算法、数据、算力的平台,即 ai 生产力平台是其二。因此旷视打造了自己的ai 基础设施 brain 。
生产好的ai 算法是一个系统工程,要求同时具备标准化的数据管理、高效的深度学习框架和强大的算力。为此,brain 作为ai 生产力平台主要涵盖了数据米乐m6平台的解决方案 megdata、深度学习框架 megengine、算力米乐m6平台的解决方案 megcompute,是为三位一体。天元( megengine)的开源只是开始, brain 的更多数据管理、计算能力之后也将向企业级用户陆续开放。
发布会上,旷视云服务业务资深副总裁赵立威表示,旷视可以为企业级用户打造专属的brain 平台,为米乐官网app的合作伙伴提供ai生产全流程的服务,从专业咨询、到数据生产、模型优化,再到私有化ai平台的建设运维,满足各行业在”ai “的过程中降本增效、自主安全和商业创新的诉求。
“单一算法壁垒很低,但是能够系统化地产生大量算法,并且结合场景不断迭代、优化,最终还能打造算法相关的产品和方案,这个壁垒非常高。”一年前印奇面对量子位的回答,已经宣示了旷视在此的雄心。
而从旷视近两年的一系列动作中,也可看出一个从底层算法到 ai 基础设施的上升轨迹。
2019 年 1 月,旷视发布 aiot 操作系统“河图”,后者将作为智能机器人的网络协同大脑,接入物流场景下的多种硬件,在发布会上,“回归产业”、“赋能产业”几乎是印奇演讲的主题。
2019 年 10月,旷视推出城市物联网操作系统 cityiot os ,将公共安全、智慧交管、城市管理和智慧园区全局管理能力整合为一体。
ai 需要聚拢更多人的力量,才能创造更多价值。天元(megengine) 乃至 brain 的开源和开放,意在联合中小企业和更多开发者,接入更多设备,从而把 ai 这张网抻大。
深度学习,简单开发
天元是围棋棋盘最中心的点,megengine 中文名借此命名,一来致敬 alphago;二来,天元是万物的基础,这个名字也是旷视对 天元(megengine) 成为中国人工智能发展的一块基石的寄望。
旷视副总裁谢忆楠做了一个朴素的举例:智能化是往硬件里植入算法。往越多的硬件里塞入算法,社会的协同网络便越大、越智能。这张协作网络便是物联网。天元的开源,则是赋予其它中小企业往硬件里内置算法的能力,并进一步迎合其在特殊场景的定制化需求,以帮助其达到真正的“深度学习,简单开发”。
除了最新开源的天元(megengine),目前国际主流的几种深度学习框架主要包含谷歌大脑2015年开源tensorflow、谷歌的人工智能研究员françois chollet 2015年推出的keras、amazon 2015年底开源的mxnet、facebook 2016年开源的pytorch、微软2016年开源的cntk、百度2016年开源的飞桨等。天元(megengine)则从实际开发经验中的几个痛点入手,在性能上表现不俗:
1. 训练推理一体化
旷视天元既可支持研究员进行算法训练,同时训练得到的模型和产物是可以直接进行用于产品的推理、封装。省去模型转换不仅极大简化算法开发流程,更实现了速度和精度的无损迁移,即使是模型的跨设备部署,天元依然能够做到精度的对齐。在部署时,天元还可以帮助开发者自动删除冗余代码,实现模型自动优化。
2. 动静合一
静态图性能高、占用资源少且易于部署;动态图简单灵活、方便调试且易于上手。旷视天元整合了动态图与静态图各自的优势,在充分利用动态图模型训练优势时,通过动静态一键转换功能,以静态图的形式完成生产和部署;此外,天元还支持动静态的混合编程,灵活性更强。
3. 兼容并包
旷视天元具备pythonic的api,这对习惯用python进行传统机器学习的开发者来说非常友好,学习成本更低、易于上手,同时天元还支持pytorch module功能,可以直接导入模型,迁移成本低且极大方便模型复现;天元内置高性能计算机视觉算子和算法,可为计算机视觉相关模型训练和应用实现深度优化。
4. 灵活高效
旷视天元具备很强的多平台多设备适应能力,可通过类似汇编和指令重排等技术,使得天元内置算子能够在推理或生产环境中充分利用多核优势,灵活调用设备的计算力,尤其适用于大模型算法训练。
总的来说,megengine 在协同设计、高效训练、大规模训练能力上,做到了更完整的统一与升级。
相比平台级公司的科技巨头,旷视成立之初便是一家以 ai 为驱动的企业,天元深度学习框架的开发以其核心业务为土壤,在应用场景和落地案例中经过不断的反馈、调试,尤其在视觉任务的处理上,更加适合开发者。
基于与tensorflow、pytorch 等框架的不同优势,开发者也可以同时使用不同框架,解决自身问题。
生态共建者
过去几年,中国企业纷纷拥抱开源,但多数是被形势驱动,勉力上赶,早期便做下铺垫并持续技术积累的不多,从这个角度看,旷视算是个异类。
2014 年,深度学习刚刚兴起不久,当时公司使用的还是 theano 框架,效率低下。旷视研究院的 3 名实习生,在其自动化算法研发系统 cycle 的基础上,不到半年的时间里,写出了一个初版的深度学习框架,便是 megengine 的雏形。
megengine 诞生的第二年,谷歌开源了 tensorflow。 在深度学习框架的选择上,买巨头的船票,还是自己造船,团队内部经历了长久的争论。
高投入的自研意味着对团队的极大考验,此时,成立不到 4 年的旷视,技术团队尚不足20人,再配合业务的落地推进,难度指数级增长。但刚刚开源的 tensorflow 尚有不少缺憾有待完善,对团队来说,远不如自研的 天元(megengine )称手。并且,对于一个以 ai 为绝对主业务的企业来说,长期来讲,自研深度学习框架更易于面向自身需求调整、迭代算法。
如今来看,当年的争论结果已经非常明显, 旷视选了那条难走但是正确的路。
2015 年,天元便在旷视内部全员使用,其所有算法都是基于该框架进行训练、推理。目前,天元已经迭代到第 8 版,用在了上百个产品、几十种计算平台上。
再问:有大哥坐镇,天元有自身优势虽不假,但又如何与先来者抗衡?
这家 ai 企业似乎并没有在这个问题上花费太多时间。
“我们不觉得天元和其他的(框架)是竞争关系,而是共同借助开源生态的培育与建设,形成良性有机的局面。我们期望能够营造一个开放的社区,一个能够接纳大家新想法、共同创造的社区。不论是一个技术产品,还是一个开源框架,都需要以是否好用、是否成熟、是否能够做得更好来作为最终的评判标准。”旷视研究院高级技术总监田忠博总结道。
欢迎规则“打乱”者
天元现在开源的是alpha版本,其开源生态最终将如何展开,还需要持续迭代,但一个在算法上有成绩的优秀选手,在算法工具上自然具备充分的底气。在不断推进的手机智能、智慧城市、供应链等落地案例之外,旷视研究院的参赛团队一直是近些年各大顶级比赛和会议的常驻冠军。
从目前的规划来看,天元将保持每 3 月一迭代的节奏:3 月发布 alpha 版本,释放关键代码;6 月发布 beta 版本,全面提供基于 arm 系列的 cpu 支持能力,并引入更多加速设备;9 月的 1.0 版本将涵盖所有核心功能、部件,支持所有主流计算设备。之后,天元也将在 github、ihub 逐步开源。
“虽然在国外有两家非常大的深度学习引擎,有很大的体量,但里面依然有一些开放的和技术的难题没有解决。”旷视研究院院长孙剑解释道。
“我们希望开源这个框架,能够将很多年轻人提出的创造性的新解法注入进去,我们也希望,有更多优秀的开发者能够贡献出他们的创造力,把我们的规划打破、打乱。”
雷锋网 雷锋网 雷锋网
专题