作者丨何思思
编辑丨陈彩娴
“艰苦奋斗,独立自主”——这是昆仑万维董事长兼ceo方汉做大模型3年以来的真实感受。
早在今年4月,昆仑万维就发布首款千亿级参数大模型“天工”,是国内最早一批拥有大模型的企业之一;今年8月,昆仑万维更是推出了国内首个融合了大模型能力的搜索引擎——天工ai搜索。
作为一家以游戏得名,后来发展成为国内互联网平台的出海企业,昆仑万维曾相继并购孵化了包括opera、starmaker等在内的多款现象级应用。
然而从游戏互联网公司到大模型,终究不是一步简单的跨越。“从游戏到出海再转做大模型,是一个如此大的跨界,底气在哪儿?能做成吗?还是在抢噱头?”
方汉对ai科技评论表示,其实昆仑万维对大模型的研究远比想象中要早得多,时间回到2020年,这一年chatgpt还没有火,但当时昆仑万维就押注了aigc赛道。
谈及为何先于chatgpt出圈前,就入局大模型赛道?
方汉告诉ai科技评论:在外界看来跨度很大,但理由是很充分的。首先和公司的业务相关,昆仑万维在海外主要主要做内容平台,包括音乐、社交、游戏、动漫等,这意味着我们对任何一项技术变革都是非常敏锐的。另外还一个重要的原因是,较元宇宙、vr来说,aigc和相关产品的结合,能更容易地覆盖更多的普通人群。
2022年春节,昆仑万维内部提出“all in aigc”的口号,同年年底发布了开源项目。
时间来到2023年,此时大模型在国内蓬勃发展,昆仑万维也加快了大模型以及相关产品的研究进度。大模型层面,4月份发布了“天工”大模型,产品应用层面,初步形成包括 ai大模型、ai搜索、ai游戏、ai社交、ai音乐、ai动漫等六大方向在内的 ai业务矩阵。
值得注意的是,从入局时间来看,昆仑万维要早于国内大部分企业,这也从侧面说明了昆仑万维在大模型这条新赛道上并非坦途。
“我们沿着gpt的路线辛辛苦苦做了3年,但这些苦难也锻炼了我们独立解决问题和处理问题的能力,我们把这段经历总结为‘艰苦奋斗,独立自主’。”方汉笑着说道。
除了研发通用大模型,专有模型以及上层应用外,方汉更是将开源的基因融入其中,基于天工大模型,昆仑万维选择开源了「天工」skywork-13b系列大模型。
面对开源与闭源之争,方汉表示,两者并不矛盾,互为有机组成部分,开源的本质是为了构建良好的生态,让更多中小企业能够在大模型基础上开展一些工作。
“昆仑万维的体量相对较小,所以我们对大模型的研究会朝着离应用更近的方向发展,”之于未来在大模型方面的规划,方汉如是说。
以下为ai科技评论和方汉的对话:
跨界:不是为了股价,而是业务发展所需
ai科技评论:从游戏到出海,再到大模型,为什么要跨这么大的界?
方汉:在外界看来跨度很大,但其实理由是很充分的。
首先和公司业务有关。做游戏之前,我们是在海外做用户增长的,而且在这方面有丰富的经验。上市时我们就有了一个判断,我们的增长能力大多在网游端,但当时我们也在想是不是可以把这种能力赋能到别的互联网品牌上,因为我们知道中国人在海外做一个新的厂牌其实有难度的,所以我们就买了grindr,把用户量做大了五倍;然后买了starmaker,用户量从2000人做到了大概近千万的日活。我们收购opera后孵化出了三个产品,一是opera news,目前是非洲最大的客户端;二是opay,非洲的支付平台;三是opera gx browser,目前在欧美地区月活达到3000万。所以我们在海外做平台增长的经验非常丰富。
另外,我们在海外做的是内容平台,包括音乐、社交、游戏、动漫等,这就意味我们对任何一项技术变革都是非常关注的。还有一个原因,较元宇宙、vr来说,aigc更容易覆盖更多普通人群。为什么呢?当时虽然chatgpt还没出来,但是抖音上的换脸玩法已经出来了,其实背后都是ai技术的支撑,只是没有现在这么明显而已。
当时我们还做了一个测试:一块手表的重量是70克,手机是300克到400克,但当时的vr设备大概在一斤半左右,所以以我们当时的看法,认为vr赛道很难做起来,因为实在太重了。元宇宙则是另外一个逻辑,我们认为元宇宙在人和人沟通的效率方面实际上比不上线下见面,所以我们认为元宇宙也不会有很大的市场。
但ai就不一样了,目前90%的美国大学生都在使用chatgpt做作业,国内很多电商基本上都在用aigc生成商品图片。这一波ai对普通人的渗透远比我们想象得要大的多。所以我们认为aigc和之前的互联网和移动互联网两波浪潮一样,会是一个大的技术变革,我们就决定投入了。
ai科技评论:什么时候决定全方位投入的?
方汉:2020年gpt3出来时,我们就很快地意识到了aigc会是一个非常大的里程碑。2021年开始铺算力,并训练出了一个140亿参数的大模型,同时组建了一个专门做音乐生成的团队;2022年春节,内部开了战略会,提出了all in aigc的口号;2022年年底12月份,疫情刚放开时,我们就发布了开源项目,其实当时chatgpt还没有火,对于像我们这样一个中等体量的互联网公司来说,我们做的事情要比业界同行稍微早一些。
ai科技评论:最初瞄准的就是agi吗?
方汉:首先,我们跟进大模型这件事,完全不是为了股价。因为agi和aigc是两码事,所以当时只想到了aigc对我们公司业务的发展非常重要。包括我们现在设立的音乐、漫画、社交、游戏等方向,都是我们的传统产品,只有ai搜索算是和大模型结合后的一个新发现。
当然,天工大模型是通用大模型,但是想要在每个行业落地,还要在对应的专有模型上做应用,所以在天工大模型这个底座之上,还训练出了3d生成模型,图像生成模型、视频生成模型,音乐生成模型等专有模型。
入局大模型:没有参考,只能独立自主
ai科技评论:最初选择的是bert路线还是gpt路线?早期国内大部分企业可能都是基于bert做研究的。
方汉:我们最初选择的就是gpt路线,当时没有任何开源框架可以参考,所以我们是沿着gpt的路线辛辛苦苦做了3年。在国内厂商里是相对非常早期的。(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)
ai科技评论:这个过程中有什么困难点吗?毕竟起步确实太早了。
方汉:2020年刚开始做的时候,确实挺辛苦的。因为没有任何可以参考的内容,而且当时国内大部分企业走的是bert路线,gpt路线的人不好找,所以只能根据一些公开文献从头研究。
但这样也锻炼了我们独立解决问题和处理问题的能力,我们把这段经历总结为“艰苦奋斗,独立自主。”以数据处理团队为例,从2020年搭建到现在,应该是国内最老牌、最成熟的团队了。
ai科技评论:现在很多企业都在强调数据的量和质量,对于昆仑来说,数据是最难攻克的一关吗?
方汉:数据处理肯定是一个难点。对于大模型训练来说,数据质量的重要性往往高于数据的量,因为数据很容易收集,但高质量的数据很难。
比如,中国拥有全世界最大的中小学生题库,但这个题库你直接问题大模型质量是很差的,因为题库中的数据没有经过标准化和格式化的处理。所有公式可能都是图片文件,这就要把这些公式全部转成文本可描述的文件。这就要花很长时间才能完成。像中国可能有两亿道中小学生题库,处理完了之后质量高的可能不到一千万道,这是一个很辛苦的数据处理过程。当然这个过程也会涉及到数据清洗、加工、重新整理。最麻烦的是针对质量不好的数据,要想办法写工具,把质量变好,甚至要雇一批数据标注人才把数据标好,这是相当麻烦且繁琐的工作。
另外,在数据层面,最重要的不是数据加工的能力而是数据生产的能力,目前很多数据是空白的,尤其是在一些很窄的领域,所以必须生产出来。以音乐数据为例,全世界每年能够生产3亿首,其中中国每年就能生产200万首歌,但实际上可能只有20万首是标注好的,那怎么办?只能自己花钱加工数据。所以现在质量高的数据是非常稀缺的。
ai科技评论:其实数据层面,也会涉及到数据合规的问题?
方汉:首先要有一个正确的心态,我们一直认为数据合规和法律监管是行业健康发展的前提,所以我们一开始就会配合各部门完成数据保护等工作,这是最关键的。我们认为有监管比没监管好,如果没有监管的话,各种不健康不合规的东西出来了,行业的发展会受限制,企业的损失也会很惨重。
在出海过程中,中国一些企业就是因为不重视合规,出现了各种各样的问题。对于大模型训练来说也是一样的,最关键的是敏感数据不能出境。
我们在东南亚、欧洲等地区发展好的原因就在于我们坚决服从监管,而且最大限度地配合监管部门做事。国内也一样,我们是全国第二家提交大模型审核的企业,北京市第二批通过的。
其实ai这波数据保护法规,各国还在规划中。我们也在紧密关注,会全力配合。中国是大模型落地比较早的国家,所以我们配合得非常好。其他国家可能还没有完全落地,但我们在持续关注。
ai科技评论:美国的持续封锁,会不会有算力方面的担忧?
方汉:肯定会有影响。现在业界出现了两个新的摩尔定律,一是,出自openai——每18个月人类的知识会翻倍,我对此表示质疑;
二是,大模型的训练和推理成本会以每年10倍的速度递减,也就是说每年的训练成本和推理成本会下降10倍左右,我表示赞同。为什么?因为现在所有人都在拼命优化,也出现了很多新的理论,比如最早的文生图基本15分钟才能完成,现在4、5秒就能完成了,直接降了60倍。
另外,手机上现在已经能跑7b、13b的模型了,5年之后手机上一定能跑80b的模型,所以最后离线推断一定会成为主流。
ai科技评论:现在国内很多企业还是有算力方面的担忧的,国内有可替代的吗?
方汉:华为910b几乎能达到a100 85%的性能,主要问题在于他的底层软件的稳定性和硬件的兼容性还在不断修补中,但是用作推理已经没有任何问题了,训练还差一点,还需要大家陪着它再改一段时间。
国内能够达到910b水平的一共只有两三家,但是国产芯片最大的问题是产能,只要产能上去了,肯定能替代。国内芯片在设计上一点也不落后,和a100的差距已经不大了,h100和h200还需要时间追赶。(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)
面对竞争:差异化是前提,其次是认知
ai科技评论:相对于其他五款产品来说,ai搜索是新产品,为什么选择搜索这个方向?
方汉:很简单的逻辑。ai搜索不是凭空产生的,是旧的技术和大模型技术结合后推出的新产品。
其实我们做搜索已经有6年的时间了。在这方面的技术储备远比想象的多,早期我们做opera news,它的背后其实是有一个搜索引擎支撑的,这个搜索引擎每天可能要收集几千万个英文的站点,把新闻抓取下来然后转成用户可以访问的,就像今日头条一样。所以ai搜索反而是最早ready的。
ai科技评论:除了ai搜索,还有游戏、社交、音乐等产品,这些产品的推出节奏是什么样的?
方汉:基本会跟用户的节奏走,我们会在用户端不断地测试,一旦我们认为测试效果、数据和用户的反馈达标了,就会推出来。目前除了ai搜索外,ai音乐、ai动漫、ai社交和ai游戏等产品都在海外市场测试中。
ai科技评论:可以理解为ai搜索主要面向国内,其他产品面向海外?
方汉:其他五款产品在海外落地成功后,会考虑在国内进行推广。
首先全世界付费习惯最好的市场是欧美,其次是中国。我们首选欧美市场,因为欧美用户的付费习惯比较好,目前openai付费最多的用户也集中在欧美市场。所以会选择先做价值较大的市场。
ai科技评论:其实现在各大厂都在做产品的重构,昆仑在这方面有什么不同?
方汉:大家的思路不同,我们一直在做面向c端的端到端的内容生产方。
其实从去年我们就一直在思考大模型之后是什么,当时我们就预判了肯定是千模大战,但是在这场战役中,我们不一定能胜出。所以我们就想清楚了,不做效率工具,只做平台。这个事情其实比大家想的要早一点。
ai科技评论:关于c端,大家都在讨论超级应用,您认为距离下一个超级应用,还有多长时间?
方汉:肯定有超级应用,但不止一个超级应用,互联网时代诞生了谷歌、亚马逊、meta(facebook),移动互联网催生了snapchat、twitter,包括国内的字节、美团、滴滴等都是超级app,但没有一个超级app能把所有超级app集合起来。所以我认为一个超级app包打天下是不太可能的,未来可能会出现几个超级app。
聚焦到具体的领域,游戏和电影一样不太可能出现超级app,社交、音乐、动漫等都有可能。
ai科技评论:关于c端,大家都在讨论超级应用,您有信心吗?
方汉:信心肯定得有,我也相信我们一定能做出超级app。因为我们做的比较早,希望也比较大,但谁也不敢保证100%一定能做成,毕竟机缘巧合的事情太多了。只能说我们会尽力朝着超级app的方向努力,所以我们一直做平台,不做工具。因为做工具是做不成超级app的。
大模型形态之争:开源是大趋势
ai科技评论:除天工外,昆仑还开源了13b模型,好像很多厂商都喜欢把6b、7b或者13b作为一个节点?
方汉:其实逻辑很简单,和显存相关。4090消费级显卡的内存是24g,6b需要12g,13b需要26g左右。所以6b和13b都是消费级显卡,大家可以直接拿回去玩,或者供小企业使用,因为消费级显卡特别便宜。为什么a100、h100性能高,因为一个是40g内存,一个是120g,单卡多少g的内存是非常关键的。
这就是为什么苹果新一代笔记本特别强的原因,因为它能跑到196g。所以最新版本的苹果电脑理论上可以跑一个300b的模型,只是慢一点而已。
ai科技评论:那为什么参数大的模型会选择闭源?是商业化方面的考虑?
方汉:因为大部分人都跑不起来,你说是为了商业化考虑吗?任何一家大模型企业都要考虑商业化,这是一件非常正常的事情。实际上最重要的还是底座大模型,一个千亿级别的大模型对我们而言,最关键的是技术机密。在这之上训练出很多小模型开源给大家使用,完全是没问题的。
ai科技评论:昆仑为什么要选择开源?怎么看待开源和闭源的关系?
方汉:我认为开源的话,做生态比较容易,对中小企业的机会也会更大。
开源和闭源并不矛盾,二者互为有机组成部分。这和做开源公司的leader的商业模式有关。
就像meta(facebook)属于后来的搅局者,对他来说,他不依靠大模型,对他的业务也没有致命性的影响,所以他就直接开源了,所以现在开源模型最好的是meta的llama 2。
目前国内大模型还处在谁先发完全开源的大模型,大家一拥而上的状态。我们去年12月份发布大模型之后,利用我们的大模型做研发的企业特别多。我觉得这是很正常的事。
但我认为开源的本质是为了构建一个良好的生态,让更多的中小企业能够在我们的大模型上开展一些工作。
ai科技评论:现在老生常谈的一个话题是,开源怎么挣钱?
方汉:做开源的话,一开始大家确实不知道怎么挣钱。其实开源怎么变现已经有一套很成熟的逻辑了。最近mongodb提出了一个新的逻辑sspl,他说我开源出来,你可以随便用,不用给我交钱。但是云厂商不能用这个给别人提供服务。包括百度、阿里、亚马逊等云厂商,如果要给别人提供服务的话,必须付费。
但是因为云计算是一个大的趋势,大家都希望云厂商来提供服务。mongodb的说法是云厂商不许用,只能我来提供云服务,相当于把云服务的米乐官网app的版权卡死了。只有他们能够提供这项服务,这样就会很挣钱,像mongodb每年都有几十亿的营收。(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)
ai科技评论:内部产品是在天工闭源大模型上做的,还是在开源模型上做的?
方汉:是在天工底座大模型之上,裁剪出的各种专有小模型上研发的。
大模型落地:早期蓬勃发展,且杂乱
ai科技评论:您认为大模型想要落地难吗?
方汉:大模型在b端的落地速度会非常快。因为有些b端企业,尤其是国企、世界500强企业的付费习惯极好。很多人说大模型能不能在b端挣钱,就看微软的股价什么时候涨。因为现在全世界做b端生意的,微软是走的最好的。
国内的话,要看怎么激发用户的痛点,比如我们做商品图片生成,目前很多小企业、淘宝商家的付费意愿都很强,因为他们找淘宝模特拍一张商品图片的成本可能是200块钱到500块钱,aigc 2块钱到5块钱就能解决,所以淘宝模特和摄影师未来肯定会失业。
ai科技评论:所以不存在大模型商业化落地难的问题了?
方汉:当然存在,因为现在大模型的能力远远不够,他能帮用户解决的问题也是有限的。
为什么淘宝的商品图片生成会率先被打破,比如一个身穿大衣的模特,多了根手头,少了根手指头,用户是能容忍的,只要简单地修一下就可以了。但如果是法律问题,你告诉我这个人应该从判3年改到判10年,这就是一个大问题了。所以想要在金融、法律、医疗等比较严肃的行业落地还是有难度的。内容赛道就比较容易了,比如漫画画错了就画错了,大家在这方面的容忍度还是很高的。
现在大模型商业化还处在早期蓬勃发展且比较混乱的阶段,但这是任何一项新技术发展的必经之路,如果一开始不杂乱的话,怎么能优胜劣汰出现一批真正优秀的公司呢。所以说这是一个很正常的现象。
ai科技评论:您认为哪些行业比较容易落地,哪些困难?
方汉:容错率低的行业最难进,容错率高的行业很容易进。
ai科技评论:三年以来,对大模型有没有一个改观?
方汉:大模型的智能能力越来越强,这是我们一开始想不到的,但我认为还有很多所谓的局限性。比如智能程度没有那么高,最难的像3d模型的生产、以及视频生成技术还没有完全解决。
我们坚信未来一定会解决,但对于中小企业来说,不能等这些问题都解决了再研发产品,而是要提前做好准备。
ai科技评论:怎么平衡天工大模型和上层ai产品的关系,未来会有所侧重吗?
方汉:首先一个是基础架构,一个是上层应用,没有所谓的偏重。
目前大部分应用厂商没有自己的大模型,只能调用别人的api,这就会出现很多风险。比如出现问题时只能先向上反应,等别人来改。再比如llama是一个英文模型,它的中文语料不够,所以想要做中文的很难。
好处在于,从大往小做容易。我们能基于底座大模型定制各类行业模型,加上对大模型有着深刻的认知和理解,也能加快做行业模型的进度,无论这个模型的质量是不是行业内最好的。
ai科技评论:未来竞争会愈演愈烈,怎么保持竞争优势?
方汉:我们公司相对比较小,部门间的沟通会比较多。所以我们对于大模型的研究会朝着离应用更近的方向运行。
大模型的未来:端侧推理将成为下一个爆发点
ai科技评论:目前国内大模型的发展归于平淡了,您怎么看?
方汉:很大程度上是因为算力吃紧。训练gpt-3.5只需1000张卡,gpt-4需要5000张卡起步。gpt-5估计要3万张卡左右。算力不够很难训出下一代模型。这是很实际的问题。
所以以前是千模大战,现在已经变成百模大战了,未来可能会变成十模大战,我对我们的大模型还是很有信心。
ai科技评论:您认为在这波大模型和aigc浪潮中,最受益的是谁?
方汉:第一波受益的肯定是卖锄头的企业,比如做显卡或者硬件的厂商,下游做光模块、高速网卡的厂商都会从中受益。
ai科技评论:通用大模型、行业模型以及应用层的难度一样吗?分别体现在哪些方面?
方汉:我觉得不一样,通用大模型的难点在于训练成本和技术积累。行业模型的难点在于能否拿到某个垂直行业的专属数据。比如法律文本,有一部分原来公开过,但并不是所有人能拿到所有的判定文本,这就是专有数据。
上层应用考验的则是对行业以及产品形态的理解。现在业内有一个普遍的现象,所有的产品经理都是蒙的,不知道用ai做什么产品。而所有做技术的人都在讲ai有多先进,你们可以发现做演讲的都是技术人才,很少有产品经理出来讲我用ai做了一种新的商业模式,但实际上真正有威力的是谁能够基于ai创造出新的颠覆式的商业模式。
每个层面的难点不一样,最简单的反而是底层大模型,因为只要你有算力,有积累,就一定能做好。
ai科技评论:昆仑万维最近收购了一个芯片厂商,是为了自己做训练用?还是有其他考量?
方汉:模型训练可能还早一点。但有一个问题,现在端侧算力不够,就是手机上不够。vivo前段时间发布了一个模型,高通发布了一个能在手机上跑的芯片。所以我们认为端侧推理会成为一个大趋势。尤其是手机。现在手机卖不动了,为什么?因为摄像头和显示屏已经卷完了,4g、5g也卷完了,之后大家不知道卷什么了,下一波换机潮一定是ai换机潮,就是端侧推理,因为端侧推理是不需要付钱的,这些钱已经包含在了你买手机的钱里,比如买手机能一口气买断了多少年的推断成本。
ai科技评论:也就是说端侧推理,会成为下一波大潮?
方汉:对,下一个爆发点一定是端侧推理。就像短视频为什么能起来?是因为4g加摄像头都卷到了一个临界点,短视频起来和4g、摄像头的卷有密不可分的关系。
ai卷到最后一定是端侧推理出来后会出现各种惊艳的功能。而且最后所有手机厂商都会拼命营销,今天你的手机能跑30b,明天我的手机能跑50b,是不是跟卷摄像头一模一样?这是我们的一个认知。其实这对行业是一种好事,会倒逼厂商训练7b、13b等小模型。
(雷峰网(公众号:雷峰网)雷峰网雷峰网)