全球正在进入蓬勃发展的数字经济时代,数字产业化、产业数字化正在促进实体经济和数字经济融合,数据成为关键生产要素,5g、4k/8k视频、iot、自动驾驶等新联接、新应用正加速数据生产和流动,数据的计算、存储、数据库和大数据技术不断突破,相互融合,促进海量多样性数据的价值最大化。
雷锋网消息,近日由华为举办的全球数据基础设施论坛上,华东师范大学副校长;数据学院创院院长、教授;中国计算机学会(ccf)数据库专委会副主任周傲英发表了题为《中国未来需要什么样的数据库》主题演讲。
周傲英教授深入浅出的讲解了数据库的发展历史,并阐述了对数据库发展趋势的理解。他提到,过去的四五十年间,数据库有很大的成功,但也有深刻的教训。发展至今,一个数据库系统能够解决所有的问题的想法已经被摈弃,互联网带来的中国数据库市场的新机遇。应用驱动创新,应用能够促进技术的进步,技术倒逼应用的发展,形成一个联动良性循环。
以下为雷锋网整理的周傲英教授演讲实录(雷锋网现场编辑整理,未经大会官方及演讲者本人确认)。
周傲英:朋友们,很高兴来到深圳,参加智能数据基础设施全球论坛。我今天想跟大家分享的是《中国未来需要什么样的数据库》,也就是说,中国的数据库面临什么样的机遇和什么样的挑战。
从数据库的发展、数据库的历史角度。在世界上数据库四五十年以来经过了什么,我们未来会面临着什么样的环境,我们要做什么。这中间有一个特别大的变化,就是刚才侯总和胡总一直在提的数据。
“数据”是一个很老的词,那为什么数据到现在如此的重要?数据库是管理数据的,以前是管理数据,未来也是管理数据。但就是因为现在我们对数据的认识已经超乎原来所有的认识。这是我想分享的基本内容。
大家都会想,数据库是什么。因为对一般的领导或者非专业人士,大家说把数据放在一起就叫数据库。最早的数据库是叫data bank。数据是像金钱一样要存在银行里。
但实际上对于专业人士,我们知道数据库是计算机科学一个蛮重要的分支,因为数据库是支持关键核心业务。什么叫支持关键核心业务?就是管人、财、物,一定要精确管理,一定要分毫不差。数据库经过这几十年的发展,有了巨大的变化。有了关系模型,有了事务处理,有查询优化,要越来越高效,越来越快。这就是数据库这么几十年的成就。
数据库的发展,我们有非常辉煌的成就。这边列出来的是四位数据库的创造者或者先锋(见ppt)。第一个是charies bachman,他提出了数据库概念,提出dbtg报告,现在所的数据库几乎所有概念,各种语言等等概念都是他在他的报告里提出的。他是数据库第一个图灵奖获得者。
第二个是关系数据库,关系模型的提出者,第三个是事务处理模型的提出者,也是第四范式的提出者,第四个是伯克利的教授,是数据库很多系统的研发者,体系架构的完善者。(见ppt)
我们再回顾一下他们做的工作,源头是cobol语言。最早计算机出来时原来是做计算的,有了cobol语言之后发现可以做商业的事,可以记帐可以发工资。
cobol语言是一个语言,我们讲语言时,往往是把处理语句和数据放在一起,cobol语言的数据量特别大,数据那一步特别大,所以要有一个文件系统管它。
文件系统数据越来越多时,大家发现这是一个数据系统语言,所以有一个叫codasyl,把cobol语言做得更好。cobol语言大家熟悉,如果不熟悉,追溯到2000年时,“千年虫”就是cobol语言带来的。
在cobol语言会议上提出了dbtg报告,所以charies bachman拿到了图灵奖。它太简单了,就是一个数据关系表,再到70年代时提出事务处理,使得原来在处理金融问题时,可以用一个公共模型来处理,不要每个人都去编程序,使得我们的稳定性和可用性更强了。
数据库有很大的成功,但也有深刻的教训。
这个深刻的教训是因为数据库的发展历史实际上是我们it发展史的缩影、创新史的缩影。因为所有的it,包括数据库,都是应用驱动创新。
刚才我在描述的,cobol语言为了解决银行的问题,就有了这一套发展,它是应用在驱动创新。我们国家现在是讲创新驱动发展。我们深刻的知道,对于it来说,都是应用驱动创新,先有应用再有技术,再有理论。这个应用的创新跟技术的创新形成良性的互动,形成一个正循环。数据库发展的教训在于这是我们数据库的先贤总结出来的教训。
原本我们以为一个数据库系统能够解决所有的问题,到大数据、hadoop出来后,数据库人认为原来我们这个系统解决不了任何问题。互联网出来以后,互联网是最大的数据库,但我们的数据库在里面毫无作为,然后我们痛定思痛总结出来,对一类应用就有一个数据库。
抽象,从具体到抽象,我们把共性的东西、普遍的东西、本质的东西抽象出来,就形成了数据库。数据库典型的就是抽象二字。
数据对语义的抽象形成了关系模型。关系数据库的伟大之处在于把数据和语义分开来,我们要做数据库的设计,要设计第三范式,设计bc范式,把函数依赖抽象出来了,这个模式就反映了他们的语义。我们对业务逻辑的抽象,就得到了事物处理模型。一个票不给递给两个人,一个帐转到那个帐号,一定要那边落了帐才能结束。对业务逻辑的抽象形成事务模型。
数据库的三大成就就是关系模型、事务模型和查询优化。两大成就都是抽象导致的。
抽象成就了数据库的产业,成就了数据库的辉煌,但30多年僵化的抽象阻碍了发展。大家觉得抽象这么完美,这就是上帝定的、老天定的。关系数据库这几十年一统天下,根本的原因是我们觉得它可以解决所有问题。
当大数据、互联网概念出来之后,大家发现它不能解决这些问题。数据库发展历史中,有行业垄断的格局,我们经常说三足鼎立,oracle、db2和teradata。
新的业态,新的产品数据库很难发展起来。我们知道这些数据库有一个最大的特点,它很难scaling up。在互联网时代,我们讲scaling up,我们不止靠买高端的服务器、存储向上扩展,这是数据库不适应当代的原因。
互联网改变了世界,互联网改变世界是因为互联网改变了人。
马克思关于人的定义,他说人是社会关系的总和,人变了,这个世界就变了。这个互联网怎么来改变人和人之间的关系?因为它改变了人和人之间的连接,并且把用户体验用数据来做。以前是靠教育、教养改善用户体验,现在是靠数据,行为数据。有人说我们愿意用自己的隐私数据来换取服务的便利。他为什么能够那么好的用?其实他拿到我们的隐私数据、行为。互联网为什么能做这件事?
互联网就是平台,在互联网上谁都可以用,平等就会有民主。人工智能会再度热,因为我们要做精准营销,通过行为数据洞察人性。最重要的手段是人工智能的算法或者深度学习的算法。马克思也说,一个学科当它用上数学了,就变成一个科学。我说互联网,就像100年以前中国人在呼唤的德先生和赛先生。互联网特别重要,因为互联网造就了大数据。
在十八大召开以后,2013年李克强总理领导的新一代政府上任时就在讲大数据、国家战略。有了大数据之后讲互联网 ,到2015年讲创业创新,2016年讲供给侧改革,2017年讲分享经济,2018年讲人工智能。我三五年前预测后面一定会讲区块链,因为区块链才是真正的互联网。这是世界潮流,数据带来的。
互联网为什么带来这么大的变化?因为data is power。
讲到data is power我们会想到keowledge is power。我们现在讲power是在讲电,数据是一个新的电。在data power以前我们还有两个power。最近的power是“蒸汽能”,再早一点的power是“电能”,后面是“数据能”。
有了蒸汽能才有第一次工业革命,我们进入工业经济,有了电能的诞生才有第二次工业革命。我们用最近30多年弥补了起来,现在面临一个新的power的诞生。
在新经济的背景下,也就是刚才提到的数字经济,我们觉得数据就是新的生产资料,算力就是新的生产力。一个新的power来了,就像电来了,从蒸汽时代转到电的时代就是未来已来,一切重构的时代,所有一切都应该重新来一遍。
在我们这个时代数据作为一个power出来,我们看数据系统,hadoop、spark,都是为了解决应用的问题,把它抽象成技术,通过开源推广应用。这就是数据系统的成长之路,它跟以前的数据库是一样的,只是现在是活生生的就在我们眼睛前告诉我们。
我们现在处在一个非常重要的机遇窗口期。在资本主义经济里有一个说法叫康德拉季耶夫周期理论。资本主义经济要经过50年、60年的波动,并且在一个新的power诞生以后,前面20年都在准备装备、技术、理论,后面30年是广泛应用阶段。互联网到现在整整20年,未来30年对中国特别重要,能不能把这个data power发挥它的威力。
我说中国数据库在这样的时代面临重要的机遇,互联网非常成功的告诉我们,应用驱动创新,这是一条重要的路径。
应用能够促进技术的进步,技术倒逼应用的发展,形成一个良性循环,这就是联动。
我们处在升级换代的时代,我们面临这种国际形势,要我们做替代工程。替代工程和升级换代并举的创新是最好的,我相信也是华为最好的机遇。替代工程只是我们的一个影子,升级换代才是最根本的东西,再加上开源。开源为这个持续的发展提供了生态,开源从最初企业的自发行为个人的自发行为,逐渐演变成企业的商业行为。我现在觉得开源很多时候变成一种国家行为。因为它根本上是一种文化、精神,并且它会形成一种国家的万众创新的能力。
我对未来中国数据库的发展,要特别重视it领域对应用驱动创新的认识和研讨。丰富的应用是我们最大的驱动力,它应该是我们研究的出发点,也应该是我们研究的落脚点。
我们在解决问题的过程当中,来形成技术、建立理论,我们要做好顶层设计,要营造健康的生态来打造开源的文化,我们有庞大的技术力量和研究力量,我们有那么大的工程师,那么多的大学,但我们需要组织和需要引导。健康生态的营造首先需要开放,开源是必由之路。基础软件和系统软件的模块化、栈化,才能做到开源,才能促进万众创新。基础研究和原始创新需要攻关,需要久久围攻。
我们处在数据库发展的最佳时间,需要创新商业模式,丰富的应用场景,要像华为这样引领的企业。
我一直在说数据库是信息社会的基础设施。我们今天论坛的主题是“智能数据基础设施”。如果数据认为是一个新的power,就像研究电力设施一样,我们在研究我们的基础设施。数据是一个新的power,我们有非常成功的方法学,需要全谱系的。
我们不是做一个oracle,我们要量身打造,夺身定制,为不同的应用做不同的数据库系统。中国数据库的未来在于要有开放的架构,不要抱残守缺固步自封。开源的生态,解决问题,要真正的解决问题,更重要的是要解放思想,我觉得open是我们数据库走向自由的必由之路。
谢谢大家!
【cncc 2019来了!】
10月17-19日,cncc 2019 将在苏州金鸡湖国际会议中心举办,本次会议由中国计算机学会 (ccf) 主办,苏州工业园区管委会承办。
cncc 全称为中国计算机大会,是我国计算领域规模最大、规格最高的学术、技术、产业交融互动的盛会。该会议创建于 2003 年,每年于不同城市举办,至今已成功举办十五届。会议形式包括大会特邀报告、大会论坛、技术论坛、特色活动及展览展示等。大会对本文提到的安防芯片领域的最新趋势动向准备了丰富的内容,敬请关注。
如果你是个人参会,可以:
•通过米乐官网app官网cncc.ccf.org.cn参会报名
•申请论坛,作为论坛主席或讲者参会
•申请资助参会,申请者限边远地区高校青年教师或学生
专题