如何有效利用学术图谱？怎么建立相对公正的学术评价体系？听听大师们怎么说 | cncc 2017 | 雷峰网-米乐m6平台

2017/11/03 16:12

雷锋网 ai科技评论按：由中国计算机学会（ccf）主办，福州市人民政府、福州大学承办，福建师范大学、福建工程学院协办的 2017 中国计算机大会（cncc 2017）于 10.26—10.28 日在福州·海峡国际会展中心举办。

此次会议规模空前，会议主办方邀请了包括丘成桐、沈向洋、李飞飞、丛京生在内的学界、业界知名人物，这次大会除了14场非常值得关注的特邀报告，还有2场大会主题论坛、40余场学术论坛、30余场特色活动以及3个颁奖大会，同期还将有80余家企业举办科技成果展。雷锋网作为独家战略合作媒体对大会内容进行了全程覆盖和报道。

如何建立相对公正合理的学术评价体系，这是在人工智能研究飞速发展的今天被国际学术界高度关注的话题。在 cncc 2017《大数据驱动下的学术评价》技术论坛上，邀请到ccf 术语工委会主任周明，上海交通大学教授王新兵，中国工程院院士高文，北京大学教授金芝，微软研究院研究员王冠三共聚于此，探讨如何构建大规模异构学术图谱，有效利用图谱为广大学者服务，为学术评价和社会发展服务。此次论坛由清华大学副教授唐杰、微软亚洲研究院李锐博士主持，在panel讨论环节，还邀请到南京大学教授周志华、中科院计算所研究员陈熙霖。

从左至右依次为清华大学副教授唐杰、北京大学教授金芝、南京大学教授周志华、微软研究院研究员王冠三、中科院计算所研究员陈熙霖、上海交通大学教授王新兵、微软亚洲研究院李锐博士

作为第一位嘉宾，周明在论坛中介绍了ccf术语工作委员会，并详述了术语工作委员会中的分工。为了更好的进行术语工作，他们构建了三级火箭，第一级是专家火箭，这一级火箭主要涵盖的是之前一些专家的研究工作。下一级是网络火箭，其中包括新词挖掘，词义挖掘，合并、择优等，第三级是众包火箭，这一级会鼓励网友贡献新词条并审核编纂词条内容，为术语工作委员会做出贡献。

为什么会构造这样的三级火箭？他表示，专家火箭可能存在词条老旧的问题，这时候网络火箭就出现了，可以增加新的词条，例如alphago等，但是又出现了新的问题，比如分类体系不一致，要进行很多调整，另外在增加新词条的时候，必须要通过人工甄别断定分类，还有如何将网络上的简繁体文本对应起来。总体来说，网上找的资源良莠不齐，格式多样，无法用自动化手段去做，必须靠众包去做。

专家火箭和网络火箭目前进展顺利，众包火箭现在发展也不错。他们在做这件事的时候会有激励机制，为大家设计了不同的头衔以表彰其对计算机术语工作做出的贡献。大家可以基于他们的术语工作，做搜索、问答等各种各样的研究。

接下来，王新兵教授介绍了他们在学术地图上的一些研究。他表示，目前的数据量很大，要从数据中挖掘出某位老师或者学生的研究水平，需要进行多方面的考虑。他也提到如何将论文之间的关系联系起来，有什么好的做法，为实现这些目标有哪些核心的考虑。

在论坛中，他为大家详解了他们做的一些图。他们现在做的分析有挖掘论文之间的相关性，挖掘出某个领域比较重要的研究人员，以及谁在那个领域成长比较快，影响力比较大，挖掘某些研究的地理核心区域。在进行核心区域的研究中，也能看到中国在过去二十年间取得的发展。他还举例分析了几个重要会议（sigmod和sigir、cvpr和iccv、aes和oopsla）之间的交叉和联系。

他们的愿景是希望能通过数据分析来帮助大家，例如根据文章之间的关联性，进行文章推荐，或者进行关联的作者推荐。

随之而来的是高文院士的精彩演讲，他谈到最近讨论比较多的双一流建设，这个排名请了许多知名的专家来评价、讨论、制定规则，然后让机器去计算，但网上有很多对这个排名的调侃和不满。他表示，通过专家制定规则，然后再用提交的数据进行排序的方法，里面有些值得改进的地方。“用大数据做学术评价，很多时候能不能得奖和你的数据的公开程度直接相关，如果在网上几乎查不到你的信息，很大可能得不到高分。”

此外，他也发表了对利用论文数量做学术评价的看法。“学术评价一定要有科学性在里面，纯粹的数论文一定不行，但是论文数有一定的参考性。如果没有其他可参考的，那么数量可能是主要参考的点。”

“以前评价学者的水平靠人的判断，现在数据正在慢慢发挥作用，亚洲学者也多起来了。”他说道，“从社会进步、学科发展、个人发展来说，我们应该逐步关注、整理和维护数据，另外也应该乐于分享数据。此外，不能为了追求数据而数据，要科学地使用、判断数据。”

而现场观众也进行了踊跃的提问，比如什么时候机器可以制定规则，自然基金委在基础研发投入方面的做法，如何看待最近《美国新闻和全球报道》排出的全球高校排名。

下一位演讲嘉宾是金芝教授。本次论坛的主题为大数据驱动下的学术评价，她对学术评价做了介绍，目前存在定性和定量两种评价方法，比较科学的方法是将定量与定性有机的结合起来，给出全面的评价。另外，在做评价时需要考虑多维性，要尊重不同的价值体系。论坛的另一个关键点是大数据，她介绍了亿级学术图谱open academic graph，她表示，构建学术大数据的目的有三，一是集成丰富的学术知识数据，二是数据共享，三是服务共享。这些都非常有价值的，对于学术研究有很大的贡献。

在论坛中，她从窄义和广义上阐述了知识图谱的概念。而知件是计算机可操作性的知识模块，分为源数据层、策略层、表现层。关于知件她们也做了一些研究，在知件的基础上，如何进行模型驱动的知识抽取、知识的编排和演算，以及进行综合报告的深层化，这些都非常有意义。

在演讲的最后她提到，“我们希望在开放性学术知识图谱和可定制学术评价上，构建一个开放的学术评价社群。”

之后，王冠三先为大家描述了他认为的ai是什么，然后为大家描述了知识图谱的概念、包含哪些东西。他表示，他们之前在研究中让机器来读所有的论文，看机器是否能自己教会自己读取出需要抽取出来的信息等。

在对学者的排序过程中，对影响力的评估很重要。他们通过用不同的方法来进行排序，然后通过对结果来进行分析，来判断排序方法。目前有很多进行高校排名的方法，也出现了很多不同的名单，但并不是所有的方法都公平。他表示，他们用的是迭代算法来进行计算。在对学科进行评比的过程中，有些学校并不是每个小学科都能涵盖，这时候就需要选择有效的评比方法。另外，目前学术界每个月都会涌现出大量的论文，这时候就需要借助于机器。

最后，他也介绍到open academic graph数据的使用方式，以及一些与它相关的技术手段，例如如何构建关系，将图画出来。

作为最后一位演讲的嘉宾，唐杰副教授先是总结了大家前面的演讲，然后介绍了开放学术组织（open academic society），从理论研究、技术推广、国内国际合作等多个方面介绍了aminer的总体情况，目前他们已经与多个机构合作成立了研究中心，包括与中国工程院合作成立了知识智能联合实验室，与微软合作成立数据研究院科技大数据研究中心等。

此外，他也提到了open academic graph开放数据，他初步介绍了这个数据集的一些基本情况，除了论文数据，他们还发布了学者的相关信息、学者之间的关联信息、profile信息等。基于这些数据，他们还组织了一些数据挖掘比赛。

他表示，现在可以结合大数据、知识分析等，做出很多的学术地图画像，他为大家展示了他们做的人才迁徙图，可以看到国际上顶尖人才的迁徙路径。此外，基于那些学术大数据，他们还做了机构排名，也发布了cs领域最有影响力的学者排名。“大家要是有兴趣可以在这个数据上做非常多的工作，我们这个数据集完全开放。”

在最后panel讨论环节的嘉宾有金芝、周志华、王冠三、陈熙霖、王新兵，大家针对数据vs知识、大数据vs小数据、简单评价方法vs复杂评价方法等进行了精彩的讨论。针对最近的热门话题alphago zero，也有现场观众进行踊跃提问。欲知更多详细内容，敬请关注雷锋网 ai科技评论。

专题

cncc 2017 查看更多文章