首页 - 昆明资讯 - 北京大学团队获得WWW 2022唯一最佳学生论文奖

北京大学团队获得WWW 2022唯一最佳学生论文奖

发布时间:2022-05-05  分类:昆明资讯  作者:admin  浏览:1460

图1获奖证书及官方宣传4月29日晚,万维网峰会WWW-2022(Web大会)公布了本届最佳论文。以北京大学计算机学院崔斌博士生张文涛为第一作者的论文《可扩展范式下的PASCA :A图形神经架构搜索系统》获得大会唯一最佳学生论文奖。WWW获奖链接:https://www2022.thewebconf.org/awards/WWW(现更名为TheWebConf)大会是计算机和互联网领域最古老、最权威的顶级学术会议之一,被中国计算机联合会列为A类推荐国际学术会议。本次大会共收到1822篇论文,最终有323篇论文被接受,接受率为17.7%。本次大会只评选出最佳论文奖1个,最佳学生论文奖1个。获奖论文首先被大会“系统与基础设施”方向推荐为最佳论文,进入大会最佳论文候选人(共11人),并在最终评比中获得最佳学生论文奖。获奖论文由北京大学DAIR实验室和腾讯机器学习平台部天使图团队共同完成。这是WWW创办30多年来,中国学术研究机构第二次获得最佳学生论文奖。论文链接:https://dl.acm.org/doi/10.1145/3485447.3511986系统链接:https://github.com/PKU-DAIR/SGL1内容简介图的神经网络模型在很多图任务中取得了最好的效果,受到了学术界和工业界的广泛关注。但是,现有的图形神经网络系统有两个瓶颈,如下图所示。一方面,受限于单机场景下的存储和计算开销以及分布式场景下的通信开销,大多数基于神经消息传递(NMP)的图神经网络模型扩展性较低,难以直接应用于现实生活中的大规模图数据。如图2所示,以典型的基于消息传播机制的GraphSAGE模型为例,分布式场景下的高通信成本限制了图神经网络的可扩展性。另外,如图3所示,现有的图形神经网络系统需要用户针对特定的图形数据和图形任务编写代码和训练过程。但是设计网络结构也需要有经验的专家,建模成本很高。图二。神经网络的可扩展性瓶颈图3。神经网络的建模瓶颈。本文研究了大规模图学习过程中存在的两个问题:图模型的可扩展性差和建模门槛高,提出了一个可扩展的图学习系统,能够自动对超大规模图网络进行建模。具体而言,本文提出了一种新颖的图神经网络建模范式,并基于该范式设计了具有超过15万个网络结构的可扩展图网络设计空间,为图神经网络可扩展性的相关研究指明了新的方向和路线。此外,本文还实现并开放了一套多目标(如模型预测效果、资源占用)的自动图神经结构搜索系统,以支持更简单高效的大规模图学习。该系统的目标不同于现有的大规模图形神经网络系统。本文提出的PaSca是一个端到端的系统。如图4所示,系统的输入由两部分组成:1)图形数据2)搜索目标(预测性能、内存占用、训练和预测效率等。).给定这两个输入,系统可以在预定义的可扩展图网络搜索空间中自动高效地搜索,并输出兼容多个搜索目标的可扩展图神经网络模型。图4系统目标概述3系统设计和方法3.1可扩展性图神经网络建模范式图5两种建模范式的比较如图5所示。现有的图形神经网络模型大多遵循上图所示的消息传递机制。此外,为了兼容主流的图神经网络模型,相应的图神经网络系统也采用了基于消息传递机制的系统抽象。然而,基于消息传播机制的图模型需要在每次批量训练过程中进行聚合和更新。当图节点的数据分布在不同的机器上时,频繁的聚集操作会导致很高的通信开销。 与现有的消息传递机制不同,本文提出的可扩展范式(Scalable Paradigm,SGAP)将消息聚合操作与更新操作分离,定义了可扩展性图神经网络建模的新范式:预处理-训练-后处理。消息聚合操作只存在于前处理和后处理中,大大降低了分布式场景下的通信开销。3.2自动化搜索系统本文提出的自动化搜索系统包括两个模板,即搜索引擎和分布式验证引擎。如图6所示,在每次迭代中,搜索引擎会从搜索空间中推荐相应的可扩展图神经网络结构,然后评估引擎会对图网络模型进行训练,并返回模型的验证结果。图6 PaSca自动搜索系统架构搜索引擎的主要目标是寻找一种可扩展的图神经网络结构,在SGAP建模范式下可以同时兼容多个搜索目标。如表1所示,它首先定义了一个包含150,000种不同网络结构的搜索空间,并基于贝叶斯优化推荐网络结构。在每次迭代中,推荐服务器对观察到的网络结构和优化目标值之间的关系进行建模,并推荐能够最好地平衡多个优化目标的网络结构。最后,它根据验证引擎返回的观察结果更新历史信息。表1基于SGAP的网络结构搜索空间验证引擎主要用于高效地评估推荐模型的性能。对于预处理和后处理阶段,图形数据聚合器将在多台机器上划分和存储图形数据。对于任何节点,当计算其I阶消息时,工作节点将拉取其邻居信息并计算其下一阶信息。在训练阶段,每个工作节点可以基于参数服务器通过批量训练来更新网络参数。4实验结果本文在十个真实数据集上进行了实验。实验的主要目的是说明:1)基于SGAP的图形神经网络建模范式具有很高的可扩展性;2)PaSca系统搜索的网络能够很好地平衡多个搜索目标,达到良好的预测性能。图7是可扩展的。性分析本文比较了基于SGAP范式建模的PaSca-APPNP模型以及基于NMP范式建模的GraphSAGE模型在分布式场景下的可扩展性。固定总的批处理大小并增加工作节点的数目,如图7所示,实验发现PaSca-APPNP能够获得更接近理想情况下的加速比。图8 搜索结果的帕累托平面如图8所示,实验展示了PaSca系统在Cora数据集的搜索结果的帕累托平面。本文从中挑选了3个代表性的模型,分别命名为PaSca-V1, PaSca-V2和PaSca-V3。这些代表性模型能兼容不同的优化目标,比如PaSca-V3取得了最小的分类误差但是比PaSca-V2的预测时间更久。图9 搜索结果的训练时间与预测性能对比如图9所示,本文实验测试了搜索出来的代表性模型在实际Industry数据集上的预测性能和训练时间。可以看到PaSca-V2和PaSca-V3的预测效果都优于JK-Net,但是训练时间更短。此外,如表2所示,本文在八个数据集上测试搜索出来的代表性模型的预测性能。实验发现,基于SGAP建模范式的图神经网络模型能够取得和其他范式下模型相当甚至更好的预测性能。另外,搜索出来的PaSca-V3始终取得了最好的模型预测性能。表2 搜索结果的预测性能5系统应用Angel Graph图计算团队目前负责论文成果在腾讯内部的技术落地。获奖论文的相关成果已实现于Angel Graph系统并部署于腾讯公司太极机器学习平台,广泛应用于金融风控和社交网络推荐等业务,代表性业务落地场景如下:1)微信公众号文章视频推荐场景点击率提升1.6%;2)PCG平台与内容事业群内容风控场景恶意识别覆盖率提升10%;3)微信运营平台中心社交反欺诈场景欺诈账号识别覆盖率提升20%;4)全民K歌个人主页用户相似推荐场景人均关注提升2.397%。6总结图神经网络模型在多个图任务上都取得了最佳效果,并受到了学术界和工业界的广泛关注。然而,大多数图神经网络模型可扩展性较低,很难直接用于现实生活中的大规模图数据。此外,设计针对特定图数据和图任务的神经网络结构也需要经验丰富的专家,建模成本很高。为此,本文提出了一个非常新颖的图神经网络建模范式,并基于该范式设计了一个可扩展的图神经结构搜索空间,为图神经网络可扩展性的相关研究指明了一个新的方向和路线。此外,本文还实现并开源了一套多目标(如模型预测效果和资源占用)自动化图神经结构搜索系统,搜索出来的代表性模型在预测性能、效率以及可扩展性方面都取得了较好的平衡。PaSca系统能帮助研究者更好地探索可扩展的图神经网络结构,极大地促进了图神经网络从学术研究走向实际落地。7团队介绍北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文100余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。本论文得到了国家自然科学基金重点项目和北京大学-腾讯协同创新实验室等资助。腾讯Angel Graph图计算团队目前主要维护腾讯自研的高性能图计算框架,Angel Graph吸收了Angel参数服务器、Spark以及PyTorch优势,使得传统图计算、图表示学习和图神经网络“昆明信息三位一体”,实现了高性能、高可靠、易用的大规模分布式图计算框架。