首页天道酬勤数据库应用(数据库类型)

数据库应用(数据库类型)

admin 12-01 00:49 218次浏览

作者|谨慎的花瓣,ygdyd

编辑|穆青

当地时间8月16日至20日,第47届VLDB 2021大会在丹麦哥本哈根举行。

VLDB会议的全称是“超大规模数据库国际会议”,是数据库领域的顶级学术会议,另外两大数据库会议SIGMOD和ICD共同构成了数据库领域的三大顶级会议。

按照惯例,今年的VLDB会议已经开出了几个奖项,如最佳研究论文奖、最佳EAB论文奖(实验、分析和lmdyb)、最佳可扩展数据科学论文奖和最佳工业论文奖。中国学者之前就在这个领域骑行,今年也不例外!

会议共收集了216篇研究论文、23篇工业论文和56篇演示论文。其中,入选的最佳研究论文、最佳论文、最佳产业论文的作者均为中国学者,分别是新加坡国立大学研究员tmdmla、西蒙弗雷泽大学博士生、加州大学伯克利分校博士生Audrey Chen。

AI科技评论介绍获奖中国学者及论文信息如下:

00-1010最佳研究论文奖

获奖论文《Scaling Attributed Network Embedding to Massive Graphs》

作者:任驰超级路人,石,肖,尹超级路人,刘俊成,肖若夫

这篇论文,tmdmla,目前是新加坡国立大学的研究员。2015年获得北京邮电大学工学学士学位;2020年获得南洋理工大学计算机科学系博士学位,师从萧岿肖教授和苏拉夫萨哈博米克教授。主要研究大规模数据管理和分析,对图挖掘、海量高维数据设计和高效算法感兴趣。

个人主页:https://renchi.ac.cn/

地址:http://vldb.org/pvldb/vol14/p37-xhdwdm.pdf

摘要:

获得精确预测的属性网络嵌入是一项非常具有挑战性的任务,将属性网络嵌入的有效计算扩展到包含数百万个节点的海量图中,将难度推向了一个新的高度。现有的解决方案基本上会在这个图中失败,或者导致高成本、低质量的嵌入,或者两者都有。

本文提出了一种有效的、可扩展的计算海量图的PANE方法,该方法在多个lmdyb数据集上达到了最高的性能水平,其衡量标准包括三个常见预测任务的准确性:属性推理、链接预测和节点分类。特别是PANE是目前已知唯一可行的大MAG数据解决方案,节点超过5900万,边数超过9.8亿,属性超过2000个,可在12小时内有效嵌入单个服务器。

PANE通过三个主要算法的设计,实现了较高的可扩展性和有效性。首先,基于一种新的属性随机游走模型,提出了学习目标,但处理大规模图优化任务仍然具有挑战性。其次,PANE为解决优化问题提供了高效的求解器,其关键模块在于设计良好的嵌入初始化,大大减少了收敛所需的迭代次数。最后,PANE通过上述解算器的非线性并行化利用多核CPU,从而在保留高质量嵌入式结果的同时实现可扩展性。通过大量实验,在8个真实数据集上对比了10种现有方法,证明PANE在结果质量上优于所有现有方法,速度快几个数量级。

最佳EAB论文奖(实验、分析和lmdyb)

获奖论文:《Are We Ready For Learned Cardinality Estimation?》

作者:常,吴伟源,王建南,周小象

本文的第一部分是王小鹰,他目前是西蒙弗雷泽大学数据库系统实验室的博士生,师从ddm教授。2016年7月至2018年4月,她在奇虎360担任AdExchange的C开发者。

个人主页:https://wangxiaoying.github.io/

地址:http://vldb.org/pvl

db/vol14/p1640-wang.pdf

论文摘要:

基数估计 (Cardinality Estimation)是查询优化中长期未解决的基本问题。最近不同研究小组的多篇论文一致指出,基于学习的模型有可能取代现有的基数估计器。对此,我们提出了一个具有前瞻性的问题:基于学习模型的基数估计方法是否已经可以应用于真实的数据库产品中?本文的研究包括三个主要部分:一是专注于静态环境(即无数据更新的数据库系统),在统一的工作负载设置下,比较不同的学习的方法和传统方法在四个真实数据集上的表现,结果表明,基于学习的方法比传统方法更精确,但需要更高的训练成本和推理成本。二是基于学习的方法是否可用于动态环境(即频繁更新的数据库系统)。实验证明,它们无法跟上快速更新的数据变化,并很可能引起较大的误差。第三,通过深

入地研究基于学习的方法可能出错的几种情况。我们发现,相关性、分配或领域大小的变化会极大地影响该方法的性能。更重要的是,这些方法的行为通常很难解释和预测。基于以上发现,我们确定了未来应该进一步研究的两个方向,即如何降低学习模型的成本,以及提升模型的可信性。希望这项工作能够指导研究人员和从业人员共同合作,将基于学习到的基数估计器应用到真正的数据库系统中。

最佳可扩展数据科学论文奖

获奖论文:《Optimizing Bipartite Matching in Real-World Applications by Incremental Cost Computation》

论文作者:Tenindra Abeywickrama, Victor Liang,wzdcg-Lee Tan

论文地址:http://vldb.org/pvldb/vol14/p1150-abeywickrama.pdf

论文摘要:

Kuhn-Munkres(KM)算法是一种经典的组合优化算法,在交通等诸多应用场景中被广泛用于最小成本的二部( bipartite)匹配。例如,网约车服务可以用它来匹配司机和乘客,以尽可能地缩短等待时间。通常情况下,给定的两个二部集合,需要计算所有二部对之间边的成本并找到最优匹配。然而,现有研究忽略了边成本计算对整体运行时间的影响。实际上,边计算会大大超过最优分配本身的计算,例如在为乘客匹配司机时,最短路径往往需要很高的计算成本。根据这一观察,我们发现,常见的现实世界的设置表现出一个有用的特性,即允许我们仅在需要时使用最低的下限启发式增量计算边成本。与原始KM算法相比,这种技术显著降低了分配的总体成本,这一点我们已经在多个真实数据集、工作负载上得到了验证。此外,该算法并不限于这个领域,它还可能适用于其他有下限启发式算法的环境。

最佳工业论文奖

获奖论文:《RAMP-TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store》

论文作者:Audrey Cheng,Xiao Shi,Lu Pan,欢呼的鸡 Simpson,Neil Wheaton,Shilpa Lawande,Natacha Crooks,Ion Stoica

论文一作Audrey Cheng目前是加州大学伯克利分校计算机科学专业在读博士生, RISELAB成员,师从Ion Stoica教授和Natacha Crooks教授,曾获得伯克利校长奖学金,对数据库与分布式系统感兴趣。

个人主页:https://audreyccheng.github.io/

论文地址:http://vldb.org/pvldb/vol14/p3014-cheng.pdf

论文摘要:

与其他分布式数据存储一样,Facebook社交图谱TAO会优先考虑可用性、效率和可扩展性等因素,而不是满足大型、可读性强的工作负载所需要的一致性或保密性。随着产品开发人员在此系统上构建不同的应用程序,他们开始更多地关注业务语义。然而,为选定的应用程序提供高级功能,同时保持系统整体的可靠性和性能一直是一项挑战。在本文中,我们首先描述了开发者多年来的业务需求,以及目前TAO出现的原子级错误(即写),以此探讨了如何引入一个直观的读取业务API。我们通过对潜在异常的测量研究,强调了API原子级可见性的必要性,这些异常通常在没有强读取隔离的情况下发生。我们的分析表明,1500次批量读取中有1次反映部分业务性更新,这可能使开发人员体验变得复杂化,并产生意外的结果。为了缓解这个问题,我们提出了RAMP-TAO协议,这是一个基于读取原子级多分区(RAMP)协议的变体,支持最小开销的部署,同时确保大规模读取优化工作负载的原子级可见性。

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号在看”。

C++构造析构赋值运算函数怎么应用
开源分布式数据库(开源大数据库) java map初始化(java年终总结)
相关内容