当前位置: 首页 > 科技 > 人工智能 > SIGIR 2020开幕在即,一文详解过去五年引用量TOP论文_腾讯新闻

SIGIR 2020开幕在即,一文详解过去五年引用量TOP论文_腾讯新闻

天乐
2020-07-16 18:56:50 第一视角

信息检索领域的顶级学术会议 ACM SIGIR 2020,将于今年 7 月 25-30 日全程在线举行。作为 CCF 推荐的 A 类国际学术会议,SIGIR 历来都是互联网业内关注的焦点。

ACM SIGIR 会议(全称为 ACM Special Interest Group on Information Retrieval,国际计算机协会信息检索国际会议)创始于 1971 年,至今已有四十多年的历史。2011 年,SIGIR 曾首次在北京举行,而今年原定于在西安召开的第 43 届 SIGIR 盛会,因为疫情改为全部线上举办。

据悉,今年 SIGIR 论文投稿创历史新高,共收到论文投稿总数 1180 篇,总共录取 340 篇。其中,共收到 555 篇长文投稿,仅有 147 篇长文被录用,录用率约 26%;共收到了 507 篇短文投稿,录用 153 篇,录取率为 30%。来自 32 个国家的 1221 名作者为录用论文做出了贡献。

本次会议邀请到了 6 位重磅 Keynote 嘉宾:多伦多大学 Geoffrey E. Hinton 教授、西安交通大学徐宗本院士、谷歌 Elizabeth F. Churchill 博士、杜伊斯堡-埃森大学 Norbert Fuhr 教授、美国国家标准与技术研究院 Ellen M. Voorhees 博士、悉尼大学 Dacheng Tao 教授等,他们将为大会带来精彩报告。

AMiner 上线了 SIGIR 2020 最新专题,收录了今年录用的所有论文,并对过去历年来 SIGIR 的录用论文数据进行了分析,后期还将陆续推出论文数据分析与论文精读等内容,为大家详解 SIGIR 2020 最新动态。

入围论文

在 2015 年至 2019 年的五年间,在 SIGIR 发表的论文作者,男性比例占据了 84%,女性仅占 16%;这些作者主要来自美国、中国、意大利、日本、英国等国家。

根据对近 5 年 SIGIR 论文的关键词提取,可以看到 SIGIR 的关键词主要集中在信息检索、网络检索、问答、社交网络等领域。

高产作者

在过去五年中,在 SIGIR 发表论文的 TOP10 作者详见下图。其中国内五名学者上榜,仅清华就占据了四席。

排在首位的是国际人工智能领域著名专家、荷兰皇家艺术与科学院院士、荷兰国家人工智能创新中心主任、荷兰阿姆斯特丹大学教授 Maarten de Rijke,五年里他在 SIGIR 共发表了 40 篇论文。Maarten 的主要研究领域包括自然语言处理、信息检索、知识挖掘等,他于 2017 年获得代表国际信息检索领域终身成就的 Tony Kent Strix 奖。

排在第二位的是滑铁卢大学教授、谢尔顿计算机科学系主席 Jimmy Lin,他共发表了 28 篇论文。他的主要研究兴趣在于构建帮助用户处理大数据的工具,研究方向主要在于信息检索、自然语言处理和数据库的交叉领域,专注于大规模分布式算法和数据分析基础架构。

中国人工智能学会常务理事、信息检索与内容安全专委会副主任、清华大学教授马少平,清华大学计算机科学与技术系副教授张敏并列第三位,他们都发表了 25 篇论文。马少平教授主要从事智能信息处理方面的研究工作,包括模式识别、文本信息检索、中文古籍的数字化与检索等。张敏主要研究领域为信息检索与推荐、用户行为分析、机器学习。

清华大学计算机科学与技术系教授刘奕群排名第四,他共发表了 22 篇论文。他的主要研究领域集中在信息检索、互联网搜索技术以及自然语言处理研究方面,曾获得 CIKM 2018 最佳论文奖、SIGIR 2017 最佳学生论文奖、AIRS 2018 最佳论文奖等学术奖励等。

排名第五位至第十位的分别是,马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士 W. Bruce Croft,格拉斯哥大学研究员 Craig Macdonald,中国科学院网络数据科学与工程重点实验室副研究员郭嘉丰,格拉斯哥大学博士 Leif Azzopardi,中国科学技术大学教授何向南。

近 5 年引用量 Top 10 论文

在过去五年间,引用量 TOP10 论文主要发表于 2015 年与 2017 年年间。

1 Accurately interpreting clickthrough data as implicit feedback (2017)引用量:1497

作者:Thorsten Joachims,Laura A. Granka,Bing Pan,Helene Hembrooke,Geri Gay

这篇文章研究了在 WWW 搜索中从点击数据生成的隐式反馈的可靠性。使用眼动追踪分析用户的决策过程,并将隐式反馈与手动相关性判断进行比较,作者得出结论,点击是有益的,但存在偏见。尽管这使得将点击次数解释为绝对相关性判断很困难,但我们显示,从点击次数中得出的相对偏好平均而言是相当准确的。

2 Personalizing search via automated analysis of interests and activities (2017)引用量:1091

作者:Jaime Teevan,Susan T. Dumais,Eric Horvitz

3Image-Based Recommendations on Styles and Substitutes(2015)引用量:853

作者:Julian J. McAuley,Christopher Targett,Qinfeng Sh,Anton van den Hengel

在这篇文章中,作者认为人类不可避免地会对物体之间的关系产生一种感觉,其中有些是基于它们的外表,有些对象可能被视为彼此的替代品(如两条牛仔裤),而另一些则可能被视为互补(如一条牛仔裤和一件相配的衬衫)。这些信息决定着人们的许多选择,从买衣服到相互交流。作者试图根据物体的外观来模拟人类对物体之间关系的感觉,本文提出的的方法不是基于用户注释的细粒度建模,而是基于捕捉尽可能大的数据集,并开发一种可伸缩的方法来揭示人类对其中视觉关系的概念。作者把这个问题归结为一个定义在相关图像上的网络推理问题,并提供了一个大规模的数据集来进行训练和评估,作者开发的系统能够在众多其他应用程序中推荐哪些衣服和配饰能够很好地搭配,而哪些不搭配。

4 Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks(2015)引用量:573

作者:Aliaksei Severyn,Alessandro Moschitti

5 Fast Matrix Factorization for Online Recommendation with Implicit Feedback(2016)引用量:435

作者:Xiangnan He,Hanwang Zhang,Min-Yen Kan,Tat-Seng Chua

6 Twitter Sentiment Analysis with Deep Convolutional Neural Networks(2015)引用量:415

作者:Aliaksei Severyn,Alessandro Moschitti

7 Neural Factorization Machines for Sparse Predictive Analytics(2017)引用量:352

作者:Xiangnan He,Tat-Seng Chua

8 RGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models(2017)引用量:254

作者:Jun Wang,Lantao Yu,Weinan Zhang,Yu Gong,Yinghui Xu,Benyou Wang,Peng Zhang,,Dell Zhang

9 Rank-geoFM: A ranking based geographical factorization method for point of interest recommendation(2015)引用量:226

作者:Xutao Li,Gao Cong,Xiaoli Li,Tuan-Anh Nguyen Pham,Shonali Krishnaswamy

10Monolingual and Cross-Lingual Information Retrieval Models Based on (Bilingual) Word Embeddings(2015)引用量:210

作者:Ivan Vulic,Marie-Francine Moens

更多SIGIR 2020信息请访问:https://www.aminer.cn/conf/sigir2020

这篇文章也是 SIGIR2017 的十年最佳论文得主。在该文中,作者构想和研究了一种搜索算法,这种算法考虑了用户之前与内容之间的大量互动,以个性化用户当前的网页搜索。作者没有依赖不切实际的假设(人们在搜索时能够准确地确定目标),而是探究利用包含用户兴趣这一隐含信息的技术。这些信息可用于在相关反馈框架(relevance feedback framework)内对网页搜索结果进行重新排序。作者利用与搜索相关的信息(如之前的查询和访问过的网页)和用户的其他相关信息(如用户阅读和创建的文档和邮件)构建大量符合用户兴趣的模型。该文的研究显示用户的大量表征和语料对个性化尤为重要,而逼近这些表征、为个性化搜索提供高效的客户端算法也是可能的。最终,证明这种个性化算法可以大幅改善当前的网页搜索。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部