最近,ICLR 2024,人工智能顶级会议,公布了录取结果。蚂蚁集团在这次会议中有11篇论文被接收,其中1篇被评为口头报告,3篇被选为焦点报告,另外7篇则为海报展示。蚂蚁集团在人工智能学术界的进展备受瞩目。
(图:蚂蚁集团的《长视频中的多粒度噪声关联学习》被收录为Oral论文)
今年ICLR组委会收到了7262篇论文投稿,录用率约为31%。根据录用结果,其中1.2%的论文被录用为Oral论文,这些作者将获得10分钟的口头演讲机会。另外5%的论文被录用为Spotlight论文,这些作者将有4分钟的聚光灯展示时间。剩下的论文将以海报形式进行展示。总体来说,Oral论文的重要性最高,其次是Spotlight论文,而Poster论文的重要性最低。
每年,ICLR Oral论文中有相当一部分会被评为“ICLR最佳论文”,这也意味着它们指引了新一年的研究方向。今年,ICLR评选出了85篇Oral论文,其中包括蚂蚁集团的《Multi-granularity Correspondence Learning from Noisy Instructional Videos》(从嘈杂的教学视频中进行多粒度关联学习)。这篇论文提出了一种利用噪声教学视频进行学习的方法,通过多种粒度的关联学习,提高了模型的性能和鲁棒性。这项研究对于解决现实世界中存在的噪声和不确定性问题具有重要意义,并为视频理解领域的进一步发展提供了新的思路。
短视频已成为大众日常生活的主要娱乐方式,而多模态技术则是当前AI领域的热门研究方向。然而,由于计算资源开销较大,现有的视频工作主要集中于对片段的理解,而忽视了长视频中的时序依赖。为了解决这一问题,该论文将长视频学习转化为短视频片段间的关联对齐。针对视频与文本之间存在的噪声关联问题,研究提出了统一的最优传输对齐方案,这一方案显著提升了长视频的理解能力,并且在时间开销上也取得了节省。通过这项研究,我们可以更好地理解长视频,并且在处理视频与文本之间的关联时能够更加准确和高效。
这个方案的通用性很强,提出的噪声关联处理方法适用于其他需要内容对齐的模型预训练学习。
Spotlight收录了三篇论文,它们分别是《iTransformer: Inverted Transformers Are Effective for Time Series Forecasting》(iTransformer:倒置Transformer对时序预测更加有效)、《Enhanced Face Recognition using Intra-class Incoherence Constraint》(利用类内不一致性约束增强的人脸识别技术)和《Finite-State Autoregressive Entropy Coding for Efficient Learned Lossless Compression》(基于查找表实现的可学习自回归模型用于高效无损压缩算法)。 第一篇论文介绍了一种新的时间序列预测方法,通过打破常规模型结构,在复杂时序预测任务中取得了全面领先的成果。这项研究对于改进时间序列预测的准确性和效率具有重要意义。 第二篇论文引入了一种新的方法来提高人脸识别的精确度。该方法利用了类内不一致性约束,进一步优化了人脸识别技术。这项研究对于提高人脸识别系统的性能和准确性具有重要意义。 第三篇论文提出了一种基于查找表实现的可学习自回归模型,用于高效无损压缩。这项研究实现了高压缩率和高吞吐率的无损压缩算法,对于数据压缩和存储方面具有重要的应用价值。 这三篇论文的发表都在各自领域取得了重要的突破和进展,为相关领域的研究和应用提供了有力支持。它们的出现丰富了学术界的研究成果,并为相关领域的发展带来了新的可能性。
自2017年以来,ICLR每年收到的论文数量以30%的速度增长,而NeurIPS和ICML这两个人工智能顶会也呈现高速增长趋势。在最近的NeurIPS会议上,蚂蚁集团共有20篇论文被收录,这些论文涵盖了计算机视觉、自然语言处理、图神经网络、图像处理等多个人工智能和机器学习领域的前沿主题。这一成果进一步证明了蚂蚁集团在人工智能领域的卓越研究实力和创新能力。
(图:ICLR自2013年成立以来,每年的论文数量情况。2017年开始,论文数量攀升。)
ICLR近年受到业内好评,主要原因是其推行的Open Review评审制度,所有提交的论文都会接受所有同行的评价及提问,任何学者都可匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。
据了解,过去五年,蚂蚁集团在国际顶级学术期刊和学术会议上发表论文近500篇,其中AI领域的论文300余篇。蚂蚁集团在人工智能领域持续进行技术投入,基于大规模业务场景的需求,布局了包括大模型、知识图谱、运筹优化、图学习、可信AI等在内的技术领域。