顶流Mamba竟遭ICLR拒稿,学者集体破防,LeCun都看不下去了 顶流Mamba竟遭ICLR拒稿,学者集体破防,LeCun都看不下去了
admin
2024-01-26 17:15:52
0

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。

争议论文为Transformer架构挑战者Mamba,可以说开创了大模型的一个新流派。

发布两个月不到,就已建立起一个生态,MoE Mamba,多模态Mamba应有尽有。

但面对ICRL给出的如此结果,就连康奈尔副教授Alexander Rush都看不懂怎么回事了,“如果这都被拒了,那我们小丑们还有什么机会。”



在评论区和转发区,不少研究者带上小丑面具前来报道。





具体来说,四位审稿人打出8/8/6/3的分数,这样被拒很多人就已经觉得不正常。

其中一位审稿人提的问题是“有没有训练更大的模型,和10b参数的Transformer比较如何?”

对此,有人表示已经开始向审稿人提及实验成本了。

审稿人可能不知道他们要求的实验会花费50000美元。



ICLR会议创办的初衷正是优化同行评审过程,LeCun作为会议创始人之一,也表达了不满:

很遗憾,历届程序委员会主席慢慢把它变成了一个与传统评审流程差不多的会议。
只有一些小胜利:OpenReview平台现在被大多数ML/AI会议使用,以及论文提交后立刻就能被所有人阅读。



LeCun还举例自己也有一篇从未被接受、ArXiv独占的论文,现在被引用次数已超过1880次。



也有研究者认为,这次很多高分被接受论文与Mamba比起来充其量只能算个增量研究,更令人遗憾了。



这届ICLR混乱重重

先来借用给6分审稿人的意见,简单介绍一下Mamba论文的主要贡献。

提出了基于SSM状态空间模型的新架构,可实现 Transformer 质量的性能,同时线性缩放序列长度提出了一种硬件感知算法,通过扫描而不是卷积来循环计算模型,避免具体化扩展状态以减少内存使用。将先前的深度序列模型架构简化为同构架构,具有快速推理、线性缩放和改进的长序列性能在多种模态(语言、音频和基因组学)上都取得SOTA性能,成为跨模态通用序列模型主干的有力候选者。



这位审稿人提出的二次内存需求问题,不少熟悉这篇论文的人都表示不认可。





对此,作者也在Rebuttal中给出了解释,内存需求实际上是随序列长度线性增长的。



另外一位打3分的审稿人,还被吃瓜群众指出可能根本不熟悉什么是RNN。



作者针对这位审稿人的Rebuttal太长,足足分了4条才发完。



然鹅,这位对自己评分给出5级置信度的审稿人,根本没有回复。



这就让人更担心会不会影响领域主席的判断了。



正如这位研究者所说,这届ICLR出现的争议还不止一例。

8/8/6/3如果被拒还算事出有因,知乎相关讨论上还有得分8/8/8被AC拒,就更离谱了。



还有作者和审稿人吵起来,以至于要讨论礼貌问题的。



投稿接不接收全靠随机?

这也引发了网友们对整体学术评审现状的讨论。其中一个主要讨论点是评审过程有缺陷“接不接受真的很随机,和论文本身的质量关系不大”:



网友也是缓缓打出一个问号:

既然评审流程存在问题,那解决方案是什么?就靠运气?



对此,康奈尔副教授Alexander Rush甚至还提出了这样的建议(手动狗头):

如果你读博已经读到了第六年的那种,应该提交两篇糟糕的论文,而不是一篇好的。



不只一位学者分享了类似的建议:

我的教授曾说,论文被接受的过程就像掷一个四面骰子,如果这次运气不好,就再掷一次……



当然,也有人抱有不同的观点,认为会议作为一种认可,已出名的作品其实已经不需要了,可以给其他未被发掘的论文更多机会,所以已经出名的论文被学术会议拒绝也是完全可以接受的。



值得一提的是,还有不少人建议大家转投新生代会议CoLM,Alexander Rush也参与了这个会议的创办:



而大家提到的CoLM会议,全称Conference On Language Modeling,专注于语言模型领域。CoLM刚创立不久,第一届大会将在今年10月份举办。

其中七位组织者均是来自业界学界的大佬,其中有三位是华人学者谷歌周登勇、普林斯顿陈丹琦、Meta的Angela Fan。



与ICLR类似,CoLM将采用双盲审核,并使用OpenReview管理投稿。

会议征稿主题包括但不限于语言建模及大模型语境下的对齐、数据、评估、社会影响、安全、科学、高效计算、工程、学习和推理算法等17个方向。

据说,CoLM还是在ACL 2024主席公开抨击称“arXiv是科研的毒瘤”而后引发争论的背景下,催生出来的。





参考链接:
[1]https://twitter.com/srush_nlp/status/1750526956452577486
[2]https://x.com/ylecun/status/1750594387141369891
[3]https://openreview.net/forum?id=AL1fq05o7H

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...