从被拒稿到荣耀加冕:时间检验奖背后的故事
谢赛宁十年前未能被NeurIPS(当时仍名为NIPS)接受的论文,近期荣获了AISTATS 2025年度时间检验奖。
这篇论文就是《Deeply-Supervised Nets》(DSN,深度监督网络),2014 年 9 月挂上 arXiv。
时间匆匆,十一年过去,属于是真・时间检验了。
这一创新性的中间层监督思想被谢赛宁后续的研究成果REPA(Representation Alignment)以及U-REPA(U-Net Representation Alignment)所延续和发展,体现了从单个模型的优化向跨模型知识迁移的演进过程。
近两年来,深度学习与扩散模型的快速发展对相关领域产生了深远的影响。
“恭喜!”“当之无愧!”
AISTATS官方发布的获奖推文下,众多业界专家云集,纷纷送上祝贺。
当初,这篇论文被AISTATS录用。不过,在谢赛宁个人的转发推文中,我们得知了另一层内幕——
这篇研究最初投递至NeurIPS会议,尽管获得了8/8/7的高评分,但遗憾未能被该顶级会议录用。
他表示:
那次挫折一直萦绕在我心头,困扰着我……
补充下背景信息 ——
《Deeply-Supervised Nets》是谢赛宁攻读博士学位期间提交的第一篇论文。
他与现任谷歌研究科学家Chen-Yu Lee共同担任了这一重要研究的第一作者。这项合作成果不仅展示了他们在学术领域的深厚积累,也凸显了跨机构合作在推动科技进步中的关键作用。在我看来,这样的合作模式值得鼓励,因为它能够汇聚不同背景的研究者,碰撞出更多创新的火花。尤其是在人工智能等快速发展的领域,多学科、多团队的合作无疑能加速技术突破,为社会带来更多实际应用的可能性。
该项目的通讯作者为清华校友,并且是马尔奖得主,目前在UCSD担任计算机科学与工程系教授的屠卓文。他同时也是谢赛宁和Chen-Yu Lee的博士生导师。
这篇论文提出的DSN(深度监督网络)方法,聚焦于深度学习领域中隐藏层特征学习的难题,并通过引入更深层次的监督机制来优化模型表现,从而显著提升了分类任务的准确性。 在我看来,DSN方法的核心创新在于它不仅关注最终输出的结果,还特别强调对隐藏层的学习过程进行有效引导。这种设计思路非常符合当前人工智能发展的趋势——即更加注重模型内部机制的理解与优化。随着数据量的不断增长以及应用场景的日益复杂化,如何让机器更好地理解数据背后的本质规律成为了一个重要课题。而DSN正是在这方面迈出了坚实的一步,它为我们提供了一种全新的视角去思考深度学习模型的设计理念。 此外,我认为这项研究还有助于推动相关技术在实际应用中的落地。例如,在图像识别、语音处理等领域,DSN或许能够帮助我们构建出更为精准且鲁棒性强的系统。当然,任何新技术都存在改进空间,未来的研究可以进一步探索如何降低DSN方法的计算成本,使其能够在资源受限环境下也能发挥出色性能。总之,DSN的提出无疑为深度学习领域注入了新的活力,值得我们持续关注和支持。
深度学习在当时已经迎来新一轮的发展高潮,在图像分类与语音识别等领域取得了令人瞩目的成就。这一技术的进步不仅展示了人工智能领域的巨大潜力,也让我们看到了科技改变生活的更多可能性。特别是在图像分类方面,深度学习算法的突破使得机器能够更精准地识别和分类复杂的视觉信息,这为医疗影像分析、自动驾驶等应用场景提供了强有力的支持。而在语音识别领域,深度学习的应用让机器听懂人类语言变得更加自然流畅,这对智能助手、语音翻译等实际应用都带来了显著提升。可以说,深度学习正在成为推动现代科技进步的重要引擎,未来还有无限可能等待我们去探索。
不过,深度学习技术在带来便利的同时,也存在不少亟待解决的问题。例如,隐藏层特征的表现力不足,容易造成模型透明度下降,这直接影响了模型的判别能力。此外,在训练过程中,梯度消失或梯度爆炸现象频发,使得模型难以稳定收敛,给训练带来了不小的挑战。同时,我们对于深度学习算法的行为机制还缺乏深入的数学解析,这限制了我们对其潜在规律的认识。再者,这类模型通常需要海量的数据支持才能达到理想效果,而实际应用场景中未必能够满足这一条件。最后,超参数调节过程繁琐且耗时,往往需要技术人员反复尝试,增加了开发成本和技术门槛。这些问题的存在提醒我们,虽然深度学习取得了显著进展,但其理论体系仍需进一步完善,未来的研究应更加注重提升算法的可解释性与鲁棒性,以推动技术更广泛地服务于社会。
研究团队通过观察得出结论,利用高判别力特征进行训练的分类器表现更出色。
通过在网络各隐藏层利用特征质量反馈,直接影响权重更新,能让网络更快学习到好的特征,减轻梯度问题,且不影响整体网络性能。
于是,团队提出 DSN,通过中间层监督机制解决 CNN(传统卷积神经网络)的三大痛点:
梯度消失
在隐含层加入辅助分类器(“同伴”目标),借助分层反向传播加强梯度信号。
特征鲁棒性
在AlexNet的研究中,通过让中间层直接参与到最终的分类任务中,显著提升了浅层特征的判别能力,其中第3层特征的分类准确率提升了18%。这一发现表明,在深度学习模型的设计中,合理调整各层的功能分配可以有效增强网络的整体表现。我认为,这种策略不仅为优化现有架构提供了新思路,还强调了深入理解每层功能的重要性。未来,或许可以通过更精细地设计网络结构,进一步挖掘每一层的潜力,从而实现更加高效的模型训练与应用。这无疑是对人工智能技术发展的一大贡献。
训练效率
实验证明,在CIFAR-10数据集上应用DSN技术后,ResNet-50不仅实现了训练收敛速度提升约30%,还显著提高了Top-1准确率2.1个百分点。这一成果无疑为深度学习模型的优化提供了新思路。 我认为,这项研究的意义不仅在于技术层面的突破,更在于它展现了模型优化与效率提升之间的平衡之道。在实际应用场景中,训练时间的缩短意味着更高的开发效率和更低的成本投入,而准确率的提升则直接关系到最终用户体验。DSN技术的成功实践表明,未来我们或许可以通过类似的方法进一步挖掘现有网络架构的潜力,从而推动整个AI领域向前发展。这不仅是对技术本身的肯定,也是对未来可能性的一种展望。
时至今日,该成果已成为计算机视觉领域的经典方法,成为首个在生成式 AI 领域产生跨代影响的监督学习框架。
截至本文推送,这篇论文的谷歌学术被引量超过 3000 次。
那,为什么当时的 NeurIPS 没有接收这篇论文呢?
或许评审们认为这项研究只是对传统卷积神经网络(CNN)的渐进式优化,而非具有革命性的突破。而在当时,NeurIPS更加倾向于那些在理论层面有显著进展或是提出全新架构的工作。这其实也反映了学术界的一种趋势,即更偏好能够引领未来方向的研究。然而,这种对颠覆性创新的偏爱有时也可能让一些扎实的改进型工作被低估。毕竟,很多技术的进步正是通过这些逐步优化实现的。这类研究虽然看似不起眼,却能在实际应用中发挥重要作用,为后续的重大突破奠定基础。因此,如何平衡理论创新与实用改进之间的关系,可能是学术评价体系需要进一步思考的问题。
总之,尽管这篇论文在评审环节获得了8/8/7这样的高分评价,却依然遗憾地未能通过最终录用。这一结果令人深思:学术评审的标准是否过于严苛?或者这篇论文本身还存在某些未被充分发掘的价值? 从评审分数来看,三位专家显然对论文的研究成果给予了高度认可。然而,最终的拒稿决定可能反映了当前学术界对于创新性和实用性的双重考量。或许这篇论文在理论深度上达到了一定高度,但在实际应用前景或跨学科融合方面还有提升空间。 无论如何,这起事件提醒我们,学术评价体系并非完美无缺。它既需要严格的筛选机制,也需要更多的包容性,为那些具有潜力但尚未完全成熟的成果提供展示的机会。毕竟,科研的意义在于探索未知,而非仅仅追求完美。
现在,当初接收 DSN 的 AISTATS,又给予了这个项目时间检验奖以嘉奖。
众所周知,计算机会议的时间检验奖一般以获奖前十年内发表的论文为评选基础,而高被引量则是其中的关键衡量标准。这一奖项的设计初衷在于表彰那些经受住时间考验的研究成果,它们不仅在学术领域产生了深远影响,还持续推动了相关技术的发展。然而,高被引量虽然能够反映出研究的热度与认可度,但是否能完全代表其真正的学术价值仍值得商榷。毕竟,有些研究可能因迎合热点而获得关注,却未必具备长期的实用性和创新性。因此,在评选此类奖项时,除了参考引用次数外,或许还应结合更多维度,比如实际应用效果或对学科发展的长远意义,从而更全面地评估一项研究的价值。
而更为重要的是,时间检验奖获奖项目需被同行评价为开创性工作(seminal work),或理论创新,或有应用价值,成为后续研究的基础范式。
就像 GAN 启发了生成式模型,Seq2Seq 推动机器翻译的发展。
至此,谢赛宁在相关推文中写下,“也许现在我可以终于释怀。”(愿他真的从此释怀~)
当然,谢赛宁依然慷慨地分享了他的更多感悟与经验总结。 在我看来,这种开放的态度不仅展现了个人的谦逊与真诚,更体现了对公共话题的深刻关切。在信息爆炸的时代,能够听到这样来自实践的声音尤为珍贵。他的分享不仅仅是个人经历的呈现,更是对行业趋势的一种敏锐洞察。这样的交流有助于推动相关领域的进步与发展,同时也为后来者提供了宝贵的参考路径。我们期待未来能有更多类似的思想碰撞,共同促进社会认知的提升。
谢赛在一次面向学子们的讲话中提到:“或许不该将学术会议简单类比为大乐透,但坚持与努力确实是推动学术生涯不断向前的重要动力。”他鼓励那些因近期论文评审结果而感到失落的学生们,“就像DSN获得时间检验奖一样,它提醒我们,哪怕暂时未达预期,也请不要轻言放弃。同学们,若你们正在为下一篇作品打磨细节,这份坚持终会迎来回报,希望这个例子能让你们感受到继续努力的意义。” 我的看法是,谢赛的话不仅传递了对学术道路的深刻理解,更体现了对年轻学者心理状态的关注。学术之路充满挑战,失败与挫折不可避免,但正如他所言,成功往往属于那些能够持续投入的人。DSN获奖的故事,正是这种精神的最佳注脚。对于学生而言,这样的激励尤为重要,它教会我们如何面对压力,同时也让我们明白,真正的成长来自每一次跌倒后的重新站起。
后来他又对自己的感悟进行了补充说明 ——
坚持不懈并不仅仅是说“继续努力”或者“再试一次”,它需要一个强大的支持系统和具体的实践指导。
当我进入 UCSD 时,我对研究一无所知。我的导师屠卓文耐心地指导我们,从编程和数学证明相关的基础知识,到提出自己的研究想法,再到在台上自如地演讲。
等我真正成为教授后,才深刻感受到这样细致入微的指导是何等珍贵。在学术道路上,能够得到如此耐心而专业的引领,无疑是一种难得的幸运。如今回望,这样的机会在当下显得尤为稀缺。尤其是在竞争日益激烈的教育环境中,师生之间的深度互动正逐渐被快节奏的教学模式所取代。我认为,大学教育的核心不仅在于传授知识,更在于激发学生的潜能与独立思考的能力。而这一切,离不开导师们倾注心血的悉心指导。希望未来能有更多学者愿意投入时间与精力,为年轻一代的成长保驾护航。
同时,我同样拥有像Chen-YuLee这样的合作伙伴——在共同前行的路上,我们遭遇过挫折,也直面过挑战,但正是这些经历让我们更加坚定地携手向前。 这种合作模式让我深感共鸣。在当今快节奏的社会里,能够找到志同道合的伙伴实属不易。尤其是在面对困难时,彼此的支持与理解显得尤为珍贵。正如我和我的合作者一样,当遇到瓶颈或分歧时,开放的心态和有效的沟通成为解决问题的关键。这不仅推动了个人的成长,也让团队焕发出更强的生命力。从这个角度看,每一次挑战都是一次难得的机会,它考验着我们的韧性,也塑造着未来更多的可能性。
“你永远不应该独自前行。”谢赛宁在最后写道。
DSN 的共一 Chen-Yu Lee 也很激动地在𝕏上发声。
我们感到非常自豪!
这篇论文最早(在顶会上)发布于2015年。令人惊叹的是,这项工作至今仍然保持着高度的相关性和影响力。
在学术界,论文被顶级会议接收往往被视为一种重要的认可与荣誉,这一点也得到了大多数从业者的认同。这种认可不仅体现了研究者在专业领域的创新能力和学术水平,更彰显了其对推动学科发展的贡献。 从我的角度来看,这一现象反映了学术评价体系日益成熟的一面。一方面,顶尖会议的严格筛选标准确保了入选论文的质量,这为整个行业的高质量发展树立了标杆;另一方面,这也激励着更多学者投入精力去探索未知领域,力求突破自我。然而,在追求高影响力的同时,我们也应警惕过度依赖“顶会”作为唯一衡量标准的趋势,毕竟科研的意义远不止于此。 总之,论文被顶会接收无疑是值得庆祝的事情,但更重要的是以此为契机,进一步激发科研热情,促进更多有价值成果的诞生。
但被顶会拒收,并不意味着对这个项目的全盘否定。
还记得大明湖畔那篇曾被ICLR2013拒稿的Word2vec吗?(后来转投NeurIPS并顺利接收,且在2023年荣获时间检验奖)另外,最近被ICLR2024拒稿的Mamba也引发了广泛关注。
谢赛宁的推文评论区,也挖掘出了更多的类似故事。
浙大校友、哥伦比亚大学计算机科学系副教授俞舟提到,她和团队在2019年凭借一个出色的研究项目获得了ACL最佳论文提名,但令人意外的是,这个项目最初投稿时也曾遭遇过拒稿的经历。 这一事件无疑让人深思。学术研究的道路从来都不是一帆风顺的,即便是那些最终脱颖而出、获得高度认可的研究成果,在起步阶段也可能面临挫折。这提醒我们,拒稿并非失败的代名词,而更像是一次成长的机会。俞舟教授的经历也表明,坚持与韧性是科研工作中不可或缺的一部分。对于许多研究者而言,能够从审稿人的反馈中汲取经验,并不断改进自己的工作,才是通往成功的关键路径。这也让我们更加敬佩那些能够在逆境中坚持初心、最终取得突破性成就的学者们。
若一篇优秀的论文遭到拒稿,这表明它或许具备「成长为顶尖论文」的潜质,并且有望「经受住时间的考验」,因为作者会在修改中进一步完善它。
听完赛宁的分享,她提到,如今又有一个生动的例子可以用来激励低年级的同学了~
参考链接:
[1]https://x.com/sainingxie/status/1919423231687000493
[2]https://x.com/sainingxie/status/1919022082391671195
[3]https://arxiv.org/abs/1409.5185
[4]https://scholar.google.com/citations?user=Y2GtJkAAAAAJ&hl=en
本文来自微信公众号:量子位(ID:QbitAI),作者:衡宇,原标题《被拒稿11年终获认可,DSN作者谢赛宁:拒稿并非学术终点》