MIT CSAIL突破:引导学习让"不可训练"的神经网络发挥潜力

即使是长期被认为"不可训练"的神经网络也可以在一点帮助下有效学习。MIT计算机科学与人工智能实验室(CSAIL)的研究人员表明,一种称为"引导"的神经网络之间的短暂对齐期可以显著提高以前被认为不适合现代任务的架构的性能。

关键发现

研究团队发现,许多所谓的"无效"网络可能只是从不太理想的起点开始,短期引导可以将它们置于更容易学习的位置。

引导方法通过鼓励目标网络在训练期间匹配引导网络的内部表示来工作。与专注于模仿教师输出的传统知识蒸馏方法不同,引导直接从一个网络向另一个网络传递结构知识。

“我们发现这些结果相当令人惊讶,“论文主要作者Vighnesh Subramaniam说。“令人印象深刻的是,我们可以使用表示相似性使这些传统的’糟糕’网络实际上发挥作用。”

引导vs知识蒸馏

该研究还将引导与知识蒸馏进行比较。当教师网络未经训练时,知识蒸馏完全失败,因为输出不包含有意义的信号。相比之下,引导仍然产生强烈的改进,因为它利用内部表示而不是最终预测。

这一结果强调了一个关键见解:未经训练的网络已经编码了可以有价值地引导其他网络 architectural biases。

“拯救"无望的网络

最终,这项工作表明,所谓的"不可训练"网络并非天生注定。通过引导,失败模式可以被消除,过拟合可以被避免,以前无效的架构可以达到现代性能标准。

“这通常假设不同的神经网络架构有特定的优势和劣势,“约翰霍普金斯大学助理教授Leyla Isik说。“这项令人兴奋的研究表明,一种网络可以继承另一种架构的优势,而不会失去其原始能力。”

来源:MIT News