被认为是深度学习在计算机视觉领域突破性时刻的第一篇论文是 这是一篇 年的论文深度神经网络在 挑战赛中表现出色远超其他当时的算法。
在研究生期间你可能会接触到的那些算法和 相比相形见绌。 是一个拥有 万个参数的深度神经网络它在两张 显卡上训练了六天 是当时最强大的消费级显卡发布于 年。
我昨晚查了一些数据想把这些放在一个更大的背景中看待。英伟达最新的显卡是 你们猜一下 和 之间的计算能力差距有多大? 数量在几千左右所以我昨晚算了一下数据。
像是那两周的训练那六天是在两块 上 秘鲁电话号码列表 运行的如果扩展一下大概可以在一块上运行不到五分钟。
这样想的话真的有个很好的论点—— 年 在 挑战赛上的论文真的是一个非常经典的模型那就是卷积神经网络模型。 而实际上这个概念早在 年代就已经出现了我还记得作为研究生学习的第一篇论文内容也差不多有六七层的网络结构。
和卷积神经网络模型的唯一区别几乎就是 ——使用了两个 和海量的数据。 所以我本来要说的是大多数人现在都熟悉所谓的“痛苦的教训”( )这个教训说的是如果你开发一个算法只要确保你能利用现有的计算资源因为这些资源会逐渐变得可用。
另一方面似乎还有另一个同样有说服力的观点那就是新的数据源实际上解锁了深度学习。 就是一个很好的例子。虽然很多人认为自注意力机制对 模型很重要但他们也会说这是利用人工标注数据的一种方式。
因为人类为句子结构提供了标注如果你看看 模型它实际上是通过互联网让人类使用标签来标记图片。因此这实际上是一个关于数据的故事而不是关于计算的故事。那么答案是两者兼有还是更偏向某一方呢?我认为是两者兼有但你也提到了另一个非常关键的点。
我觉得在算法领域中实际上有两个明显不同的时代。 时代是监督学习的时代。
在这个时代我们有很多数据但我们不知道如何仅凭数据本身来训练。 和其他同时期的数据集的预期是我们会有大量的图像但我们需要人类对每张图像进行标注。