昨天有网友发了黄仁勋采访 OepnAI 首席科学家 Ilya Sutskever

不是郑小康

Model Y

关注

环形隧道

2023-10-16

昨天有网友发了黄仁勋采访 OepnAI 首席科学家 Ilya Sutskever 的一个片段，Ilya 的表达可以概括为一句话（结尾我放上完整表述）：大语言模型看起来所做的事情是预测下一个词，但实际上在这个过程中，大语言模型学会了表征这个世界，是一个世界模型。特斯拉 CEO Elon Musk 在下面回复：端到端的 FSD 也一样。我粗浅地说一说「语言」和「视觉」在大模型工程化方面的区别。语言是一维信息（早期 ChatGPT 的语料主要是互联网上的文本），而视觉是三维信息（x、y、时间）。语言是人类创造出来的交流信息的介质，信息密度非常高。视觉是自然世界天然存在的，信息密度极低，高速开车一小时，对向车道、大段大段的天空、灌木丛、远方的楼群，对驾驶汽车没有任何意义，更别说，一台特斯拉汽车 360 度的视觉覆盖，会进一步放大这个问题。所以 GPT-4 非常消耗算力和数据，FSD v12 会比 GPT-4 消耗多得多的算力和数据。一旦 FSD v12 学会了表征世界，具备了人类驾驶汽车最基础的「常识」能力，城市辅助驾驶领域的发展会进入一个全新的阶段。那可能是汽车行业真正的 ChatGPT 时刻。 Ilya 完整表述：当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时，我们正在做的其实是——正在学习一个关于世界的模型。表面上看起来，我们只是在学习文本中的统计相关性，但实际上，是通过学习文本中的统计相关性，从而把这些知识很好地压缩。神经网络所学习的是生成文本的过程中的一些表述，这个文本实际上是这个世界的一个映射，世界在这些文字上映射出来。因此，神经网络正在学习从越来越多的角度去看待这个世界，看待人类和社会，看人们的希望、梦想、动机、交互和所处情境。基于此，神经网络学习一个压缩的、抽象的、可用的表述。这就是从准确预测下一个词的任务中，正在学习的东西。更进一步，你对下一个词的预测越准确、还原度越高，在这个过程中你得到的世界的分辨率就越高。

环形隧道

2023-10-16

评论 · 0

0/3

大胆发表你的想法～

相关推荐

更多

相关推荐

更多

请截图后在微信扫码参与互动