像就被连接了起来学习多模态后我们现在甚至能够进行翻译和生成。 所以我们能够理解各类数据也能够生成智能信息创造各种形式的智能。 如果你看看现在创造的所有令人惊叹的初创公司和应用你会发现它们都属于这张幻灯片中的两种组合之 从文本到文本比如摘要问答文本生成讲故事或从文本到其他形式如视频到文本用于字幕图像到文本用于图像识别文本到图像用于图像生成如. Midjourney文本到视频用于视频创作如 Runway ML。 所有这些不同的组合都是突破性的。你甚至可以做到蛋白质到文本解释蛋白质的功能文本到化学物质描述某种可能成为有效药物的化学特性甚至可以将视频和文本结合来实现机器表演机器人技术。 每种组合都代表了个新的行业新的公司新的应用场景掀起了令人震撼的「寒武纪大爆炸」产生了大量新应用。 我们现在才刚刚开始机器学习的个特点是脑容量越大能够教给它的数据越多它变得也就越聪明。
我们称之为 Scaling Laws。现在有很多
证据表明随着模型的规模扩大训练 波兰电话号码库 数据的增多智能的效果质量和表现都会得到提升。 每年整个行业都在将模型的规模扩大约两倍同时需要相应增加两倍的数据量。 因此我们需要四倍的计算资源推动人工智能迈向下个层次所需的计算资源是巨大的。在 Scaling Laws 中预训练是其中部分后训练也是部分。 后训练通过强化学习人类反馈强化学习AI 反馈等多种方式进行。现在后训练阶段有很多方法可以使用合成数据生成。因此训练预训练和后训练正在经历显著的扩展我们仍在看到非常好的成果。 当 Strawberry 或 Open AI 的 o1 发布时它向世界展示了种全新的推理方式。 推理是与 AI 互动的过程就像你与 ChatGPT 交流样但 ChatGPT 是次性的。你向它提问要求它做某事无论你提出什么问题或给出什么提示通过次交互它就会给你答案。 然而我们知道思考往往不止是瞬间的思考需要我们进行多次尝试最终从中选择最合适的答案。 就像我们在思考时可能会反思答案然后再给出答案这就是反思或者是我们将个问题分解成步步的思考链。 我们已经发明了许多技术使得推理在我们投入更多计算资源时能够不断提升。 现在我们有了第二个 Scaling Laws推理 Scaling Laws不仅仅是生成下个单词更是思考反思和规划。
这两种同步扩展将要求我们在每次交付
新代和新架构时都以极快的速度推动计算性能。 我们每 通过实施能力图谱 次交付时都会在 X 倍提升性能的同时也减少相同倍数的功耗和成本。 提高性能等同于降低成本提高性能也等同于减少能耗。 因此随着世界越来越多地接受和应用人工智能推动人工智能技术的发展扩展其应用范围是我们的使命。 我们的责任就是持续不断地推动性能提升并尽可能地加快这过程同时扩大人工智能的应用领域提升其效果降低成本并减少功耗。这也正是我们转向年个周期的原因。 然而人工智能并不是单纯的芯片问题。这个 AI 系统庞大无比。这就是 Blacell 系统。 Blacell 不仅仅是个 GPU的名字它也是整个系统的名字而这个 GPU 本身也非常出色必须要提到这点。抱歉向在场的各位外宾解释下。 所以今天我们展示的是 Blacell。 每个 Blacell 芯片都是世界上最大的芯片拥有 1040 亿个晶体管由 TSMC 在其最先进的 4 纳米制程上制造。 这两个 Blacell 芯片通过 10TB 每秒的低能耗连接互联。 位于芯片的接缝处那条线数千个互联节点传输速度达到 10TB 每秒。 这些芯片通过来自 . SK hynix 和 Micron 的八个 HBM 3e 内存模块连接内存的总带宽为每秒 8TB。 这两个 GPU 通过. NVLink 与 CPU 连接每个 18TB。
这是非常多的每秒千兆字节。之所以如此是因为这个系 ca 手机号码所 统不仅可以单独运行。即便是世界上最先进的计算机也无法单独完成人工智能任务。 有时它必须与成千上万台像这样的计算机协同工作这些计算节点共同工作就像个巨大的计算机而有时它们需要独立工作以响应不同的客户或查询。 因此它们有时会单独运行有时则作为个整体工作从而让 GPU 能够作为个整体进行工作。我们当然有通过网络将这个 GPU 与成千上万的其他 GPU 连接但我们仍然需要 NVLink。 这种 . NVLink可以让我们将个机架中的几个 GPU ISS 连接起来就像我身后的这个机架样机架通过 NVLink 连接带宽为每秒 18 TB比全球最高带宽的网络快 35 倍这让我们可以将所有这些 GPU ISS 连接到起。 这个机架中有九个 NVLink 交换机每个机架有 72 台计算机它们通过网络连接。 NVLink 是通过 50 英镑的铜线直接驱动的借助这个出色的 Cdes我们称之为 NVLink。它们连接到计算机就像这样连接到 NVLink。这个交换机将所有这些计算机连接成个整体。 所以最终72 台计算机连接在起形成个超级 GPU个巨大的 GPU。从软件角度来看