和交换。用预训练增强如何实现的有效沟通?作者从多模态M中找到了灵感。 多模态M可以同时接收文本和图像两种模态的输入T也是如此。一边是算法运行需要的图结构一边是描述问题的自然语言。 作者的设想是将预训练的作为Tm中编码的调制器mt二者通过m沟通同时借鉴M和m模型中所用的交叉注意算子融合不同模态的信息。接受双重输入
包括文本形式的算法问题规范
t及其对应的图表征个节点并输出问题的文本答案。其中输入的图表征遵循算法推理基准-的格式。 我们可以假设编码完成后文本输入存储在T ∈ ^T×中图输入存储在 ∈ ^×中。的前向传播过程如下 首先我们通过设置T^ =和
来正确初始化输入。 接下来为了计算 手机号码数据 第t+步的表征文本t表征被输入到Tm的当前层 其中∈ ×分别是键查询和值矩阵的变换是一个前馈神经网络。 以类似的方式图表征被输入到层例如实现一个标准的mx-M 其中ψ,ϕ × → 分别是可学习的消息函数和更新函数mx是逐元素最大值聚合。 需要注意的是方程仅简要提供了节点之间的成对交互——实际上这
里的是一个它还包含三元组交互和
个门控机制。 此外还需注意的可学 明尼苏达州驱逐程序 习部分没有时间步索引——每一步都应用相同的共享函数。这很好地契合了图算法计算的迭代和重复性质。 一旦两个流都准备好它们的表征Θt+和t+图中的节点嵌入将对Tm的t嵌入进行条件设置从而产生Tm流中T块的最终结果 其中是交叉注
意力的键查询和值变换。在结束这一层之前对t+不进行额外的变换。 这个过程会一直重复直到最后的第层在这一层中从T_读取最终的文本输出。 最终输出通过最后一层生成的预测头转换为t并通过标准的下一个t预测来监督训练。 在开始T微调之前首
先预训练使其能够稳健地执行-覆盖的三十个算法。这种方法已知可以在图空间中实现高达倍输入规模的分布外泛化。 在微调过程中的参数通常保持冻结状态因为额外的梯度会削弱模型的原有稳健性特性。同样的原因图嵌入不会执行交叉注意力。本身可
以在大规模数据集上进行预训练以 ALB 目录 建立其一般语言先验即使在开始时随机初始化M也能获得相同的实验结果。 实验设置 在实验中作者展示了T为大语言模型架构中的分布外推理带来的显著优势。Tm架构和初始化 论文使用hh家族的一个-y架构层的Tm模型首先在MTxt上进行了预训练参数量有M上下文大小为。 为了探究初始化设置的影响作者设计了两个变体进行消