混合专家,模态也得术业有专攻。分情
对于目前的况行混合模态基础模型,常用的提态感架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的出模信息,也难以输出包含多种模态的混合混合内容。
为了克服这一局限,专家主见知多知型专Meta FAIR 的模态 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构,它可以根据下一个 token 的分情预测目标,对由离散图像和文本 token 组成的况行混合模态序列进行建模,从而在不同模态之间进行无缝推理和生成。提态感
出模
作者:娱乐