上海AI Lab:多模态生物基础模型BioMatrix 标题BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language来源arXiv, 2606.22138️文章简介研究问题如何在单一架构中原生整合分子/蛋白质的序列、结构和自然语言三种模态实现跨模态跨实体的统一生物智能主要贡献论文提出BioMatrix在单一decoder-only架构中原生整合分子序列、分子结构、蛋白质序列、蛋白质结构和自然语言五种模态的多模态生物基础模型在80个任务中的77个达到SOTA或竞争力水平。重点思路统一多模态分词方案将分子序列SMILES和SELFIES、分子三维结构基于MolStrucTok的分支解耦解码器向量量化、蛋白质序列氨基酸token、蛋白质结构GCP-VQVAE结构编码器向量量化和自然语言映射到共享离散token空间所有模态在统一下一token预测目标下消费和生成无需外部编码器或适配器。大规模持续预训练基于Qwen31.7B和4B构建使用3044亿token的预训练语料涵盖通用文本105.3B、分子数据73.7B、蛋白质数据77.4B和跨实体交互数据48.0B包括交错生物医学文本和分子-蛋白质/蛋白质-蛋白质相互作用数据。指令微调统一框架将80个下游任务分为6大类分子1D/3D任务、蛋白质1D/3D任务、交互任务通过统一指令格式和多样化提示词进行微调使通常架构不同的任务如描述生成、文本条件设计、折叠、逆折叠等成为同一下一token目标下的不同条件生成模式。嵌入初始化策略对无自然语言对应的新增token如SELFIES原子token、VQ码本索引使用原始token字符串自身作为描述进行嵌入初始化无需额外训练或辅助模型。分析总结SMILES与SELFIES互补而非可替代SELFIES在需要结构有效性的任务无条件生成、分子优化中占优SMILES在需要表面结构锚定的任务定制分子生成、逆合成中更强两者在属性预测等任务中表现相当。参数扩展效果异质性从1.7B扩展到4B在知识密集型任务分子名称转换、文本生成、知识挖掘上带来显著提升但在已饱和任务无条件生成、属性预测上增益有限少数小数据任务甚至出现反扩展现象。原生多模态优势集中体现在跨模态和跨实体任务在单模态单实体任务上与专用模型持平但在属性条件构象生成、文本分子生成、序列-结构协同生成、结构约束亲和力预测等跨模态/跨实体任务上显著超越专用基线。分词是精细3D几何的瓶颈在分布级或骨架拓扑级任务上匹配或超越扩散模型但在逐原子几何精度上仍有差距主要源于有限码本的量化误差和自回归坐标重建而非语言模型学习能力不足。蛋白质残基对齐分词使折叠和逆折叠成为严格对称对偶通过保持氨基酸token与结构token的一对一对应无需专门架构设计即可在逆折叠上达到SOTA氨基酸恢复率。个人观点论文实现了分子和蛋白质在序列、结构、语言三种模态上的原生统一建模。