
AI原生文档格式DocLang开发引发疑问AI原生文档格式DocLang的开发引发了人们对其对人类工作者以及治理和问责制影响的疑问。来源ShutterstockDocLang工作组的目标与参与方人工智能在理解为人类设计的文档时面临困难DocLang工作组试图通过其为“从头为大语言模型LLM分词器构建”的机器可读商业文档规范来扭转这种不平衡。该工作组由IBM、英伟达Nvidia和红帽Red Hat共同创立由Linux基金会的LF AI Data项目主办旨在创建一种开放、通用的AI原生文档格式以改进企业为AI系统准备、交换和管理文档数据的方式。ABBYY和Human Signal也将参与其开发同时欢迎其他贡献者加入。现有文档格式的问题该组织在发布声明中表示“如今企业在碎片化的文档格式环境中开展工作包括PDF、JPEG等主要为人类阅读而非AI解读设计的文件类型。”随着组织越来越依赖生成式AI和智能代理系统这种脱节在从商业文档中提取信息时会增加复杂性、提高成本并降低可靠性。DocLang规范工作组的目标与特点LF AI Data执行董事马克·科利尔Mark Collier表示DocLang规范工作组的目标是“开发一种与供应商无关、可互操作的标准帮助组织更可靠、透明且大规模地为AI准备文档数据”。DocLang为任何类型的文档定义了一种结构化、机器可读的格式就像数据领域的JSON一样任何工具都可以实现任何流程都可以使用。它基于DocLing构建DocLing是LF AI Data托管的一个文档处理工具包可以将人类可读的PDF、文字处理文档或电子表格转换为结构化数据。人工智能需要标准的演进独立技术分析师卡米·利维Carmi Levy表示类似DocLang的标准是必要的。他解释道“现有的文档标准在过去几十年里出色地让全球利益相关者能够放心地进行协作但随着AI重塑工作方式的规则越来越明显的是它们急需更新。”他指出大部分静态的文档类型“在AI重新定义‘文档’这个概念时会有一定的局限性。在很多方面AI时代的文档比以往更加迭代和动态其定义需要与时俱进。我们目前使用的文档并非为AI时代设计。”利维表示在这种背景下“DocLang代表了为文档标准建立某种基础基线的早期且充满希望的尝试有望实现比当前更智能、更高效、风险更低的工作流程”。他还说采用开源、与供应商无关的方法可以确保集体利益优先于特定供应商的需求并补充道“早期在网络、文档、网络和云计算方面的标准制定工作推动了定义现代生活的自由流动数字环境的发展。”利维认为以AI为中心的文档标准将把这一现实带入下一代技术。治理问题Moor Insights Strategy首席分析师杰森·安德森Jason Andersen表示大语言模型的整个概念“涉及使用人类自然语言。计算机应该在我们不改变语法或语言的情况下理解我们。就像如今在搜索引擎优化SEO和更高级的编程语言中我们被迫使用特定的语法。”对于像DocLang这样可应用于内容摄取的标准他表示“我认为将其自动化是可行的这似乎也是其意图所在。我设想的用例是当我将文档上传到智能代理时可以运行一项技能将文档预处理为DocLang标准格式从而节省分词资源。”他认为这很有意义并补充说如果它有助于生成可在AI工具之外共享的输出如可视化内容那就更好了。他还表示喜欢Web MCP因为只需在页面上添加一些代码如CSS或JavaScript消费者在这种情况下是AI浏览器或技能就能更好地处理网站。他指出“这些标准需要确保人类仍然能够按照自己的意愿行事并且无需了解任何编码知识就能熟练使用。至于治理方面我不确定它是否重要。”不过有分析师预见到DocLang的使用会引发治理问题。Info - Tech Research Group高级研究分析师亚兹·帕拉尼查米Yaz Palanichamy表示采用DocLang需要组织实施和审查控制措施以确保其使用在可问责和安全的前提下进行扩展。那么DocLang能否在解决人工智能文档处理难题的同时有效应对治理问题呢