2025 年 12 月,MIT 未来技术研究所等机构团队发布《AI 风险缓释的系统映射:证据扫描与初步 AI 风险缓释分类体系》,针对当前 AI 风险缓释框架碎片化、术语不统一、覆盖存在缺口的问题,通过梳理 2023-2025 年 13 份核心框架文档,提取 831 项独特 AI 风险缓释措施,构建了包含 4 大类别、23 个子类的初步 AI 风险缓释分类体系,同时搭建了可公开访问的 AI 风险缓释数据库,为 AI 生态各方协调风险应对行动提供了统一参考框架。
研究团队先明确了 AI、AI 风险及风险缓释的核心定义,采用快速证据扫描法,结合主题综合与框架综合的迭代方式构建分类体系,还尝试将大语言模型作为辅助工具,经质量验证发现其在分类推荐上有一定作用,但提取环节仍需人工主导。研究筛选的 13 份文档来自美欧英的政府、标准机构及研究组织,涵盖政策报告、标准指南等类型,部分文档将缓释措施与风险类型明确或隐含关联,最终 815 项措施被成功分类,16 项因偏向宏观组织策略或质量保障行动未被归类。
该分类体系的四大核心类别及分布特征清晰:一是治理与监督(占 30%),含董事会监督、风险管理等 7 个子类,其中风险管理是提及最广泛的子类之一,13 份文档均有涉及;二是技术与安全(占 12%),含模型基础设施安全、模型对齐等 4 个子类,模型对齐等措施提及率较低;三是运营流程(占 36%)为占比最高类别,含测试审计、数据治理等 6 个子类,测试与审计是全研究中提及最频繁的子类;四是透明度与问责制(占 21%),含系统文档、风险披露等 6 个子类,风险披露、事件报告为核心子类。
展开剩余79%研究还揭示了当前 AI 风险缓释领域的关键问题:风险管理、红队测试等术语被广泛使用,但在责任主体、行动方式上定义混乱;部分重要缓释措施如利益冲突保护、模型对齐等被严重忽视,相关子类占比均不足 1% 且仅在少数文档中出现。同时,研究指出该分类体系的实践价值,能为技术管理者、政策制定者、审计人员等不同主体提供行动指引,助力将抽象风险管控要求转化为具体可衡量的标准。
此外,报告明确了研究局限与未来方向,局限在于未开展系统性文献检索、未涵盖非英文文档及特定行业 AI 风险缓释措施,且未评估措施的有效性与成本;未来需推动缓释措施与具体风险的精准映射、研究影响措施落地的组织社会因素,以及拓展研究范围至监管机构、用户等更多 AI 生态主体。
该研究构建的初步分类体系与数据库,填补了 AI 风险缓释领域缺乏统一参考框架的空白,为后续协调化、综合化的 AI 风险管控奠定了实证与概念基础,也为全球 AI 安全治理的标准化发展提供了重要参考。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省配资网提示:文章来自网络,不代表本站观点。