人工智能系统风险评分规则策划-个人或群体
人工智能系统风险评估包括个人或群体威胁可能性和社会影响严重度
人工智能在个人或群体威胁可能性的评分规则,目前公开资料中并未提供一套标准化、可直接套用的评分体系。基于权威机构对人工智能安全治理的核心原则,可以构建一个以透明性和可解释性为核心维度,并融合其他关键安全要素的评分框架。
人工智能的威胁评分应是一个多维度的评估过程,其核心目标是识别系统在部署和应用过程中可能对个人权利、社会公平或公共安全造成的潜在风险。以下评分规则的构建主要参考了中国国家网信办发布的《人工智能安全治理框架》、《框架》2.0版[以及国际通行的监管思路。
人工智能威胁可能性评分规则(核心维度:透明性与可解释性)
本评分规则采用五级评分制(1-5分),分数越高,代表该维度的威胁可能性越大。评分需由专业团队结合具体应用场景进行综合评估。
评分维度 | 评分标准(威胁可能性从低到高) | 依据与说明 |
1. 透明性与可解释性 | 1分: 系统提供完整、清晰、非技术性的决策过程说明,用户可轻松理解其输出逻辑。所有关键参数和数据来源可审计。 | 《框架》2.0版强调“可信应用”,要求将价值约束融入技术流程,确保技术发展可控可信 |
2分: 系统提供部分解释,但仅限于技术文档或专业人员可理解的层面,普通用户难以获知决策依据。 | ||
3分: 系统提供有限解释,仅说明“输入-输出”关系,无法解释中间决策路径。存在“黑箱”现象,但无故意隐瞒。 | ||
4分: 系统为高度复杂的“黑箱”模型,无法提供有意义的解释,且开发方拒绝或无法提供任何决策逻辑说明。 | 生成式AI的“幻觉”风险与缺乏可解释性密切相关,易导致误导性输出。 | |
5分: 系统不仅无法解释,且故意隐藏决策机制,或存在对抗性攻击后门,可能被用于操纵或欺骗。 | 《框架》2.0版特别强调“防范失控”和“供应链安全”,系统性隐藏机制是重大安全红线。 | |
2. 安全性与可控性 | 1分: 系统经过严格安全验证,具备多重冗余和紧急停止机制,确保在任何情况下均处于人类有效控制之下。 | 《框架》2.0版将“防范失控”作为核心原则,要求确保人工智能在任何阶段都处于人类有效控制范围之内。 |
2分: 系统有基本安全措施,但应急机制不完善,存在轻微失控风险。 | ||
3分: 系统安全措施一般,对未知场景的适应性不足,存在中等失控风险。 | ||
4分: 系统安全机制薄弱,易受对抗样本攻击或数据投毒,可能导致系统性错误或瘫痪。 | 《人工智能安全治理框架》明确指出“对抗攻击风险”和“输出不可靠风险”是重大安全威胁。 | |
5分: 系统设计存在严重安全缺陷,或被明确用于恶意目的,失控风险极高,可能对人身安全或关键基础设施造成直接威胁。 | ||
3. 公平性与非歧视性 | 1分: 系统经过严格偏见检测与消除,确保对不同群体(性别、种族、年龄等)的决策结果高度公平。 | 伦理维度要求防止人工智能加剧社会不公。 |
2分: 系统在主要群体上表现公平,但对少数群体存在轻微偏差。 | ||
3分: 系统存在可测量的偏见,但未造成实质性伤害。 | ||
4分: 系统存在显著偏见,导致特定群体被系统性歧视或剥夺机会。 | ||
5分: 系统被设计或训练用于实施歧视性政策,或其输出会严重加剧社会不公。 | ||
4. 责任可追溯性 | 1分: 系统全流程(数据、模型、决策)均有完整、不可篡改的审计日志,责任主体明确。 | 《框架》2.0版强化“可追溯管理”。 |
2分: 有审计日志,但部分环节缺失或不完整。 | ||
3分: 仅在关键节点有记录,追溯难度较大。 | ||
4分: 缺乏有效日志,责任主体模糊。 | ||
5分: 系统设计故意规避责任归属,或使用开源模型且无任何溯源机制。 |
综合威胁评分计算:
综合威胁评分 = (透明性与可解释性得分 × 0.4) + (安全性与可控性得分 × 0.3) + (公平性与非歧视性得分 × 0.2) + (责任可追溯性得分 × 0.1)
(权重可根据具体应用场景调整,例如在金融、医疗领域,可提高“公平性”和“安全性”的权重。)
应用建议:
1)高风险应用(如招聘、信贷、司法辅助):综合评分超过3分的系统应禁止部署或需经严格监管审批。
2)中低风险应用(如客服、内容推荐):综合评分应控制在2分以下,并强制要求透明度标识。
3)生成式AI:应特别关注其“幻觉”风险和可解释性,即使在低风险场景,也应遵循“预期目的和具体应用领域”进行区分监管。

Copyright © 2026 All Rights Reserved. 深圳中标国际标准咨询有限公司 粤ICP备17064591号