【AI&数据合规实务笔记 010】AIGC产品合规怎么做? 原创 Alan Alan 陈Alan AI与数据合规 在小说阅读器读本章 去阅读 在小说阅读器中沉浸阅读 我用飞书建了一个 AI&数据合规实务笔记 知识库,我会把部分内容同步到公众号。更多内容可以去飞书库直接阅读。可复制下方飞书库链接(或点击阅读原文)。飞书库链接:https://gqc5o7fwy2.feishu.cn/wiki/LTkdwjBm6iyjblk5nETcLpYin4f?from=from_copylink本文为根据微软的AI治理实践,OpenAI的AI治理实践以及自己的实际开展工作的经验记录的笔记。目前,随着AIGC技术的快速发展,以AIGC为基础开发的产品越来越多,如何开展AIGC产品的合规也逐渐被重视起来。本文聚焦在AIGC产品中具体如何落实AI合规,不探讨在组织架构、政策制度等相对宏观方面的AI合规与治理问题。目录如下:微软的AI治理实践可见:https://learn.microsoft.com/zh-cn/legal/cognitive-services/openai/overview?context=%2Fazure%2Fai-services%2Fopenai%2Fcontext%2FcontextOpenAI的AI治理实践可参见其政策中心与准备框架可见,原文及机翻版可在飞书库下载:https://openai.com/preparedness/一、AIGC产品合规遵循怎样的流程?如图所示,整个过程以下面4个阶段开展1.识别(Identify)根据产品采用的基础模型、所面对的群体、具体的场景识别可能存在的风险,并通过红队测试、压力测试等方式,确定其风险级别。2.测量(Measure)开发并通过明确的指标测量具体风险。3.缓解(Mitigate)通过落实相应的措施缓解风险,并持续评估其有效性。4.运营(Operate)设计并执行部署和持续运营中的治理计划。二、识别阶段应该怎么做?识别风险是AIGC产品合规的第一阶段,并需要对风险进行级别。该阶段需要完成以下工作:1.根据所使用的基础模型和具体场景等去识别风险。(1)所使用基础模型是国内的还是海外,基础模型的安全性如何。比如使用的是国内基础模型(如文心一言、云雀、通义千问等)还是海外基础模型(如OpenAI、微软Azure OpenAI等),AIGC产品会有着不同的风险。比如采用海外的基础模型向C端提供服务,内容安全风险将需要重点关注。(2)所使用的具体场景也会影响风险的识别。AI产品是2b还是2c,是否应用在教育、健康医疗等特殊场景会有着不同的风险及级别。如应用在教育场景,需要考虑针对教师和学生的内容安全风险。用在健康医疗场景,需考虑AIGC的幻觉可能造成的危害。相比于在普通的文章写作中,应用在这些特殊场景下AIGC所输出的幻觉甚至有害内容,可能造成危害是不一样的。(3)在这一阶段应该实施AI治理评估。AI治理评估可以在公司通过对内部的PIA流程改造来进行,以更好地融入到原本的流程当中。2.根据风险发生的可能性和严重程度对风险进行定级。常见的实践为将风险发生的可能性和严重程度各作为一个系数予以相乘,以此来对风险级别进行排序。3优先对风险级别高的风险进行红队测试、压力测试,以更好了解风险会如何在具体场景当中发生。4.在这个阶段,相关利益相关方(如果有必要可以引入外部利益相关方)应该获悉相关信息,必要时利益相关方可参与识别工作。此过程的输出物应该为一个包含了风险及其级别的风险级别表,后续如果在进一步测试中发现新的风险或需要更新风险级别,可更新该风险列表。该图为OpenAI开展识别工作过程针对AI系统的一个风险级别卡示例。该模型卡可以看出OpenAI将风险分为4个方面:网络安全、CBRN(化学、生物、放射性和核)、说服能力、模型自主性。风险级别分为低、中、高、严重4个级别。然后针对整个AI系统在采取缓解措施前后整体进行定级。只有当AI系统在采取缓解措施前后定级在中及以下时,该AI系统才可予以部署和运营。该模型卡会在AI系统开发、部署、持续运营的全生命周期中保持动态更新。三、测量阶段应该怎么做?在有了风险列表后,应该开发系统测量每种风险的指标。在这个过程需同时人工穿测和自动测量的方法。(一)人工穿测和自动测量的使用通过人工穿测方式确认相关风险在采取缓解措施前后的情况。在人工穿测后,相关风险已经降到所设置指标下,可以转为自动测量。如果自动测量足够可靠,也可单独使用。可以通过定期的人工穿测衡量自动测量的质量。自动测量可以大规模进行,覆盖更大的范围,提供更全面的结果。自动测量可以持续测量并监控系统。(二)具体实施1.开发测试用例并进行测试针对上一步骤识别出的风险开发测试用例并进行测试。比如,针对AIGC产品常见的越狱纳入到测试用例中。然后,通过设计好的测试用例进行测试并予以记录。2.根据测试结果落实缓解措施并持续测量指标针对测试结果呈现的问题应制定并实施缓解措施,并设定合理的指标。比如,设定一个合适的生成内容合格率。在《网络安全技术 生成式人工智能服务安全基本要求》中,其要求通过人工抽检、关键词抽检、分类模型抽检需要确保合格率不低于90%四、缓解阶段应该怎么做?Mitigation这一词,我检索了下在国内不常见,偶尔能见到,一般翻译为“缓释”和“缓解”,我这里觉得“缓解”一词可能更达意,暂且使用这个用法。AIGC产品的缓解应该采用迭代、分层的方法,具体包括4个层面:1.在基础模型层面需要了解基础模型开发人员会采取哪些微调,使模型符合预期并降低风险。比如,基础模型开发可以通过提高训练数据集的丰富度与质量、强化学习等方式使模型符合预期并确保安全。如果是接入第三方的基础模型,应将安全作为选用的考虑,评估多个第三方基础模型的安全性。2.安全系统层面在基础模型之上可以通过内容过滤器等方式提高安全性。3.应用层面在应用层面一般可以通过提示词工程、检索增强技术等方式使模型输出符合预期的内容并提高安全性。一般而言在应用层面可采取以下措施:(1)在UI、使用协议等方面需要提示用户其正在与AI进行交互,相关内容仅做参考。需要告知用户AI生成的内容可能包含不准确信息,需要用户予以核实。如文心一言等AIGC产品一般都会在下方提示“内容由AI生成,仅供参考”。小红书在其《小红书生成式人工智能服务协议》声明其无法对生成内容的真实性、准确性和可靠性作出任何保证。(2)如果模型会浏览互联网,建议引用相关信息,帮助用户了解AI生成内容来源(3)适当限制输入和输出内容的长度通过限制输入和输出内容的长度,可以降低AIGC功能被滥用或者产生不良内容的可能性。例如,降低内容长度避免AIGC内容被滥用于撰写论文进行学术不端行为。(4)通过提示词工程优化内容输出在收到用户的请求后,可在此基础上增加提示词后再输入到基础模型。该措施一方面常用于帮助用户更好生成符合需求的内容,提升用户体验。一方面也可以在输入模型中加入安全限制,用于更好确保输出内容的安全。(5)针对部分定制固定的回答以及拒答题库针对比如“你是谁/是什么?”,还有一些涉政等一些问题,设定一个符合政策且合适的固定回答。针对歧视性、商业违法、侵犯他人合法权益等违规问题设置拒答题库。内容安全方面可参考《网络安全技术 生成式人工智能服务安全基本要求》及其附录A。(6)增加AI生成内容的标识比如在AI生成的图片中增加“AI作图”的显式标识,以及增加包含唯一内容标识、生成时间、生成用户等必要内容的隐式标识,并在必要时可通过技术手段提取。(7)其他根据场景可以考虑的缓解措施根据所使用的场景还可以其他必要的缓解措施。比如,是否限制用户对AI生成内容的下载、分享。在教育场景下,可以让教师来监督学生使用AIGC功能。4.用户层面对用户保持必要的透明度很重要。如果可能得话,应尽量提供必要的文档,对功能及其局限性予以解释,并发布用户指南和最佳实践。例如,OpenAI就提供了专门的政策中心,用以介绍其政策,同时也向用户说明其功能原理与局限性,通过必要的透明提高用户的信任。OpenAI政策中心:https://trust.openai.com/在缓解阶段,也应该持续测量并记录缓解措施的有效性并不断予以改进。五、运营阶段应该怎么做?实施阶段需要设计并执行部署和持续运营的治理计划,可以包括以下内容:1.制定分阶段开放的计划可以考虑设计内测计划,用以在全量开放之前给特定的人试用产品,接受用户反馈,并根据反馈予以改进。文心一言、同义千文、kimi基本都有相应的内测阶段。2.制定事件响应计划提前制定数据泄露、不良信息传播与扩散等紧急事件的应急计划,在事件发生时及时防止危害进一步扩大。3.制定回滚计划在必要时,确保能够通过回滚版本以防止安全问题。4.识别并阻止滥用的用户识别滥用系统的用户,如试图越狱的用户,试图生成仇恨内容的用户等,并通过警示、封号等方式限制该部分用户的使用。如下图为在用户多次违规后,对用户的禁用弹窗。5.建立有效便捷的用户反馈渠道让用户可以便捷地进行反馈,并根据用户反馈持续优化产品。常见的实践为提供一个小窗给用户便捷地反馈建议,并让用户可以便捷地对内容的准确性、安全性等进行标识。可点击阅读原文到飞书库阅读其他更多内容 阅读原文