导读:《网络信息内容生态治理规定》正式实施前夕,《中国信息安全》杂志(以下将简称“杂志”)向网易易盾cto朱浩齐约稿,希望朱浩齐能从网易易盾治理和实践出发,分享他在内容安全领域的认知。约稿的文章发表于杂志2020第二期(见杂志p73,标题为《构建全链路内容风控体系 解决内容安全难题》),后来文章也发布在中国信息安全官方微信公众号上。出于希望能帮到更多的平台更好的认知和做好内容安全,网易易盾重发此文,以下为详细内容:
日前,国家互联网信息办公室发布了《网络信息内容生态治理规定》(以下简称《规定》),以系统化思维和更为综合的量化指标,丰富和完善了互联网信息内容标准,为网络信息生态建设确立了基本的内容标准体系。随着2020年3月1日《规定》实施日期的临近,越来越多的内容平台如临大考,负责人不断审视自身的内容生态治理体系,对平台的内容安全能力是否合规进行考量。在此,笔者想通过这篇文章阐述:内容安全治理现状、治理的难点以及什么样的内容安全体系才符合当下的治理要求。
一、内容安全治理现状
近几年,我国在内容安全治理方面呈现出以下几个特点:
一是,监管部门覆盖度广、政策法规日趋完善。近几年,各部门针对不同领域的规章制度频发,例如《网络音视频信息服务管理规定》、《未成年人节目管理规定》、《儿童个人信息网络保护规定》、《中华人民共和国英雄烈士保护法》、《互联网宗教信息服务管理办法》等,可以看出我国在网络内容治理方面的法律法规越来越完善。
笔者在此想特别强调一下法律法规下责任主体的问题。用一个场景举例来说,某用户在内容平台发表了色情广告信息,用户和内容平台此时的行为都属于违法行为,应该对这两个主体都进行处罚,但从实际情况来看,对于用户追责成本非常之高,所以在大多数内容违规事件上,一般只是对内容平台进行了处罚。再举另一个场景,某恶意用户通过网络攻击的方式篡改网站,并发布色情内容信息,此时运营平台不仅违反了内容管理的相关规定,同时依据《网络安全法》,运营方没有落实好信息系统保护的要求,对此也会给予一定的处罚。
二是,针对性的专项治理行动非常密集。2019年内,相关监管部门发起的专项行动就有四次:
○“护苗2019”专项行动:全国“扫黄打非”办公室作出专门部署,于2019年3月至11月间大力组织开展“护苗2019”专项行动,旨在持续净化社会文化环境。
○“净网2019”专项行动:全国“扫黄打非”办公室于2019年3月至11月间大力组织开展“净网2019”专项行动,旨在持续净化社会文化环境。
○“剑网2019”专项行动:是国家博天堂国际的版权局等单位联合开展的一项专题活动,旨在维护清朗的网络空间秩序,营造良好的网络博天堂国际的版权环境。
○ 网络音频专项整治行动:国家网信办会同有关部门于2019年年中开展网络音频专项整治。目的是坚决有效遏制行业乱象,积极规范行业发展,促进网络生态持续向好。
以上两个特点,表明了我国对于建设风清气正的网络空间环境的决心。
二、内容安全治理的难点
即使在如此强的监管力度之下,违规内容还是层出不穷。主要原因是违规内容具有覆盖场景多、数据变种多、对抗性强等。
1.覆盖场景已经到了无孔不入的地步。新闻内容、用户评论、用户头像、昵称、看网剧弹幕,任何一个有内容发布的场景都很难躲过违规内容的骚扰;
2.在各种场景里,出现的违规数据种类和变种也非常之多。从最初的文本敏感词,到现在的字体拆分、特殊符号混淆、以及图片内嵌入违规内容等多种形式,最近一两年在语音方面又多了一个asmr(autonomous sensory meridian response,自发性知觉经络反应)的内容类型,夹杂着很多色情内容;
3.对抗性强,体现在违规内容的发布上有一定的组织性和对抗性,以内容形式的变换和账号的变化来对抗检测或运营策略。
在此背景下,做好内容安全其实是一个比较困难的问题。
首先是成本投入,最主要的是人力成本和设备成本。人力成本方面,当下互联网用人成本很高,一个成熟的算法专家年薪在50万左右。而且整个体系需要的不仅是算法人员,还有相关的运营专员、审核专员、策略专员。如果配备完整,一年在人力方面的投入就会有上千万。在设备方面,现在图像处理所需要用到的gpu节点是比较大的开销。
其次,是数据积累和审核经验的壁垒。一个图片检测模型需要有几万甚至几十万的样本数据,没有一定的时间和渠道是无法完成这种样本数据积累的。另外,审核人员的经验决定了主观上的审核效果和效率,完善的流程和制度是对效果客观上的保障。审核人员的经验积累要靠不断的学习和培训,流程和制度则需要时间去制定和完善。
三、当下需要什么样的内容生态治理体系?
现在内容安全领域的黑灰产对抗非常激烈。拿国内某社交媒体平台的现象举例,以往的色情账号会在各个热点事件下直接发布色情言论——直接给出色情网站,或者放出博天堂开户网址的联系方式,这种形式比较容易被内容安全系统检测和封号。现在对抗的形式,已经转变为账号头像换成比较性感,但不属于色情的图片,发表的内容多是正常的评论,但个人头像里都是隐晦的色情引流信息,以此来增强对抗性。
在这种强对抗的背景下,仅仅做内容的检测是远远不够的,不仅检测效果差,还会留下许多死角,给业务带来潜在的内容违规风险。我们认为,内容生态的治理不仅是对内容进行处理,还需要纵深的检测防御体系进行辅助。这是因为大多数的违规内容是非正常用户发布的,内容生态的治理是企业和黑灰产的直接较量,只做内容检测手段过于单一,或落入疲于应对的局面。
因此,网易易盾面向自己的客户推出了全链路内容风控体系。该体系在文字/图片/音频/视频内容检测引擎的基础上,融入了反作弊风控引擎和7*24h策略运营管家服务,在智能内容检测引擎精准确识别违规内容前提下,通过多维度用户行为检测,全面掌控每个可能影响内容风控的环节,从而降低内容安全风险。
网易易盾全链路内容安全风控体系
纵深防御
全链路内容风控体系是易盾从源头进行内容安全治理的具体体现,贯穿了用户全生命周期的纵深防御体系——从账号注册、登录、用户行为、内容发布以及登出。其背后,运用了多个技术对用户进行画像,包括人机识别、风险名单、ip画像、设备模型、行为模型、业务模型、关联分析和规则系统等。
对于上面提到的技术,拎出验证码和反作弊单独说明下。人机识别主要是通过验证码来提高黑灰产的攻击成本,这块不能用字符型验证码,因为早期的验证码非常容易被破解,利用ocr识别技术,即可批量化突破人机识别。网易易盾使用的是图标点选、推理拼图式的智能型验证码,能获取用户的行为信息和设备信息进行分析判断。反作弊的分析,是包括了事前预防、事中检测处置、事后分析回馈的三个环节,最后一个环节不容忽视,因为基于长周期的离线数据分析,能够作用于事前风控和事中风控。
黑灰产的动机很纯粹,即“获利”,通过全链路内容安全风控体系,能提高黑灰产的攻击成本,让投入产出比不对等,从而放弃攻击,转战其他平台。
最后介绍下网易易盾,我们是国内领先的内容安全&业务安全服务商,依靠网易20多年丰富的安全经验以及云计算、人工智能方面的积累,面向数字化业务提供内容安全、业务安全、移动安全和网络安全服务,保障客户业务合规、稳健和安全运营,免受黑灰产组织非法侵害,从而专注创新发展。
内容安全治理路上任重道远,期望和各方携手前行。易盾内容安全月,内容生态治理4大优惠,点击免费试用