首次划定“爬虫”法律红线，数据保护与人工智能的平衡点在哪里？

理性·建设性

《数据安全管理办法》征求意见稿在细化个人信息保护规定的同时，对诸如“爬虫”等网络行为首次进行了法律界定，该意见稿或将成为相关个人信息保护法律出台的参考。

5月28日零点，国家互联网信息办公室发布了《数据安全管理办法》征求意见稿（以下简称“意见稿”），提出在中华人民共和国境内利用网络开展数据收集、存储、传输、处理、使用等活动（以下简称数据活动），以及数据安全的保护和监督管理，适用本办法。在细化个人信息保护规定的同时，对诸如“爬虫”等网络行为首次进行了法律界定，该意见稿或将成为相关个人信息保护法律出台的参考。

变化与探路

此前，在个人信息保护方面，主要依据的是以网络安全法为主的相关法律规定，以及其他的相关文件，例如《信息安全技术个人信息安全规范》、《互联网个人信息安全保护指南》等。

在北京观韬中茂（上海）律师事务所合伙人王渝伟看来，这次意见稿在个人信息保护方面的规定，较之前的网络安全法要详尽很多，同时作为部门规章，其将具有个人信息安全规范等国标不具有的正式法律效力，或成为将来出台的关于个人信息保护法律的参考。

"这个《数据安全管理办法》的酝酿时间其实很长，并不是最近才起草。"王渝伟说，从内容来看，其立法初衷可能与此前国外发生的大规模数据泄漏、数据滥用等事件相关。

在此之前，尽管在个人信息保护方面，《网络安全法》做了相应规定，但京衡律师集团上海事务所合伙人律师邓学平，曾经向经济观察网表示：“《网络安全法》仍然是大而化之，缺乏对个人信息从收集、存储、使用和救济等全流程的保障机制。”

这种“大而化之”并非没有原因。

中国电子技术标准化研究院的何延哲博士曾表示，个人信息保护领域的很多问题尚未有定论，比如个人信息的权属问题、关于征得同意的方式方法问题等等，最好是能够在专门的个人信息保护法中明确。同时正是因为这些争议，也造成了立法本身的难度增加。

而此次意见稿则对个人信息的收集、使用等全流程进行了相较于《网络安全法》及《信息安全技术个人信息安全规范》更严格的规定。

不过，王渝伟觉得，尽管意见稿中对于个人信息的收集和使用做了严格规定，但办法尚在征求意见过程中，最终可能带来的影响现在还很难确评估。

首次对爬虫进行规定

值得注意的是，意见稿第二章第十六条规定，网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

这是首次对爬虫问题进行了规定。但王渝伟指出，其中的"日均流量三分之一"的数字是根据什么算出来的，值得商榷。

王渝伟看来，意见稿中，在第三章第二十七条对个人信息的使用上规定了五点例外，是其中的亮点，第二十七条网络运营者向他人提供个人信息前，应当评估可能带来的安全风险，并征得个人信息主体同意。

下列情况除外：（一）从合法公开渠道收集且不明显违背个人信息主体意愿；（二）个人信息主体主动公开；（三）经过匿名化处理；（四）执法机关依法履行职责所必需；（五）维护国家安全、社会公共利益、个人信息主体生命安全所必需。

但他同时也指出，"在数据收集上，是否也应该考虑加上一些例外情况。"但遗憾的是，办法并未对个人信息的收集的例外情形进行规定。

数据安全责任人法定化

王渝伟看来，此次意见稿中的一个亮点，是明确数据安全责任人的职责范围。

第二章第八条中规定，在收集使用规则中，应当提供网络运营者主要负责人、数据安全责任人的姓名及联系方式。

第二章第十七条和第十八条提到，网络运营者以经营为目的收集重要数据或个人敏感信息的，应当明确数据安全责任人。

数据安全责任人由具有相关管理工作经历和数据安全专业知识的人员担任，参与有关数据活动的重要决策，直接向网络运营者的主要负责人报告工作。

第十八条规定数据安全责任人履行下列职责：（一）组织制定数据保护计划并督促落实；（二）组织开展数据安全风险评估，督促整改安全隐患；（三）按要求向有关部门和网信部门报告数据安全保护和事件处置情况；（四）受理并处理用户投诉和举报。网络运营者应为数据安全责任人提供必要的资源，保障其独立履行职责。

数据保护和人工智能的平衡点

尽管有观点认为，对于数据安全的严格规定，会限制以大数据为基础的人工智能发展。

以欧盟《一般数据保护条例》（GDPR）为例，有观点就认为在 GDPR 中，有关“算法公平性”的条款要求所有公司必须对其算法的自动决策进行解释，这意味着目前大量 AI 应用依赖的深度学习算法不再符合法规。

数据保护和人工智能发展，如何找到平衡点？

“GDPR 对数据隐私的保护很严格，不能用传统的方式来聚合大数据，这就为人工智能技术提供了升级发展的契机。简单来说，之前的深度学习是要求将数据汇总到一处，现在数据不能出本地。”人工智能国际专家、国际人工智能学会理事长、微众银行首席人工智能官杨强与团队基于此提出了“联邦学习”方案。

简言之，就是一种加密的分布式机器学习技术既保证用户隐私，又能完成模型的训练，从而提升AI 技术的应用范围。数据合作方可以在不对外公开所有数据的情况下，与其他合作方一起通过加密的方式联合数据建模，提升机器学习的效果。

例如，在医疗健康领域推进智慧医疗的过程中，病症、病理报告、检测结果等病人隐私数据常常分散在多家医院、诊所等不同地区不同类型的医疗机构。联邦学习使机构间可以跨地域协作，而数据不出本地，多方合作建立的预测模型能够更准确地预测癌症、基因疾病等疑难病。

如果所有的医疗机构能建立一个联邦学习联盟，或许可以使人类的医疗卫生事业迈上一个新台阶。

推荐阅读

洞察变化的商业世界

新一线抢人大战又来了！杭州、天津降低学历要求、还贴钱落户？

专访院士张钹：深度学习触及天花板 AI奇迹难再续

在东莞、佛山，寻找中国制造的本相

经济观察报 ∣理性建设性

长按，识别二维码，加关注

590200首次划定“爬虫”法律红线，数据保护与人工智能的平衡点在哪里？

首次划定“爬虫”法律红线，数据保护与人工智能的平衡点在哪里？

文章评论