大数据的社会责任

大数据、机器学习、人工智能这些名词人们越来越耳熟能详，好像说这些就是现在和未来信息技术的发展趋势。确实，随着计算机计算和储存能力的提高，以往需要仔细考虑的计算资源分配问题变得不那么重要。例如，现在在资源充裕的情况下，我们通常动不动就上神经网络来解决，不是像以前那样仔细考虑，提取出数据的各种特征、开发对特定问题优化的算法，因为神经网络一般能自己归纳出合理的模型。然而，现在缺乏仔细讨论的不是用哪种方法处理数据，而是我们对待原始数据和处理结果的态度。

首先，原始数据的收集应该公开透明：数据的提供者，一般是用户，要有知情权。在各大网站上，基本都有「隐私政策」和「服务协议」页面，说明了其收集的用户数据及其用途。即使是这样，有的服务写的详细，并给出了停止收集一些数据的选项；有的服务措辞模糊，一开始就拿了许多权限，其用途无法解释，或者解释与实际行为不符。之前爆出的某些大厂的应用程序偷听或者偷拍用户，至少就没有做到数据收集的公开透明。我们暂时做善意的假定，这些收集的数据确实是「改善用户体验」。如果这些应用在申请权限之前有明确合理的解释，即使是像广告下面的小字，也可以算作是尊重了用户的知情权。后台收集数据的事情被发现后，这些大厂为了防止声誉受损，不对这些行为做出解释或道歉，只是重复「你怎么这样凭空污人清白」，就难免受到人们更多的质疑。用户反对被收集数据，不仅是因为收集过程不公开透明，更是因为无从得知数据收集者有没有妥善保存和使用收集来的数据。

因此，服务商收集了多少数据就应该负多少责任。服务提供方通常要求用户提供足够、真实的个人信息，从而建立对用户的信任。即使他们承诺数据不会透露给未授权的第三方，然而几乎每个月都会有各种数据泄漏事件发生，像是用户账户数据库被攻破，数据在传输过程中没有做好充分的安全措施，甚至有服务商主动泄漏用户数据，导致个人资料在网络上随处可得。出现这些问题，一部分在于服务提供商安全意识薄弱，对数据存取权限管理不当，一部分则可以认为他们收集了太多数据。紧跟行业最佳安全做法是服务提供商应尽的责任；减少数据的收集和被收集，则是一种降低风险的手段。例如，一项使用行为数据并没有用来统计分析或「改善用户体验」，那就不应该收集。对于服务商，有些只用于统计分析的数据，可以在传输和储存过程中避免带有可识别个人的标识符，使数据匿名化，这样也能减少一些风险。用户可以尽量阻止程序收集不影响所使用功能的数据，不需要「查找联系人」的，就关掉读取联系人权限；不需要个性化广告推荐的，就关掉这样的选项；在填写表单时只填写确实必要的内容。对收集的数据负责，是服务提供方亟需做到的。

在分析处理收集来的数据时，我们通常观察全局，归纳出训练集的行为特征。然而，对这些数据的分析结果的一些利用方式，则是一种对少数人、少数行为的歧视。例如，有军事机关通过机器学习归纳出恐怖分子的生活轨迹，从而攻击可能的恐怖分子，然而这样众多无辜民众就不幸受到攻击；执法机关的人脸识别算法不佳，导致不同肤色的人更可能被怀疑；日常在线购买的物品与众不同，使信用等级降低；不尊重用户个人的选择，强制下载并安装更新。这些都是无视每个人的不同，用大部分代替全局的错误策略。像广告推送这样的应用，分类错误没有什么大问题，而一个人的生命、财产、尊严、人身自由，是不能用算法来决定的。根据多数人的行为提高少数人行为的成本，就会引发寒蝉效应，导致变相限制了宪法和法律规定的各种人身自由。还有一种错误的利用方式是根据分析行为数据估计风险，而算法对风险的估计仍不可替代安全措施。有些服务过度信任自己的行为分析模型，使不法分子有机可乘，且提高了少部分用户的使用成本。这就像在门口架摄像头进行人脸识别开门固然可行，其安全性和实用性却远不如一把锁。

不论是现在还是不久的将来，人工智能对人类最大的威胁一直会是人类自己对这项技术的使用方式。「不是人人都必须懂计算机和网络安全才有资格使用手机电脑互联网」，也不应该让人人都必须阻止了隐私数据的收集才敢使用一个网络服务。大数据的收集和使用必须经得起道德衡量，能负起社会责任：训练数据还是需要按照公开透明的原则去收集，对数据的传输和储存过程做好安全措施，正确使用分析结果，这样才能使每一个人都能从大数据带来的便捷中受益。

2016年06月11日,

作者 Gumble,

分类时事评论, 标签机器学习