大数据真的“公正无私”吗？

基于大数据所做的决策真能做到绝对的“公正无私”吗？在专注研究大数据对公共生活以及社会产生影响的一些研究人员看来，这个问题的答案似乎并不是肯定的。

中国日报网5月9日电（信莲）在信息化时代，凭借着对强大预测技术的使用，大数据业务正逐渐成为越来越多机构转型过程中的核心资产，但大数据的流行也令依托其而生的决策机制成为了研究人员们关注的重点。基于大数据所做的决策真能做到绝对的“公正无私”吗？在专注研究大数据对公共生活以及社会产生影响的一些研究人员看来，这个问题的答案似乎并不是肯定的。

据美国CNBC网站5月9日报道，日前，纽约大学就组织了一场这方面的研究活动，该活动关注的重点包括大数据在机器学习过程中的运用，以及数据挖掘技术在帮助公众以及私营企业管理者进行决策的过程中引发的问题等。

报道称，参与该研究活动的专家包括政策研究者、技术员以及新闻记者等等。这些人集中探讨了大数据在帮助人们依托事实做出决策的同时，是如何“无心地”设定了具有偏见性、歧视性的规则，从而催生相对应的筛选过程的。

在这一场景中，所谓的规则其实也就是通常我们所说的“算法”，即为了实现某一特定目标而催生的一系列在程序代码设定下运作的数学计算。批评人士认为，许多的算法其实都蕴含着偏见，并在不断强化其内置的假设。

目前政府机构已经开始审查因大数据的应用而催生的一些道德问题。上周，美国白宫发布的一份报告就认为，如果运用不得当，一些数据的收集极有可能潜在地引发对公民权利的侵犯，该报告呼吁应尽快建立对话机制，以确定如何在将对发挥技术潜力的同时，尽可能地缩小侵犯公民隐私、引发不公正待遇等方面的风险。

本次研究活动参与者之一、同时现任普林斯顿大学信息技术政策研究中心（the Center for Information Technology Policy at Princeton University）研究员的梭伦·巴罗卡（Solon Barocas）在2014年发表的名为《大数据的差异性影响》的报告中就指出，“推崇数据挖掘等依赖算法的技术的人们认为，这类的决策过程完全摒弃了人类偏见，但事实上，算法到底有多准确，完全要看数据本身。”

巴罗卡研究的正是机器学习等领域在实际应用中产生的影响，以及其可能引发的道德以及认知问题。他还强调，数据的挖掘很有可能受到上一次决策过程的影响，或者反映一些社会广义范围内存在的偏见。

换句话来说，巴罗卡认为，机器学习的系统，就是在运用人类所设计的算法计算人类所制造的数据，因此，每一个数据中都有可能蕴含着这份数据制造者所怀有的一些潜在偏见。

在因大数据而生的“歧视”中，最经常被引用的一个案例来自于哈佛大学数据隐私实验室（Data Privacy Lab at Harvard University）负责人拉坦娅·斯威尼（Latanya Sweeny）所进行的一项研究，该案例引用了在互联网上搜索一些特定姓名时，包括谷歌等渠道所反馈给搜索人的结果。斯威尼发现，比较生僻、容易和黑人联系在一起的名字，搜索后显示结果中包含的逮捕记录数量，要明显高于用白种人常见名搜索所得。谷歌随后修正了这一问题，但他们究竟是如何做到的，这一点从来没有对外公开过。

大数据的广泛应用，在过去几年里还引发了其他一些对于该技术使用不当以及具备偏见性的指控，这些指控来自于方方面面。这其中也包括执法部门使用的犯罪预测技术等等。很显然，在一些人眼中，运用大数据技术给人们带来的便利，需要和使用该项技术解决社会问题时可能引发的风险放在一起均衡地考虑。

但大数据技术的推崇者们认为，问题其实并不在于“大数据歧视”，只是因为数据专家们误读了数据挖掘和统计学习所得的结果。他们认为，大数据带来的福利，要远比它所引发的担忧重要。

“在我学术研究以及从事咨询的生涯中，我已经见证了无数个运用大数据进行决策、分析，给企业、机构以及消费者带来便利的案例，”纽约大学斯特恩商学院商业分析中心（Center for Business Analytics at New York University's Stern School of Business）主任德亚·高斯（Anindya Ghose）表示，“说句实话，我不太能理解那些大数据技术的批评者们兜售的数据分析应用有多‘恐怖’的观点。”

“对那些批评者，以及对我们心存警惕的人们，我要说一句，处理好你的情绪，大数据分析将常青不朽，”高斯说。

（编译：涂恬编辑：陈姝）