机器中隐藏的偏见-白红宇

尽管成为了近年来技术发展的里程碑，人工智能（AI）仍然会受到意想不到的后果的影响。在2016年，微软公司的Twitter机器人Tay在与平台上的同行学习之后，竟然发布了种族主义和非常不适当的言论。由于无法从社会学习中覆盖和改写恶意信息，Tay的帐号被关闭，仍然只能保持私密。

像Tay这样的其他事件也浮出水面。最著名的是谷歌公司的图像识别软件。GooglePhotos在将一些非白人用户标记为“大猩猩”后被指控种族歧视。谷歌公司声称这个事件是无意的，但仍然是一个令人担忧的问题，将一个被忽视的代码转化为种族歧视问题。

不幸的是，像微软公司和谷歌公司这样的算法仍然依赖于人类的输入，并且其内容受到算法参数的限制。这是Tay无法通过互联网确定真相，以及Google Photos无法区分一些非白人用户与大猩猩的能力。然而，这个问题存在于比人们所知道的更多的算法中。

这种基于机器的偏见源自人类编程人工智能以自动化机器学习的时候。由于人类构建了用于训练人造智能偏差的数据集，限制和人为错误可能会影响产出，故障原因在于人类从一开始就对这些机器进行培训。

机器是人类互动的产物

有了人工智能，人类就是木偶大师。引导机器处理用于对数据集进行分类的信息是人类的输入。在其最简单的形式中，人工智能分析已知值的数据库中的陌生的输入，以得到正确的输出。就像在人类学习一样，更多的算法是输入索引图像，软件处理就会越准确。如果你使用数百张猫照片训练算法，则可以将之前从未见过暹罗猫的照片归类为“猫”。但是，在受控环境中使用典型或完美图像训练算法时，可能会形成问题。如果开发人员不用代表不同条件的数据来训练这些机器，则可能会出现并发症。

这些问题甚至可能影响图像处理软件的意外应用，如条形码识别。标准1D条形码由包含编码值的各种宽度的交替黑色和白色条纹组成。扫描仪通过分析条纹之间的宽度并将其与预选的参数集进行匹配来处理宽度。如果由于光线不良或打印质量差，条形不明确，则计算机无法对编码数据进行解密。在这些情况下，计算机能够检测各种潜在的匹配，但需要额外的信息来识别正确的值。

误读条形码可能让用户从在线订单接收不正确的产品。在医院，通过条形码识别患者的关键健康信息，如药物特异性过敏;不正确或部分扫描可能导致严重后果，如过敏性休克甚至死亡。不断地纠正机器错误使用户容易受到这些错误的影响。

例如，一个人看到老虎和斑马，并且能够基于他们是不同物种的知识来区分两者。但是，如果没有适当的训练，计算机将会看到条纹，并假设它们是类似的同类。人类知道，斑马和老虎被分为一类为不合逻辑，但是计算机需要提供整体投入才能清楚地解读这个差异。

尽管创建一个具有明确数据集的综合数据库似乎是合乎逻辑的，但实际上大多数情况都有一些歧义。当算法涵盖尽可能多的输入时，人工智能驱动的机器具有精度的能力，但这不是一个解决方案。更多的投入也将暴露出与人类相同的偏见，所以机器如何破译输入和特征是一个重要的因素。随着图像识别技术的不断完善，开发人员需要意识到他们在解决方案中使用的图像以及对技术的影响。

本文转自d1net（转载）