HCI 论文 Let's Talk About Race Identity Chatbots and AI 翻译

 

这是我的现代人机交互课老师的布置的作业:翻译并阅读一篇CHI会议的论文,我选择了这篇文章来翻译,感觉文章中的角度很好,在这里也放上来,大部分都是谷歌机翻再加本人猜想法翻译,真有人看的话忍一下我这个菜鸡吧,不过大概没人几个人看这个吧😂 CHI 2018 最佳论文奖获奖论文 CHI 2018, April 21-26, 2018, Montréal, QC, Canada Perm...

这是我的现代人机交互课老师的布置的作业:翻译并阅读一篇CHI会议的论文,我选择了这篇文章来翻译,感觉文章中的角度很好,在这里也放上来,大部分都是谷歌机翻再加本人猜想法翻译,真有人看的话忍一下我这个菜鸡吧,不过大概没人几个人看这个吧😂

CHI 2018 最佳论文奖获奖论文

CHI 2018, April 21-26, 2018, Montréal, QC, Canada

Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. Copyrights for components of this work owned by others than the author(s) must be honored. Abstracting with credit is permitted. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. Request permissions from [email protected]

本作品允许他人制作全部或部分内容的数字或硬拷贝为个人研究用途或教学用途而不需要付费,只要复印件不是为了利润或商业利益而制造或分销的,该副本需载明此声明并在第一页上的完整引用本声明。这项工作的组成部分的版权归其他人所有,作者必须被尊重。 许可付费摘取内容。 另外复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可包含/不包含费用。 请求权限请致信[email protected]

CHI 2018, April 21–26, 2018, Montreal, QC, Canada © 2018 Copyright is held by the owner/author(s). Publication rights licensed to ACM. ACM 978-1-4503-5620-6/18/04…$15.00 https://doi.org/10.1145/3173574.3173889

我们来谈谈种族: 身份, 聊天机器人, 和AI

作者 机构 邮箱
Ari Schlesinger School of Interactive Computing Georgia Institute of Technology Atlanta, Georgia [email protected]
Kenton P. O’Hara Microsoft Research Cambridge, United Kingdom [email protected]
Alex S. Taylor Centre for HCI Design City, University of London, United Kingdom [email protected]

摘要

为什么很难让聊天机器人去讨论种族问题? 这个问题涉及到了数据集中的偏差, 自然语言处理中的句法, 和深度学习的黑箱性导致难以应对有关种族的谈话. 在这些领域中, 人和机器的紧张关系给人和机器创造了新的机会. 讲抽象而且不同性质的问题实体化, 我们可以让聊天机器人更有能力以多种方式处理种族敏感问题的讨论. 我们的目标是提供多种方法给人机交互这个社群来解决这个问题:如何让聊天机器人用新的更好表现的方式与人讨论种族敏感话题?

作者给出的Keyword

聊天机器人; 种族; 人工智能

ACM分类给出的Keyword

H.5.m. Information Interfaces and Presentation (e.g., HCI): Miscellaneous

黑名单: 现在的聊天机器人如何处理种族话题

在2017年, 设置黑名单这种技术被列为解决处理不乐见的言论如种族主义的最高解决方法在在线交流中. 可是当微软的聊天机器人Tay fiasco 在上线推特不到24小时内, 这个AI就变成了一个种族主义者, 性别歧视者和一个反犹太主义者, 在事后处理中, 推特的聊天机器人开发者表示了不信任微软,认为微软显然没有成功的构建一个黑名单来阻挡那些似乎听起来较为温和的但实际上仍是充满不当言论的言论[51,71,72].黑名单过去一直被视为用于缓解种族主义言论的默认故障保护。但为什么要将黑名单视为通用的解决方案聊天机器人如何处理种族不当言论?

当我们观察黑名单是如何工作之后, 我们可以发现其有明显的缺点, 一个黑名单或者是过滤器部署了一些开发者不期望遇到的字符串用来过滤语句. 基本上,黑名单使用单词和词干识别和消除某些类型的言论。 在一个公开发布的Twitterbot黑名单叫做wordfilter,如果一个推文中包含是这个数据集中的任何一个字符串的子串,推特系统就会丢弃这条推文[54]。 通常,黑名单可以在各种复杂程度下运作。 例如,如果聊天机器人用户中存在子字符串匹配文本,聊天机器人可以生成自动响应警告用户不要继续进行这种言论的谈话。 同样,详细的正则表达式提供另一种定制的途径。 无论如何实施,字典-一个字符串的列表是黑名单的有影响力和破坏性的功能。

这时候, 所有的一切归结到一个关键问题上:那些单词需要被放到黑名单词典中去? 虽然包括一个n-word包含在黑名单里面并不会让大多数人感到惊讶。 当你设计了一个范围广, 十分谨慎, 宁可误抓十个也不放过一个的黑名单, 你可能会拦截到一些完全没有问题的词句. 在这些n-word中,黑名单也可能包括像jap,paki和homo这样的字符串; 用这些词 - 源于捕捉仇恨言语的变种。 Kazemi,前文提到的开元黑名单wordfilter的创造者,声称“[他]愿意失过滤掉包含’homogenous’和’Pakistan’的句子以避免漏掉一些不当言论“[54]。 但是Pakistan,不仅仅是一个词,它是一个国家的名字将巴基斯坦列入黑名单会让这个国家和她的人民在互联网上消失。

黑名单不是魔法, 也不是万能药. 它是一种粗糙的识别仇恨言语和抑制不正当言论的方法[19]。 当我们从聊天机器人中删除一些形容词和来国家名称时,我们的“解决方案”涉及的不仅仅是避免仇恨言论。 我们必须要问我们自己究竟在切割什么?

在某种程度上,黑名单似乎很直观。 对我们许多人来说,有些话我们努力永远不会说或保留用于特殊事项。 根本上,我们对于某些言语的谨慎态度植根于更大更复杂的事物而不是这个坏话的那个代表向量。 这些话会受到关注因为我们了解它们的历史,它们的伤害,它们的残忍,因为我们尊重被这些字符串口头和身体虐待的人。 我们还了解到有些人在重复使用这些话语追求所谓力量,而其他人只能被他们伤害。

让我们看一下Gloria Naylor关于“词语的意义”这个问题的反思:

“I don’t agree with the argument that use of the word nigger at this social stratum of the black community was an internalization of racism. The dynamics were the exact opposite: the people in my grandmother’s living room took a word that whites used to signify worthlessness or degradation and rendered it impotent. Gathering there together, they transformed nigger to signify the varied and complex human beings they knew themselves to be. If the word was to disappear totally from the mouths of even the most liberal of white society, no one in that room was naive enough to believe it would disappear from white minds.” Gloria Naylor, “The Meanings of a Word” [69]

“我不同意在黑人在自己的社会阶层使用黑鬼这个词是种族主义内化的论点。 使用黑鬼这个词的动力恰恰相反:在我祖母时代的人们采用一种说话方式,白人过去认为这些词没有价值,忽略了这些词的重要意义。 他们不理解这些词,但是把这些词整合在一起,nigger这个词原来是黑人用来表达自己这个复杂族群和对这个群体的认同感,白人却改变了这个词的内涵变成了黑鬼,完全背离了这个词原本的含义。即便这个词从某些思想最开放的白人口中消失,也没有人会天真的想着白人对黑人的种族歧视就此消失。

格罗里娅-内勒,“词语的意义” [69]

Naylor 生动的描述了种族主义不是单纯寄生在黑名单那几个词根中,种族主义是一个广泛的政治社会问题纠缠在一起的产物。我们不能通过简单的过滤解决这个问题。无论我们是否直接参与种族谈话,种族和种族主义都在我们所有人的社会结构中。 种族主义不能被视为独立模块化的问题。 这不是我们可以简单地删除的东西。这不是我们简单的构建黑名单删词句可以解决的问题。只通过删除,我们无法阻止种族主义者。

删除单词充其量只能提供部分解决方案 - 这种解决方案掩盖了更深层次的仇恨言论与权力,社区和国家历史纠缠在一起的复杂问题。 帮助聊天机器人在日常环境中处理种族话题,我们需要设计出超越黑名单的方法。 如果我们希望聊天机器人能够处理日常对话,如果我们希望聊天机器人以更公平,公正和尊重的方式行事,那么我们需要构建它们而不仅仅是简单地删除单词。 他们必须能够很好地处理种族,权力和正义等主题。 作为起点,我们需要认真对待这些主题的技术和理论研究。

聊天机器人:他们是什么?他们是如何工作的?

正如很多名字一样:比如bot和chatterbot,聊天机器人是一个程序被设计出来和人类进行语言或文字形式的交流。对话系统,一个可以进行对话的计算机程序,很早就被HCI所关注。1950年由图灵设计出来的图灵测试就是其中非常有名实验来衡量人工智能水平[82]。从20世纪60年代具有历史意义的Eliza到21世纪我们开发出更聪明的架构比如IBM的Watson和微软机器人框架,聊天机器人的发展伴随着人类计算机水平的发展[13,84,91,92]。所以,聊天机器人有什么用,他们是如何工作的?聊天机器人可以设计出来提供很多服务,比如模拟心理治疗,告知用户天气情况,进行小型的对话,或者用来做客服。下面是几种构建聊天机器人的常见方法:

  • 基于既有规则的系统
  • 基于信息检索的系统
  • 基于机器学习的系统(如 transduction models )[52]

这些方法覆盖了从简单的传统的条件转移的系统到最新技术的机器学习方法。

从数据库到自然语言处理再到人工智能,聊天机器人所体现出来的技术社会问题对人机交互的未来至关重要。 有了可用的可以研究聊天机器人,我们可以深入了解社交,技术和道德问题这些问题如何让聊天机器人陷入困境当他们面对像种族这样复杂的话题。

调查问题:我们出了什么错,我们如何修正它?

让聊天机器人处理种族这类话题,我们必须研究检查数字身份并追踪物理和数字世界形成并相互扰乱的学者的工作。 学习他们的成果。我们开始知道偏见,身份,正义和权利222与我们的技术系统地纠缠在一起。听听麦克弗森的起诉[66],哈拉威[41],和科尔曼[24],我们知道无法用一个普遍的眼光看待偏见,抽象的方式或简单地删除。 我们要了解我们生活的世界的特殊性来回应偏见。 我们需要stay with trouble [43]。

所以,如果我们认真对待问题,考虑具体的技术社会情况 - 我们应该考虑一个离散的问题空间。 在这个空间中主流技术的进步和身份认同的冲撞,包含了一个越来越深入人们生活的AI。 一个空间类似包含着聊天机器人,人工智能和种族话题的空间。

2016年3月,微软公开了一个典型的案例关于这些问题,他们发布AI聊天机器人Tay在推特和数个其他社交平台[60]。Tay证明了用人工机器智能处理在线谈话是一件多么困难的事情,无论有黑名单或没有黑名单。Tay旨在模拟一个年轻(白人),西方千禧一代的女子,Tay通过与人进行小型对话,从人类的对话中学习知识。一天没到,Tay居然变成了一个支持种族主义,充满性别歧视和反闪米特人的AI。其行为包括分享充满仇恨的演讲,侮辱黑人;骚扰女性玩家;并且潦草地写着swag在希特勒的照片上[46,94]。在Tay下线之后,相关行业专家发表了大量的文章分析问题,学者和记者质疑什么出错了,为什么出错了,我们该如何面对这些问题[51,78]。公众开始关注种族主义,偏见,虐待等在AI中的表现,有一些文章讨论黑名单技术可以拯救我们。所有的文章都在关注有关于我们如何处理种族主义,正义,歧视和尊重问题在我们构建的AI技术中的体现。

时间流逝,但是Tay和其他案例仍在提醒我们要思考这些问题[17,57,83]。我们提出问题,如何解决这种问题,机器如何鉴别那些种族歧视语句?有一个很好的句子表达我们的现状来自James Baldwin,“Not every that is faced can be changed. But nothing can be changed until it is faced ”[9]。要面对这个问题,我们需要先有一段种族问题的对话。

讨论有关种族的话题是很不容易的,对很多人来说涉及种族话题的谈话是很难的,这需要我们持一个开放的思想,多思考多参与,这只是个开始。对人工智能来说,如何参与种族话题的讨论还有待很多没有探索的地方,甚至有些争议之处。我们做之前必须要扪心自问,what does it take for an agent, like a chatbot, to handle race-talk in its many forms, locations, and conditions?

我们要面对两个关键问题:

  • 如何设计聊天机器人能使其处理类似种族话题的讨论利用新的提高过的方法。
  • 为什么让聊天机器人进行种族话题的讨论如此困难。

考虑种族:我们人类是如何看待种族和个人身份的?

有一些人可能会想,为什么是种族?种族是一个永远存在在我们社会关系中的属性。即使我们面对机器与人之间的关系,种族相关材料通过对话,代码之间的相互作用体现其影响[40,64-66,68]。要忽视身份和种族,就要忽视关于身份和种族如何与生活密不可分的相当可观的文献。先前Rode[40],Erete[34,35],Grimes[38]和Dillahunt[31]在HCI中的研究证明种族话题在组成人类对话的重要地位。尽管如此,它确实如此明确“[代码]与种族之间的关系是深刻的交织在一起,即使代码可以拒绝接受这些消息。

理解种族和技术之间的纠缠是很困难的。 但是,如果我们想了解种族和偏见如何在我们构建系统(如聊天机器人)的系统中运作,我们需要更好的方法来处理技术和社会结构如何相互关联。 通过更深入地了解这些纠缠的关系,我们可能会开始向其他前进方向。

种族话题是一个特别重要的话题需要被精确的处理因为这个话题在我们的社会中出现的如此频繁且敏感。但是,话题只是人的身份属性中的一个方面,它不是完全独立的变量。它与性别,阶级,能力,性,宗教和年龄等其他身份结构相交叉。不存在普遍的种族经验知识。当我们在本论文中谈论种族和种族谈话时,我们并不是指单一的实体或身份 - 或单一类型的种族谈话。还有种族谈话中包括的各种谈话包括方言,历史谈话,文化对话等等,这其中种族话题的谈话只是一个子集。即使我们关注点在种族话题上,但必须认识到种族与其他身份类别相交互的方式,以产生种族和种族主义的不同实验[28,76]。

为了帮助我们理解种族和技术之间的纠葛,我们关注一个公式race as technology ,由数字媒体学者Beth Coleman提出。Colema要求我们“将’种族称为技术’称为颠覆性技术,通过一种非常熟悉的代表性和权力体系来改变参与条款”。通过更改条款,我们可以直接解决和扰乱与种族和聊天机器人相关的主导结构。 我们可以了解种族联系的方式,通过语言和计算技术,使用,并通过语言和计算技术使其变得有形。

概述:我们如何讨论种族和AI聊天机器人

在本文中,我们借鉴技术,理论,历史和经验,使我们能够认真对待种族话题谈话和聊天机器人的问题。使用在女权主义,批判性种族研究和交叉性[2,28,42,43,45]领域的成果,目标是超越对技术社会结构的批判性考察。我们的目标是重新构想种族和聊天机器人之间的关系。 这首先是探索让我们思考种族的想法和生成方式的聊天机器人。 密切调查使我们能够发现种族,技术,对话和聊天机器人之间的联系。

能够描述一个问题,仅举几个问题,就可以解决问题“通过收集那些将分散的经验变成有形的东西而获得社会和物理密度的问题”[3] 。我们与这些复杂交杂在一起的关系网络互动,它们共同努力使这个问题具体化。通过研究这些网络关系,我们发现我们与之互动的具体技术配置与种族有着根本的联系。 没有这种特殊性,在我们的工作中解决偏见和种族话题将缺乏产生新路径所必需的具体性。

网络关系要求我们与他们所连接的事物的技术性进行斗争,从特定的代码行到抽象的理论结构。以Tay和黑名单为基础,我们研究了三个技术AI聊天机器人域的网络关系:数据库,自然语言处理(NLP)和机器学习(ML)。 这些部分中的每一部分都充当了一个有效的例子,逐步解决了处理种族议题谈话并发现变革机会。

首先,我们检查聊天机器人算法训练的数据,揭示种族和种族主义嵌入数据集的方式。 推动伴随数据集开发的常常隐含的偏差,我们主张创建多样化和具有种族意识的数据库。

接下来,我们深入研究NLP中的技术和理论。我们强调了影响该领域依赖语法的历史结构,因此难以解释种族和种族主义在语言中常常微妙的语境。 我们提出了一个挑战,即拥抱特定环境,复杂的大型网络,以便机器可以参与复杂的种族话题讨论。

最后,我们研究了通过神经网络的黑箱性来理解人工智能的障碍。 我们详细说明了精确度的吸引力和突出的ML算法的不适应性如何为种族和种族谈话的处理创造危险情况。 在算法问责制方面,我们建议深入研究深度学习算法的跨学科研究伙伴关系。 这些伙伴关系专注于背景和可调性,可以增强我们解决ML中的算法处理种族和偏见的能力。

在这些有用的例子中,网络关系的紧张关系为创造新技术,新理论以及人与机器之间以及种族与聊天机器人之间的新关系提供了可能性。 通过巧妙地处理与种族和聊天机器人一起工作所涉及的抽象和不同的品质,我们为未来的聊天机器人更多能够以多种形式处理种族话题谈话的方式奠定了基础。

检查技术:你如何建立AI谈话机器人?

与种族及其相关理论合作,同时也在努力解决聊天机器人技术的技术问题,这是一项艰巨的任务。 鉴于种族和人工智能聊天机器人技术的复杂性,同时管理这些领域存在挑战。 虽然有许多方法可以看到这个世界,但我们通过一个独特的跨学科切割来看待这个问题空间,以便发现传统学科线隐藏的设计,种族和AI聊天机器人之间的联系。

通过这一切入,我们解决了三个反映AI聊天机器人架构中重要,相互依赖的技术贡献的领域:

  • 1)机器人从哪个文本中抽取来生成响应
  • 2)它如何理解语言以产生响应
  • 3)它如何学习在其会话环境中做出响应如使用如下技术:数据库,NLP 或 ML。

从这些技术研究开始,我们利用我们对这个问题空间的特殊切入来揭示与种族和AI聊天机器人纠缠在一起的网络化,技术社会关系。

通过利用来自许多领域的部分知识,我们将基于其元素亲和力的问题空间汇集在一起。 这种类型的切片引入了agential cuts[10]。 这些agential cuts是积极的干预措施,它们切割了我们对世界的看法,将一些事物粘在一起,同时将其他事物分开。 每次切割,我们都会带来某些东西,使其他东西变得模糊不清。 坚持传统的学科界限只是一种切割方式。 接下来是另一个。

Figure 1. Conversation with Microsoft's AI Chatbot Zo on Facebook Messenger, September 2017.

Figure 1. Conversation with Microsoft’s AI Chatbot Zo on Facebook Messenger, September 2017.

数据库:我们用什么语料库学习?

让我们先讨论一个非常简单易管理部署的构建方法,数据库。数据库是平易近人,直截了当的,用于技术和社会变革的多功能站点[32] 。在聊天机器人的上下文中,数据库应该至少包含会话文本。 创建这样一个数据库,需要资金,时间,基础设施和劳动力,这是科技行业大量供应的东西 - 即使构建会话数据库不是优先事项。 那么,我们需要什么样的数据库才能以多种形式处理种族主义话题? 要回答这个问题,我们应该学习当前在聊天机器人中创建和部署文本数据库的现有实践。

考虑一下我们之前反映的Tay的问题。 Tay所表达的腐败,辱骂,仇恨言论的一个促成因素是Tay从中学到的实际文本。 Tay的主要数据库是一个动态的,不断增长的语料库,它增加了用户与代理商之间的对话内容。 Tay向其用户学习,包括在Tay的编程中利用安全漏洞的4chan用户[16,20]。 值得注意的是,4chan用户因对色彩,犹太人和各种颜色的女性发起仇恨,破坏世界的攻击而臭名昭着[11,56]。 结果,Tay的数据库充斥着种族主义言论。

数据背景:数据库的种族残留是什么?

构建可以更好地处理种族话题的聊天机器人,并避免某些不当情况的一种方法是创建专注于数据库的方法在各种各样的种族主义谈话中。 不是通过假设避免使用某些词语,可以避免种族主义言论,而目的是明确地收集和汇总参与这些数据集关于种族问题的谈话和训练机器人的对话。 因此,即使您使用此数据作为更动态数据集(如Tay)的基础,也会有一个强大的初始基础来学习更尊重的种族谈话。

然而,种族主义谈话并不是一个狭隘的范畴,它涵盖了广泛的对话和主题。 关于历史的对话,与孩子们谈论在家乡作为有色人种意味着什么,与白人成年人谈论生活在一个特权白人的世界意味着什么,以及有种族主义倾向的人的谈话。 种族话题谈话包括多种语言的谈话,而不仅仅是英语。 聊天机器人和种族谈话至关重要的一个主题是文化音乐,书籍,公众人物等。文化参考有助于表明聊天机器人了解其用户的文化。 我们必须问自己哪些文化参考资料存档,哪些地方有差距?

如果我们不询问有关我们的数据库中代表的种族遗产的问题,他们将默认归档偏向白人[23,85,86]。当人们开发数据库而不关心这些数据库的种族代表性时,这些档案馆倾向于关注社会认为正常的白人,顺性,异性恋男人。 (为什么像Zo这样的大多数机器人被认为是女性是批判性分析的另一个主题。)图1中的Zo等聊天机器人的数据库倾向于在西方语境中认识到许多白人文化参考,但很难解释文化与色彩社区相关的参考文献。例如,我们与Zo的对话表明她知道大量白人男性电子乐队,但很难确定许多黑人嘻哈艺术家的名字。在反思种族融入写作的方式时,萨拉艾哈迈德解释了如何让一些人看不到默认为白色的做法,尽管其他人都非常清楚:

“It has become commonplace for whiteness to be represented as invisible, as the unseen or the unmarked, as a non-colour, the absent presence or hidden referent, against which all other colours are measured as forms of deviance (Frankenberg 1993; Dyer 1997). But of course whiteness is only invisible for those who inhabit it. For those who don’t, it is hard not to see whiteness; it even seems everywhere. Seeing whiteness is about living its effects, as effects that allow white bodies to extend into spaces that have already taken their shape, spaces in which black bodies stand out, stand apart, unless they pass, which means passing through space by passing as white.”

– Sara Ahmed [2]

白人成为默认的人种,当人们不意识到人种时往往默认这是白人,反而作为一种透明的无颜色,缺席或隐藏的指代物,当白人作为所有其他颜色的偏离与测量度的时候,人们就会习惯这一点(Frankenberg 1993; Dyer 1997),对与居住在其中的白人当然感受不到这一点,但是对与其他人种来讲,很难说看不到这种现象,它无所不在,很多时候这种默认已经体现出来,在整个人种的空间中,除非人们经过认真考察,否则这块黑人的空间将被白色遮盖,无法分开。

- 萨拉·艾哈迈德 [2]

当聊天机器人数据库中发生这种“正常”的违约时,它会进一步扩大种族主义的范围并降低我们处理种族谈话的能力,因为档案缺乏竞争。 问题广泛存在。 “规范”数据库问题也困扰着自然语言处理社区[33,63]。 但是,这是我们可以改变的。 建立更新,更好的数据库在我们的掌握之中。

构建劳工:谁建立了更好的数据库?

广泛的目标是建立不同种族谈话的数据库 - 种族是明确的和隐含的。 数据库将以多种形式促进尊重的种族谈话。 在机器人中,我们的目标是响应种族的对话,通过更广泛的知识库提升表达的多样性。 由于定义和理解种族的文化差异,跨语言处理种族谈话需要开发多种语言的数据库,并为代码转换的社区包含多种语言。 即使在英语范围内,NLP也需要处理非标准方言[33]。 我们的目标是更好地支持识别参与种族谈话,歧视性语言和仇恨言论的数据库。 构建这些数据集将增加人类和机器人谈论种族的方式的多样性,并在该谈话中捕获更多的字幕。

建立这些类型的数据库并不需要目前实施的尖端研究;它只需要我们的资源。在面部识别领域,Joy Buolamwini已经通过收集更多颜色多样化的面部识别数据库的图像来解决这个问题[55]。构建数据库的工作并非易事。我们必须确保我们在道德上这样做。我们需要考虑构建数据库所涉及的劳动力和利润,这通常被认为是愚蠢的非技术劳动力[48,49,77]。建立这些语料库不仅仅是“API呼叫” - 一句话Silberman,Irani和Ross用来描述许多人对机械土耳其人的工人概念[77]。同样,我们也不能依靠批发自动化来生成数据库。这种策略将始终嵌入默认的“正常”谈话中固有的偏见。如果不明确地构建具有不同语言表示的数据库,自动数据库生成将不可避免地无法处理会话代理负责的各种上下文。更好的数据库需要关注构建它们所需的个人劳动力贡献。工人是这个系统的关键部分,没有它们就没有多个数据库。

开发多样化的数据库为在黑名单的二进制模式匹配之外的语言处理种族和种族主义提供了可能性。 如果我们有数据库捕获我们希望看到的更多类型的谈话,我们将有更大量的文本来对比和打击网络对话中的种族主义,仇恨言论的过剩。 但是,在道德上建立多个数据库也需要我们查询我们的数据库实践。 我们不能继续做最快,最简单,最常见的事情。 这些做法可能会为商业和研究项目带来快速的周转时间; 然而,它们的代价与数据库种类的目标形成鲜明对比[8,83]。 通过投资具有种族意识的数据库的基础设施,我们创造了新的机会。

语言处理:聊天机器人将什么理解为语言?

鉴于与人交谈是聊天机器人的核心目标,理解语言 - 谈话的媒介 - 至关重要。算法定义了聊天机器人理解语言的方式,无论是英语,南非荷兰语,印地语还是葡萄牙语。学习谈话的媒介,作为一种自然语言,并学习与他人交谈,对话的一般解剖,是相互关联的结构。对话的媒介和构成都与种族,公平和权力的结构纠缠在一起。虽然不是离散域,但分别寻找NLP和ML允许我们研究这些域中的每个域对聊天机器人做出贡献的算法和理论遗产。人们只需看看基于规则和基于学习的架构之间的区别,就可以看到这个部门所持有的影响。虽然两者都属于人工智能研究领域,但这两个领域提供了独特的视角,我们通过这些视角来构建,研究和理解聊天机器人。因此,为了研究聊天机器人对语言的理解,我们首先将自己置身于NLP的世界中。

理解对话:人类和聊天机会对语言有不同的理解吗?

如果你最近和AI机器人聊过,比如微软系列,包括Zo(英国,美国),Xiaoice(中国,中国)和Ruuh(英国,印度)[37],你很有可能留下了一种奇特而独特的经历。令你们两个人留下深刻印象的是人工智能的表现和对其缺点的挫败感。考虑一下我们在图1中与Zo的对话。在谈到音乐时,我们曾提到对来自加拿大的嘻哈乐队A Tribe Called Red的热爱,以混合嘻哈和第一民族的声音而闻名。 Zo说她以前没有听说过乐队,所以我们让她去看看。如图1所示是我们谈话的失败。事情开始很好,Zo能够(热情地)从几个回合之前回忆起谈话的主题,一个巨大的壮举 - 共同决心,回忆长时间,多少的对话中的事实,是NLP中一个未解决的难题[59]。然而,在回应我们的错误跟进后,事情迅速下降,询问“你(原文如此)的事情是什么?”Zo用一个词回答“Choctaw”。被称为Red的A Tribe成员来自北美东部的Cayuga和Ojibway人,现在称为加拿大安大略省[93]。什么可能使机器人相信来自北美东南部的人Choctaw对这样一个问题是一个合理的回答?

如果代理将语言视为具有分类或统计关联的一组符号,则机器人可能会确定图1中的对话使引用与2个国家密切相关。 在该关联之后,机器人会响应它可以检索的任何土著部落名称[90]。 即使从聊天机器人的角度来看这是一个合理的转变,但这不是我们对话的合理回应。 事实上,这种反应是有问题的。 这是不尊重的。 种族主义的谈话,再现歧视性的种族主义言论[5,14]。 我们如何帮助Zo和其他机器人做得更好?

我们知道聊天机器人没有我们所拥有语言的背景,上下文告诉你种族主义者以一种将成千上万的土着民族之间的差异压缩成存储在记忆中的单一名称的方式作出反应。 然而,仅仅因为Zo存在于没有我们背景的硅空间中并不意味着我们的背景突然消失了。 无论聊天机器人是否理解,我们世界的背景仍然存在。

关注于语法:理论扮演什么角色?

删除背景是NLP历史的重要组成部分。 受乔姆斯基1957年出版的“句法结构”的影响,NLP在生成语法概念的基础上取得了重大进展,通过无语境语法形式化[21,74]。 生成语法作为一种结构主要侧重于语言的句法方面,主要包括语义学和语用学等语言学的其他子领域。 虽然语义学在NLP领域引起了人们的关注,但语用学是一个难以置信的难以研究的NLP领域。

其实这很重要,因为语用学包含语境的背景和用法。会话充满了语用学。谈话与世界上的事物,我们之前说过的事情,文化习俗等等有关。虽然在NLP中有许多技术和理论焦点,包括在80年代转向语义语法,但是NLP对于语法的关注是有害的[53,74]。在最近的NLP趋向于形式化语法的概率变体[67]中,语言是通过关注概率词的排序 - 一种接近句法结构的语言方向来构建的。最终,丰富的种族主义内容和一般的种族谈话在语法上是有效的。如果没有不断增长的背景技术能力,我们就无法在结构层面上应对背景的后果。我们一直在推迟语用学和语义学所面临的困难但始终存在的挑战。即使我们试图掩盖复杂性,世界的麻烦总是在我们的语言中。即使上下文不明,对词序的关注也不会删除上下文。 Zo不需要理解语用学的“垃圾堆”来吸取和促成世界被语言纠缠的方式[29]。即使没有以编程方式考虑上下文,Zo已经从代理和上下文的角色出发,拥有自己的机器智能[80]。

上下文与参与者:聊天机器人的分布式网络可以扩展机器智能吗?

对于聊天机器人来说,我们已经知道处理种族话题的讨论很难,因为它们来自不同于人类对应语言和不同底层机制的语言。 如果我们想要减轻这些困难,我们必须改变我们对人机对话的方向。 如何使用精妙的技术,让我们我们如何解释谈话中的背景? 我们需要考虑具有不同能力的不同类型参与者,如人类和机器人,如何构成具有共同意义的谈话。 如果我们以机器的背景和代理为起点,他们如何参与到处理种族相关谈话的过程中?

似乎像Zo这样的广义聊天机器人的基本假设是机器人可以在“普遍”的文化背景中嵌入对话。 但意义和背景并不普遍。 这些结构通过其特定和多样化的网络关系变得有意义。 即使我们要按照人类标准进行广义聊天机器人,人们可以在任何主题上,在任何情况下与任何人进行对话? 这些基本假设与语义和语用学问题不一致。 除了空闲的欢乐,并询问时间或天气,目前还不清楚“一般的闲聊”是什么。

我们可以考虑具有专业知识领域的机器人,而不是争取一般聊天机器人或会话谈话的广义数据库的抽象和无定位概念。 此外,没有理由将对话中的参与者数量限制为一个通用的,通用的聊天机器人。 聊天机器人的集合,其知识基础和语言风格将有效地体现不同的能力 - 使我们能够研究分布式互联参与者之间如何展开对话的可能性。 而且,它为我们提供了一种不同的方式来处理语言现场的困难,比如说话的困难。 虽然聊天机器人设计的这种异构版本可能看起来很简单 - 但是当然存在许多特定于域的聊天机器人考虑这个想法如何随着机器人通过集合开发网络关系而扩展。 对于相应的交互可能是什么样的世界是存在的。

考虑一个与你聊天的机器人的对话 - 也许会话控制器机器人 - 意识到谈话可能会在他们的域之外滑出。在学习这些时,机器人会推迟到其他机器人的网络来为继续对话提供帮助。在这里,上下文来自对话的网络结构,来自其他参与者被请求的方式和时间,以及他们如何参与多方对话。因此,部分和不完整的谈话形式是聊天机器人的理想结果。与这些“普遍”的参与者不同,这种缺陷反而能够成功的让新的参与者参与谈话。缺点可能是通过元数据和原因日志提出的,引用了混淆语言使用或域外引用等问题。面对一个可能包括种族谈话的越界主题,机器人可以提供一份报告,其中包含澄清信息,而不是打印一份再现种族主义语言的冷漠声明。通过引入具有部分,错误语言能力的聊天机器人,我们可以看到“自然语言”和交互设计的非常不同的领域。

机器学习:聊天机器人的参与如何影响它的会话学习?

从他们的内部参考点来看,机器人学会根据与其内部环境而不是整个世界一致的预测来进行交谈。因此,聊天机器人在经过一番迭代后学会了Choctaw对A Tribe Called Red的正确合适反应,它有一个内部世界,可以奖励种族主义者协会的学习 - 以及轻率的沉思,就像海龟一样不可忽视。如果聊天机器人对这样的推论更敏感并且负责,那么很明显我们需要更好的方法来协调机器内部和机器外部上下文之间的差异,算法的上下文和外部的现实世界。但是,并非所有算法都允许我们了解他们的内心世界。神经网络,特别是深度神经网络,以能够理解或调整其内部状态为代价,在高精度预测浪潮中欢呼。虽然预测准确性很诱人,但算法的内部条件对于学习所学知识以及该学习如何成为行动至关重要。了解机器人的代理机构取决于理解内部条件。如果我们无法理解聊天机器人的代理,我们将如何更深入地了解聊天机器人和人类世界之间的差异,以及我们将如何使差异生成?为了确定如何利用ML来更好地处理竞赛,我们需要考虑人机和机器代理如何影响机器人的会话学习。

重新考虑我们如何构建和评估ML:我们是否对自己提出了足够的要求? 足够的算法?

仅仅因为算法具有高精度,并不意味着它的学习是正确的,最佳的或道德的。 它只是机器的反映,使用其学习算法来发现数据中的模式。虽然有些人可能会说你只需要一个更好的数据集,但我们仍然需要学习使用可用的数据。没有完美的数据集。 “ [学习] 必须使用可用的数据,而不是人们想要的数据” [18] 。

使用现有数据与现在的世界一起工作是算法问责制的关键。 关于对算法代理者更负责任的专业对话通常侧重于创建关键指导原则,从美国以前的政策制定[1,30,70,81]开始。 很多这些对话都以公平和透明为中心,但有充分的理由要问这些算法问责的愿景是否足够。 特别是,透明度之间存在一种混淆 - 能够看到系统内发生的事情 - 并使系统负责[7]。 了解算法是否会导致种族偏见,在解决实现这一现实的社会和技术组成部分方面还远远不够。 它不会让我们负起责任。 那么,我们如何以一种能够让我们具体开发负责任,负责任的算法的方式向前推进?

理解内部和外部背景:我们的社交世界如何与ML算法建立关系?

因为机器学习嵌入在抽象语言中,所以很难理解算法过程如何连接到我们的世界经验和诸如种族谈话之类的问题空间。虽然以下示例直接位于竞争对话的问题空间之外,但它具体说明了算法的内部上下文如何对机器外部上下文做出年龄贡献。从20世纪90年代开始,ML算法已被研究和部署用于预测医疗保健领域的肺炎风险[18,25,26]。正如Caruana等人所解释的那样。在2015年的出版物中,这些研究的目的是预测死亡概率,以提高高风险患者获得更好护理的机会[18]。这些研究比较了许多ML模型的结果,包括基于规则的模型和神经网络模型。不出所料,神经网络是最准确的模型。但是,与实际患者一起使用最终被认为太危险了。准确度不一定是评估ML算法的最佳方法。现在,这似乎是反直觉的 - 特别是因为我们非常依赖准确性来理解模型是否表现良好。但是,尽管医疗保健专业人员知道肺炎患者患有哮喘是高风险的,但准确性无法告诉您算法何时了解哮喘患者的风险较低。在该算法的内部环境中,哮喘患者并未经常死于肺炎,因此被认为是低风险。该算法无法解释这些患者由于其高风险状态而总是住院的外部事实,这就是为什么很少有哮喘患者死于肺炎的原因。尽管抽象,但机器外部环境的特殊性给ML算法带来了问题,特别是像神经网络这样的低可解释性高精度算法。

对种族的考虑:种族在算法机构中的位置有哪些?

这些问题也与医疗保健内外的种族有关。在美国医疗保健领域,有经验证据表明黑人在疼痛管理方面得不到充分的治疗建议[44]。大量白人医学生和居民对黑人经历的疼痛程度存在毫无根据的种族主义信念,这导致建议对黑人患者的治疗少于白人患者。患者很可能接受种族偏见的治疗建议。因此,全国各地的患者记录可能存在偏差,反映在数据中。如果医院希望在算法中使用患者记录,帮助从业者确定治疗结果,如药物剂量水平,会发生什么?我们在已将这些系统纳入其工作实践的医院环境中做了什么[27]?在开发和部署虚拟医疗机器人时,我们如何解释这种偏见[12]?

在医疗保健之外,与种族的机器外部纠缠对算法机构有重大影响。亚马逊开发了一种算法,该算法延续了歧视性的修订做法,通过专注于具有高密度主要成员资格的邮政编码,推出了为期一天的Prime航运,几乎完全是美国主要城市的白人社区[47]。亚马逊的算法确实如此 亚马逊表示,种族问题甚至不是算法的一部分。但黑名单方法并未阻止歧视性做法的传播。这些纠缠也出现在语言中。谷歌的广告算法,AdWords和AdSense,在搜索结果中为黑名单提供了歧视性广告[79]。仅根据名称,谷歌更有可能产生广告,暗示被搜查的人因黑名识别而被捕。算法是必要的。他们在网络化的社交和技术系统中工作,参与种族和种族谈话的结构。

可解释性和可调性:我们如何利用算法参与者?

在神经网络的背景下,算法问责制的问题尤其困难。 神经网络 - 虽然经常被称为神奇网络,但却是理解机器代理的严重问题。 有两个问题岌岌可危,无法探测的算法和无法调整以修复危险输出的算法,无论是通过药物滥用语言或进行种族歧视。

关于神经网络的可解释性的研究越来越多,但可解释性并不是灵丹妙药[6,61]。 虽然令人鼓舞,但这项研究的大部分内容都与透明度相关,这是一种严格限制的结构[7]。 我们同意Ananny和Crawford [7]的观点,即要求透明度或可解释性是不够的。 当我们不知道或无法调整的神经网络出现问题时会发生什么?

我们需要可调的神经网络。网络可以调整并负责他们的网络技术社会背景。在考虑如何调整这些类型的模型时,我们需要检查神经网络已经调整和修改的方式。开发一个技术的,可行的可调性概念需要深入研究 - 基础研究 - 通过预训练[36],初始权重设置(如Xavier初始化),控制复发神经的集合等方式调整这些网络的方式实时网络[4],以及强调深度神经网络可修复性的系统[50]。虽然这些系统可以在培训时进行调整,但这些调整尚未得到深入的研究审查。通过更加深入地了解我们如何使用这些网络来调整和完善其输出,我们可以进一步探索如何调整神经网络和其他深度学习模型,以便对他们参与的世界网络更负责任。

探索和调整允许责任。 我们已经参与了神经网络的挑剔行为,以帮助它们收敛或产生“最佳”输出。 即使有一些“修复”神经网络的技术,这些技术经常需要删除有问题的数据,进一步限制机器内部环境 - 并与黑名单的修复工作并行[18]。 虽然ML的进步已经产生了高度准确,可解释和可调整的模型,这些模型非常适合医疗保健数据集,但这些模型并不适合基于文本的数据集 - 可能用于AI聊天机器人的类型。 神经网络不会去任何地方,如果我们要创建更能够处理种族聊天的聊天机器人,我们必须让聊天机器人有更多能力处理种族谈话。

跨学科合作伙伴关系:我们如何才能支持公平的跨域合作?

迫切需要研究已经在使用的算法[15,22]并研究整个开发周期以生成深度学习算法。如果我们认真对待可调性的挑战,我们还必须批判性地询问我们如何在非ML域中挑选问题,了解输出“看起来正确”的时间,并评估输出在其适合的其他领域中的确切贡献。一个领域的历史和当代知识。当我们认真考虑机器学习之外的世界知识领域时,我们可以对系统的输出及其含义进行新颖而富有挑战性的解释。 Leahu通过提供关于学习算法的代理的关系视角,让我们一瞥非规范性解释的力量[58]。当ML的知识公平地重视其他领域的知识时,这些研究伙伴关系将使我们能够开发更具文化响应性和负责任的系统。如果我们与其他领域进行更多的知识跨文化交流,我们就可以开发出与我们不同的技术社会生态系统更紧密联系的算法。

回到问题聊天机构的代理如何影响其学习,我们面临另一个基本问题:我们如何最好地了解聊天机构的代理? 我们应该采取哪些步骤来进行负责任深度学习的基础研究? 通过跨学科研究生态系统,我们能够更好地解决算法问责制的问题,并构建重视存在的多个背景的期货。 这些长期合作对于理解和发展聊天机器人的代理及其与更大的社交系统(如种族和种族谈话)的关系至关重要。

我们从哪里开始?

虽然这项工作涵盖了相当多的基础,但这只是一个更大问题空间中的一步。 在本文中,我们概述了一个我们作为一个社区需要进行的程序,以便创建聊天机器人,而不仅仅是简单地删除单词。 在接受Haraway的呼吁“坚持不懈”时,我们正在抓住我们已经切入的世界的复杂性。 通过人们做什么和机器如何运作之间的巧妙分离,无法解决关键问题。 在确定我们离开这里的地方时,我们必须抓住我们生活经历的复杂性,拒绝将世界变成统一或单一的东西。

我们对这个问题的认识是对没有种族之外的认识。 我们都处在生活的好与坏之中 - 不解决麻烦不会让它消失。 通过谈论种族和机器人,我们正在努力使可能的交互更加公平和可忍受。 这需要我们留下麻烦,扩大与人类,机器人和其他人的生活方式 [43] 。

建设更美好的世界:什么是好的?

足够好将永远是一个移动的目标。 由于没有一种方法可以“解决”种族主义,我们一直试图不对应该采取的步骤作出规定。 试图让聊天机器人更好地处理racetalk的复杂性是一项不小的任务,并没有灵丹妙药。 虽然没有一个人足够好,但我们可以采取许多步骤来开发更好的聊天机器人。

开发各种数据库,探索聊天机器人的集合以及参与跨学科合作等步骤为我们提供了一个开始的地方。 而不是考虑聊天机器人比人类更好或更差的表现,目标是开发能够在不久的将来识别和响应竞赛的机器人。 目标不是要解决AI完全问题,而是要开发可以在短期内实现的工作解决方案。 解决方案可以在长期追求足够好的情况下继续完善和发展。 作为一个起点,足够好要求我们积极处理我们的聊天机器人中的种族和偏见。

无论种族是否已被积极考虑,人工代理人已经涉及到身份和种族的结构。 聊天机器人正在研究和工业中使用,通常旨在建立更好的世界。 CHI提供了一系列研究,详细介绍了涉及护理,教育环境,行动主义和解决冲突的人工代理[62,73,75,88,89]。这些领域与种族结构密切相关。虽然处理种族议题谈话不应该像人一样,但这项工作的一个显着部分是关注代理人是否可以通过谈话和体现存在来实现类似人类的能力。撇开复制人类能力的目标 - 在围绕图灵测试的持续对话中彻底辩论和争论[39,82] - 我们关注的焦点是技术工件,如机器人,有政治的方式[87]。聊天机器人有自己的机制和代理。我们越是专注于聊天机器人已经拥有的算法和年龄潜力,我们就越能够开始开发更负责任地处理竞赛的聊天机器人。

反思性披露:发现我们的角色

无论你住在哪里,种族都会对你的生活产生影响。不幸的现实是,对于那些拥有特权种族身份的人来说,忽视种族如何影响你在世界上的经历可能很容易。如果你发现自己已经意识到自己过去没有考虑过种族,那么你很可能会从种族特权中获益。因此,每个人都必须加强并参与解决赛事复杂问题的实践。这项工作中缺少重要的声音。作者的身份只代表种族身份的一小部分特权。我们来自美国和英国,具有社会学,心理学,人机交互,计算机科学,数字人文学科,科学技术研究和批判理论的背景。像许多人一样,我们的种族是由一系列复杂的线索组成的。我们从在西方生活和接受教育所提供的财富和支配中获益。然而,与此同时,我们由殖民主义的遗产和土著人民的征服组成。为了确保我们的声音只是这个空间中发生的更大对话的一部分,我们在整篇文章中为与我们自己不同的声音留出了空间。此外,如果说作者不属于种族主义,那将是一个彻头彻尾的谎言。当我们承认我们的种族主义时,它允许我们识别有问题的系统和行为然后抑制它们。我们反对种族主义,因为直接解决这个问题是我们所有人都可以努力减少种族主义影响的唯一方法。

种族是一个分布式的全球系统,我们都参与其中。当谈到聊天机器人的设计 - 以及更普遍的人机交互 - 我们必须承认我们其实也是在我们正在制造的世界中的那些机器人的共谋。

结论:我们如何修复问题?

在撰写本文时,我们设定了两个基本问题来指导这项工作:

  • 1)聊天机器人如何以新的和改进的方式处理竞赛?
  • 2)为什么聊天机器人的竞争如此困难? 这些问题让我们了解了许多途径,以了解种族问题如何与支持聊天机器人的技术配置交织在一起。

这项研究的一个重要贡献是帮助HCI从业者了解具体的技术社会配置如何从根本上与他们的工作纠缠在一起。 通过将与数据库,NLP和ML相关的种族谈话和仇恨言论中涉及的技术社会互动结合在一起,我们努力支持生成性技术社会解决方案的发展 - 就像多种聊天机器人一样,颠覆了全知的代理人。 聊天机器人已经加剧了种族特有的社会危害。 在努力减轻这些危害的过程中,特别是对于聊天机器人而言,有可能出现针对聊天机器人的新型处理种族话题的开发,例如在人工语言学方面的工作。

这项工作也为HCI从业者做出贡献,他们广泛关注设计中的身份,种族或公平。 我们展示了社会和技术条件如何以形成人机交互时必须考虑的方式共同发展。 对于NLP和ML从业者(以及与机器人一起工作的其他人),看到已知问题与种族等道德批评主题之间的联系非常重要。 AI中的难题需要从业者开发特定于上下文的解决方案(即专注于幽默,语言或种族)。 忍受麻烦不是关于整洁的决议。 它是关于拥抱我们生活的复杂性,以实现更好但仍然困扰的前进道路。 澄清诸如种族及其表现形式的背景可以帮助指导这些努力。

通过有形地展现种族和聊天机器人的抽象和不同的品质,本文作为一个综合指南,指出我们可能的未来,聊天机器人更能够以多种形式处理竞赛。 之后我们便剩下一个问题:你的聊天机器人的种族背景是什么?

致谢

感谢我们的朋友,审阅者和同事,他们以宝贵的时间支持这项工作。 在这里还要特别感谢Microsoft Research的HXD小组中的每个人。 此外,我们都感激许多学者和教育工作者为这种关于种族,身份和正义的批判性,反思性研究铺平了道路。本项研究部分由NSF支持:批准号DGE-1148903。

参考

  1. ACM US Policy Council. 2017. Statement on Algorithmic Transparency and Accountability.
  2. Sara Ahmed. 2004. Declarations of Whiteness: The Non-Performativity of Anti-Racism. borderlands ejournal 3, 2.
  3. Sara Ahmed. 2017. Living a Feminist Life. Duke University Press#.
  4. Memo Akten and Mick Grierson. 2016. Real-time interactive sequence generation and control with Recurrent Neural Network ensembles. Neural Information Processing Systems 2016.
  5. H. Samy Alim, John R. Rickford, and Arnetha F. Ball (eds.). 2016. Raciolinguistics: How Language Shapes Our Ideas About Race. Oxford University Press.
  6. David Alvarez-melis and Tommi S Jaakkola. 2017. A causal framework for explaining the predictions of black-box sequence-to-sequence models. EMNLP 2017.
  7. Mike Ananny and Kate Crawford. 2016. Seeing without knowing: Limitations of the transparency ideal and its application to algorithmic accountability. New Media & Society: 1–17. http://doi.org/10.1177/1461444816676645
  8. Alyx Baldwin. 2016. The Hidden Dangers of AI for Queer and Trans People. Model View Culture. Retrieved May 25, 2017 from https://modelviewculture.com/pieces/the-hiddendangers-of-ai-for-queer-and-trans-people
  9. James Baldwin. 2010. As Much Truth as One Can Bear. In The Cross of Redemption: Uncollected Writings, Randall Kenan (ed.). Pantheon Books, New York.
  10. Karen Barad. 2007. Meeting the Universe Halfway. Duke University Press, Durham.
  11. Jamie Bartlett. 2015. A Life Ruin: Inside the Digital Underworld. Medium. Retrieved September 16, 2017 from https://medium.com/@PRHDigital/a-life-ruininside-the-digital-underworld-590a23b14981
  12. Timothy W Bickmore, Laura M Pfeifer, and Brian W Jack. 2009. Taking the Time to Care: Empowering Low Health Literacy Hospital Patients with Virtual Nurse Agents. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 1265–1274. http://doi.org/10.1145/1518701.1518891
  13. Marcia Biederman. 2003. At $10 a Year, Automated Buddy Loses Laughs. New York Times.
  14. Eduardo Bonilla-Silva. 2002. The Linguistics of Color Blind Racism: How to Talk Nasty about Blacks without Sounding “Racist.” Critical Sociology 28, 1–2: 41–64. http://doi.org/10.1177/08969205020280010501
  15. Danah Boyd and Kate Crawford. 2012. Critical Questions for Big Data. Information, Communication & Society 15, 5: 662–679. http://doi.org/10.1080/1369118X.2012.678878
  16. Peter Bright. 2016. Tay, the neo-Nazi millennial chatbot, gets autopsied. Ars Technica. Retrieved August 27, 2017 from https://arstechnica.com/informationtechnology/2016/03/tay-the-neo-nazi-millennialchatbot-gets-autopsied/
  17. Aylin Caliskan-Islam, Joanna J. Bryson, and Arvind Narayanan. 2016. Semantics derived automatically from language corpora necessarily contain human biases. Science 186, April: 183–186. http://doi.org/10.1126/science.aal4230
  18. Rich Caruana, Paul Koch, Yin Lou, Johannes Gehrke, and Marc Sturm. 2015. Intelligible Models for HealthCare : Predicting Pneumonia Risk and Hospital 30-day Readmission. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM. http://doi.org/http://dx.doi.org/10.1145/2783258.27886 13
  19. Stevie Chancellor, Jessica Annette Pater, Trustin Clear, Eric Gilbert, and Munmun De Choudhury. 2016. #Thyghgapp: Instagram Content Moderation and Lexical Variation in Pro-Eating Disorder Communities. Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing, ACM, 1201–1213. http://doi.org/10.1145/2818048.2819963
  20. Ethan Chiel. 2016. Who turned Microsoft’s chatbot racist? Surprise, it was 4chan and 8chan. Splinter News. Retrieved September 16, 2017 from http://splinternews.com/who-turned-microsoftschatbot-racist-surprise-it-was-1793855848
  21. Noam Chomsky. 2002. Syntactic Structures. Mouton de Gruyter, Berlin.
  22. Angèle Christin. 2017. Algorithms in practice: Comparing web journalism and criminal justice. Big Data & Society: 1–14. http://doi.org/10.1177/2053951717718855
  23. Rodney Coates. 2007. Covert Racism in the U.S. and Globally. Sociology Compass 2, 1: 208231. http://doi.org/10.1111/j.17519020.2007.00057.x
  24. Beth Coleman. 2009. Race as Technology. Camera Obscura 24, 1.
  25. Gregory F Cooper, Vijoy Abraham, Constantin F Aliferis, et al. 2005. Predicting dire outcomes of patients with community acquired pneumonia. 38: 347–366. http://doi.org/10.1016/j.jbi.2005.02.005
  26. Gregory F Cooper, Constantin F Aliferis, Richard Ambrosino, and John Aronis. 1997. An Evaluation of Machine-Learning Methods for Predicting Pneumonia Mortality.
  27. Kate Crawford and Ryan Calo. 2016. There is a Blind Spot in AI Research. Nature 538, 7625: 311–313. http://doi.org/10.1038/538311a
  28. Kimberle Crenshaw. 1991. Mapping the Margins: Intersetionality, Identity Politics, and Violence Against Women of Color. Stanford Law Review 43, 6: 1241– 1299.
  29. Gilles Deleuze and Felix Guattari. 1987. A Thousand Plateaus: Capitalism and Schizophrenia. University of Minessota Press, Minneapolis.
  30. Nicholas Diakopoulos. 2014. Algorithmic Accountability Reporting: On the Investigation of Black Boxes. Columbia University Academic Commons. http://doi.org/10.7916/D8ZK5TW2
  31. Tawanna R Dillahunt. 2014. Fostering Social Capital in Economically Distressed Communities. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 531–540. http://doi.org/10.1145/2556288.2557123
  32. Paul Dourish. 2014. No SQL: The Shifting Materialities of Database Technology. Computational Culture, 4: 1–37.
  33. Jacob Eisenstein. 2013. What to do about bad language on the internet. Naacl-Hlt, Association for Computational Linguistics, 359–369.
  34. Sheena Erete and Jennifer O Burrell. 2017. Empowered Participation: How Citizens Use Technology in Local Governance. Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems, ACM, 2307–2319. http://doi.org/10.1145/3025453.3025996
  35. Sheena L Erete. 2015. Engaging Around Neighborhood Issues. Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing - CSCW ’15: 1590–1601. http://doi.org/10.1145/2675133.2675182
  36. Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, and Samy Bengio. 2010. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research 11, Feb: 625–660.
  37. Mary Jo Foley. 2017. Microsoft launches Ruuh, yet another AI chatbot. ZDNet. Retrieved September 4, 2017 from http://www.zdnet.com/article/microsoftlaunches-ruuh-yet-another-ai-chatbot/
  38. Andrea Grimes, Martin Bednar, Jay David Bolter, and Rebecca E Grinter. 2008. EatWell: Sharing Nutritionrelated Memories in a Low-income Community. Proceedings of the 2008 ACM Conference on Computer Supported Cooperative Work, ACM, 87–96. http://doi.org/10.1145/1460563.1460579
  39. Barbara J Grosz. 2012. What Question Would Turing Pose Today? AI Magazine 33, 4: 73–81. http://doi.org/10.1609/aimag.v33i4.2441
  40. David Hankerson, Andrea R Marshall, Jennifer Booker, Houda El Mimouni, Imani Walker, and Jennifer A Rode. 2016. Does Technology Have Race? Proceedings of the 2016 CHI Conference Extended Abstracts on Human Factors in Computing Systems, ACM, 473–486. http://doi.org/10.1145/2851581.2892578
  41. Donna Haraway. 1991. A Cyborg Manifesto: Science, Technology, and Socialist-Feminism in the Late Twentieth Century. In Simians, Cyborgs, and Women: The Reinvention of Nature. Routledge, New York, 149–181.
  42. Donna J. Haraway. 1991. Simians, Cyborgs, and Women: The Reinvention of Nature. Routledge, New York. http://doi.org/10.2307/2076334
  43. Donna J. Haraway. 2016. Staying with the Trouble: Making Kin in the Chthulucene. Duke University Press, Durham.
  44. Kelly M. Hoffman, Sophie Trawalter, Jordan R. Axt, and M. Norman Oliver. 2016. Racial bias in pain assessment and treatment recommendations, and false beliefs about biological differences between blacks and whites. Proceedings of the National Academy of Sciences 113, 16: 4296–4301. http://doi.org/10.1073/pnas.1516047113
  45. bell hooks. 2003. Talking Race and Racism. In Teaching Community: A Pedagogy of HOpe. Routledge, New York, NY, 25–40.
  46. Helena Horton. 2016. Microsoft deletes “teen girl” AI after it became a Hitler-loving sex robot within 24 hours. The Telegraph. Retrieved August 27, 2017 from http://www.telegraph.co.uk/technology/2016/03/24/mic rosofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robotwit/
  47. David Ingold and Spencer Soper. 2016. Amazon Doesn’t Consider the Race of Its Customers. Should it? Bloomberg.
  48. Lilly C. Irani and M. Six Silberman. 2013. Turkopticon: Interrupting Worker Invisibility in Amazon Mechanical Turk. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 611–620. http://doi.org/10.1145/2470654.2470742
  49. Lilly C Irani and M Six Silberman. 2016. Stories We Tell About Labor: Turkopticon and the Trouble with “Design.” Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems, ACM, 4573– 4586. http://doi.org/10.1145/2858036.2858592
  50. Natasha Jaques, Shixiang Gu, Richard E Turner, and Douglas Eck. 2017. Tuning Recurrent Neural Networks with Reinforcement Learning. ICLR Workshop.
  51. Sarah Jeong. 2016. How to Make a Bot That Isn’t Racist. Motherboard. Retrieved May 25, 2017 from https://motherboard.vice.com/en_us/article/how-tomake-a-not-racist-bot
  52. Daniel Jurafsky and James Martin. 2017. Dialog Systems and Chatbots. In Speech and Language Processing.
  53. Daniel S Jurafsky and James H Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. http://doi.org/10.1162/089120100750105975
  54. Darius (Dariusk) Kazemi. 2016. wordfilter. npm. Retrieved May 30, 2017 from https://www.npmjs.com/package/wordfilter
  55. Zoe Kleinman. 2017. Artificial intelligence: How to avoid racist algorithms. BBC News.
  56. David Kushner. 2015. 4chan’s Overlord Christopher Poole Reveals Why He Walked Away. Rolling Stone. Retrieved September 16, 2017 from http://www.rollingstone.com/culture/features/4chansoverlord-christopher-poole-reveals-why-he-walkedaway-20150313
  57. Jeff Larson, Surya Mattu, Lauren Kirchner, and Julia Angwin. 2016. How We Analyzed the COMPAS Recidivism Algorithm. ProPublica.
  58. Lucian Leahu. 2016. Ontological Surprises: A Relational Perspective on Machine Learning. Proceedings of the 2016 ACM Conference on Designing Interactive Systems, ACM, 182–186. http://doi.org/10.1145/2901790.2901840
  59. Heeyoung Lee, Yves Peirsman, Angel Chang, Nathanael Chambers, Mihai Surdeanu, and Dan Jurafsky. 2011. Stanford’s Multi-pass Sieve Coreference Resolution System at the CoNLL-2011 Shared Task. Proceedings of the Fifteenth Conference on Computational Natural Language Learning: Shared Task, Association for Computational Linguistics, 28– 34.
  60. Peter Lee. 2016. Learning from Tay’s introduction. Official Microsoft Blog. Retrieved June 1, 2017 from https://blogs.microsoft.com/blog/2016/03/25/learningtaysintroduction/#sm.0000fpjmog51cfpxpwz11olji2ndk
  61. Tao Lei, Regina Barzilay, and Tommi Jaakkola. 2016. Rationalizing Neural Predictions. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 107–117.
  62. Ewa Luger and Abigail Sellen. 2016. “Like Having a Really Bad PA”: The Gulf between User Expectation and Experience of Conversational Agents. Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems - CHI ’16: 5286–5297. http://doi.org/10.1145/2858036.2858288
  63. Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz, and Ann Taylor. 1999. Treebank-3 LDC99T42. Philadelphia: Linguistic Data Consortium. Retrieved from https://catalog.ldc.upenn.edu/ldc99t42
  64. Mark C. Marino. 2006. I, Chatbot: The Gender and Race Performativity of Conversational Agents.
  65. Mark C. Marino. 2014. The Racial Formation of Chatbots. CLCWeb: Comparative Literature and Culture 16, 5. http://doi.org/10.7771/1481-4374.2560
  66. Tara McPherson. 2011. US Operating Systems at MidCentury: The Intertwining of Race and UNIX. Race After the Internet. http://doi.org/10.4324/9780203875063
  67. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. ICLR Workshop.
  68. Lisa Nakamura. 1995. Race In/For Cyberspace: Identity Tourism and Racial Passing on the Internet. Works and Days 13: 181–193.
  69. Gloria Naylor. 1986. The Meanings of a Word.
  70. Nicholas Diakopoulos, Sorelle Friedler, Marcelo Arenas, et al. Principles for Accountable Algorithms and a Social Impact Statement for Algorithms. FAT/ML. Retrieved June 15, 2017 from http://www.fatml.org/resources/principles-foraccountable-algorithms
  71. Sarah Perez. 2016. Microsoft silences its new A.I. bot Tay, after Twitter users teach it racism. Tech Crunch. Retrieved August 27, 2017 from https://techcrunch.com/2016/03/24/microsoft-silencesits-new-a-i-bot-tay-after-twitter-users-teach-it-racism/
  72. Derek Powazek. 2013. What online communities can learn from twitter’s “block” blunder. Wired Magazine. Retrieved June 5, 2017 from https://www.wired.com/2013/12/twitter-blockingpolicy/
  73. Emilee Rader, Margaret Echelbarger, and Justine Cassell. 2011. Brick by Brick: Iterating Interventions to Bridge the Achievement Gap with Virtual Peers. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 2971–2974. http://doi.org/10.1145/1978942.1979382
  74. Stuart Russell and Peter Norvig. 1995. Artificial Intelligence: A Modern Approach. Prentice-Hall, Englewood Cliffs, New Jersey. http://doi.org/10.1016/0925-2312(95)90020-9
  75. Saiph Savage, Andres Monroy-Hernandez, and Tobias Höllerer. 2016. Botivist: Calling Volunteers to Action Using Online Bots. Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing, ACM, 813–822. http://doi.org/10.1145/2818048.2819985
  76. Ari Schlesinger, W Keith Edwards, and Rebecca E Grinter. 2017. Intersectional HCI: Engaging Identity through Gender, Race, and Class. Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems - CHI ’17, ACM Press, 5412– 5427. http://doi.org/10.1145/3025453.3025766
  77. M Six Silberman, Lilly Irani, and Joel Ross. 2010. Ethics and Tactics of Professional Crowdwork. XRDS 17, 2: 39–43. http://doi.org/10.1145/1869086.1869100
  78. Caroline Sinders. 2016. Microsoft’s Tay is an Example of Bad Design. Medium. Retrieved August 27, 2017 from https://medium.com/@carolinesinders/microsofts-tay-is-an-example-of-bad-design-d4e65bb2569f
  79. Latanya Sweeney. Discrimination in Online Ad Delivery.
  80. Alex S Taylor. 2009. Machine Intelligence. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 2109–2118. http://doi.org/10.1145/1518701.1519022
  81. Zeynep Tufekci. 2015. Algorithmic Harms beyond Facebook and Google: Emergent Challenges of Computational Agency. Journal of Telecommunications and High Technology Law 90: 203–218.
  82. Alan M Turing. 1950. Computing machinery and intelligence. Mind 59, 236: 433–460.
  83. James Vincent. 2017. Transgender YouTubers had their videos grabbed to train facial recognition software. The Verge.
  84. Joseph Weizenbaum. 1966. ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine. Commun. ACM 9, 1: 36–45. http://doi.org/10.1145/365153.365168
  85. Kevine A. Whitehead. 2009. “Categorizing the Categorizer”: The Management of Racial Common Sense in Interaction. Social Psychology Quarterly 72, 4: 325–342.
  86. Keving A. Whitehead and Gene H. Lerner. 2009. When are persons “white”?: on some practical asymmetries of racial reference in talk-in- interaction. Discourse & Society 20, 5: 613–641. http://doi.org/10.1177/0306312706069437
  87. Langdon Winner. 1980. Do Artifacts Have Politics? Daedalus 109, 1: 121–136.
  88. Jun Xiao, John Stasko, and Richard Catrambone. 2007. The Role of Choice and Customization on Users’ Interaction with Embodied Conversational Agents: Effects on Perception and Performance. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 1293–1302. http://doi.org/10.1145/1240624.1240820
  89. Qianli Xu, Liyuan Li, and Gang Wang. 2013. Designing Engagement-aware Agents for Multiparty Conversations. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ACM, 2233–2242. http://doi.org/10.1145/2470654.2481308
  90. Zhao Yan, Nan Duan, Jun-Wei Bao, et al. 2016. DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents. ACL (1).
  91. Microsoft Bot Framework. Microsoft. Retrieved August 10, 2017 from https://dev.botframework.com/
  92. IBM Watson. IBM. Retrieved August 10, 2017 from https://www.ibm.com/watson/
  93. A Tribe Called Red. Tribal Spirit Music. Retrieved from https://tribalspiritmusic.com/artists/a-tribe-calledred/ 94. 2016. Tay AI. Know Your Meme. Retrieved June 1, 2017 from https://blogs.microsoft.com/blog/2016/03/25/learningtaysintroduction/#sm.0000fpjmog51cfpxpwz11olji2ndk