你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
8个典型的数据分析和人工智能失误案例
作者:福建CIO网 来源:CIO.com 发布时间:2023年06月20日 点击数:

来自数据分析和机器学习算法的洞察力可能是无价的,但错误可能会牺牲你的声誉、收入或品牌。以下这些典型的数据分析和人工智能的失误案例说明了您可能面对的问题。


图源:CHARLES TAYLOR(图片上传者,可以译为用户CHARLES TAYLOR,或者CHARLES TAYLOR) / SHUTTERSTOCK


2017年The Economist(《经济学人》)宣称,数据而不是石油,已经成为世界上最宝贵的资源。从那以后,这句话就一直在重复。各个行业的组织都一直在并将继续在数据和分析方面进行大量投资。但就像石油一样,数据和分析也有它们的阴暗面。


根据首席信息官的《State of the CIO 2023/2023年首席信息官状况报告》,34%的IT领导者表示,今年数据和业务分析将推动其组织的最大IT投资。26%的IT领导者表示,机器学习/人工智能将推动最多的IT投资。从机器学习算法驱动的分析和行动中获得的洞察力可以给组织带来竞争优势,但错误可能会在声誉、收入甚至生命方面付出代价。


了解您的数据及其告诉您的内容很重要,但理解您的工具、了解您的数据并牢记组织的价值观也很重要。


以下是过去十年中一些备受瞩目的分析和人工智能失误案例,以说明可能出现的问题。


一、ChatGPT幻觉法庭案件


2023年,large language models/大型语言模型(LLMs,是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练,以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务,例如翻译语言、分析情绪、聊天机器人对话等。)取得的进展,激发了几乎所有行业对生成人工智能变革潜力的广泛兴趣。OpenAI(在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能,AGI”,使其有益于人类。OpenAI于2015年由一群科技领袖,包括山姆·阿尔特曼、彼得·泰尔、里德·霍夫曼和埃隆·马斯克等人创办。)的ChatGPT(Chat Generative Pre-trained Transformer,是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务)一直是这种兴趣激增的中心,预示着生成性人工智能如何拥有颠覆几乎每个商业角落的工作本质的能力。


但这项技术要想可靠地接管大多数业务流程之前,还有很长一段路要走。正如律师Steven A. Schwartz(史蒂文·A·施瓦茨)在2023年利用ChatGPT研究针对Colombian airline Avianca(哥伦比亚阿维安卡航空公司,包括中美洲航空公司/TACA,是拉丁美洲最大的航空公司之一。公司在波哥大、利马和圣萨尔瓦多均设有航运枢纽,为美洲和欧洲的多个国家/地区提供服务。)的诉讼先例后,惊恐地发现自己在与联邦法官P. Kevin Castel(P·凯文·卡斯特尔)辩论时陷入困境时所了解到的那样。


Schwartz(施瓦茨)是Levidow, Levidow & Oberman(Levidow, Levidow & Oberman律师事务所)的律师,他使用OpenAI生成人工智能聊天机器人寻找之前的案例,以支持Avianca(阿维安卡航空公司)雇员Roberto Mata(罗伯托·马塔)因2019年受伤而提起的诉讼。然而唯一的问题是什么?在摘要中提交的案件中至少有六起不存在。在5月提交的一份文件中,Castel(卡斯特尔)法官指出,Schwartz(施瓦茨)提交的卷宗包含虚假的姓名和案卷编号,以及虚假的内部引文和引文。


在一份宣誓声明中,Schwartz(施瓦茨)告诉法庭,这是他第一次使用ChatGPT作为法律研究来源,他“没有意识到其内容可能是虚假的”。他承认,他还没有确认该人工智能聊天机器人提供的消息来源。他还表示,他“非常遗憾利用生成人工智能来补充本文所进行的法律研究,如果没有对其真实性的绝对验证,未来将永远不会这样做。”


截至2023年6月,Schwartz(施瓦茨)可能面临最高法院的制裁。


二、人工智能算法可以识别除新冠肺炎以外的一切东西


自新冠肺炎爆发以来,许多组织一直在寻求应用机器学习(ML)算法,以帮助医院更快地诊断或分诊患者。但根据英国数据科学和人工智能国家中心Turing Institute(艾伦·图灵研究所,是一家英国国家数据科学和人工智能研究所。总部位于伦敦大英图书馆,于2015年创建。2017年,将人工智能纳入了研究范围。该研究所以艾伦·图灵的名字命名,他在理论和应用数学、工程和计算方面的开创性工作被认为是数据科学和人工智能领域的关键学科。由五所创始大学——剑桥、爱丁堡、牛津、UCL和华威——以及英国工程和物理科学研究委员会在2015年创建了艾伦图灵研究所。2018年,八所新大学——利兹大学、曼彻斯特大学、纽卡斯尔大学、伦敦玛丽女王大学、伯明翰大学、埃克塞特大学、布里斯托尔大学和南安普顿大学加入了该研究所。)的说法,预测工具几乎没有什么区别。


《MIT Technology Review/麻省理工学院技术评论》记录了许多失败,其中大部分源于工具训练或测试方式的错误。使用错误标记的数据或来源不明的数据是常见的罪魁祸首。


剑桥大学的机器学习研究员Derek Driggs(德里克·德里格斯)和他的同事们在《Nature Machine Intelligence/自然机器智能》杂志上发表了一篇论文,探讨了使用深度学习模型诊断病毒的方法。该论文确定该技术不适合临床使用。例如,Driggs(德里格斯)的研究小组发现他们自己的模型存在缺陷,因为它是在数据集上进行训练的,其中包括扫描时躺着的患者和站起来的患者这个变量。由于躺着的患者更有可能患重病,因此该算法学会了根据患者在扫描中的位置来识别新冠肺炎风险。


类似的例子包括用包含健康儿童胸部扫描的数据集训练的算法。该算法学会了识别儿童,而不是高危患者。


三、Zillow减记了数百万美元,由于算法购房灾难而裁员


2021年11月,在线房地产市场Zillow(是一家提供免费房地产估价服务的网站,创建于2006年,主要向网民提供各类房地产信息查询服务。用户可以直接在网页上缩放卫星地图寻找标的,或利用邮政编码和街道进行搜寻。)告诉股东,它将在未来几个季度逐步结束Zillow Offers(Zillow的数字炒房业务。从2006 年问世以来,Zillow就将技术作为自己的核心优势,独家上线的Zestimate功能,可以基于大数据来提供房屋售卖和出租价格的估值,也让Zillow成为最受资本市场追捧的科技公司之一。Zillow Offers,也依靠Zestimate算法,预测房屋在几个月后的价值,从卖家手中收来房子,然后Zillow进行装修维护后卖给下一家。这种商业模式,靠的就是准确预测房价,实现低买高卖。但现实是Zillow往往会给出高于同行的报价,有媒体统计过,Zillow的报价比竞争对手Opendoor、Offerpad都要高。此外,Zillow囤积了大量的房产,从2018年4月以来购买了27000套房屋,但截至2021年9月底仅售出了17000套,最近不得不将余下的数千套房屋“挥泪大甩卖”。)的业务,并裁减公司25%的员工,约2000名员工。房屋翻转单元的困境是其用来预测房价的机器学习算法错误的结果。


Zillow Ofers是一个项目,该公司基于机器学习算法得出的房屋价值的“Zestimate”,对房产进行现金报价。当时的想法是要翻新这些房产,并迅速翻卖它们。但Zillow的一位发言人告诉CNN(美国有线电视新闻网。特纳广播公司/TBS特德·特纳于1980年6月创办,通过卫星向有线电视网和卫星电视用户提供全天候的新闻节目,总部设在美国佐治亚州的亚特兰大。)该算法的中值错误率为1.9%,而对于场外房屋,错误率可能会高得多,高达6.9%。


据CNN(美国有线电视新闻网)报道,自2018年4月推出以来,Zillow通过Zillow Offers购买了2.7万套房屋,但到2021年9月底,只售出了1.7万套。新冠肺炎疫情和家庭装修劳动力短缺等Black swan events(黑天鹅事件。指非常难以预测,且不寻常的事件,通常会引起市场连锁负面反应甚至颠覆。它存在于自然、经济、政治等各个领域,虽然属于偶然事件,但如果处理不好就会导致系统性风险,产生严重后果。“灰犀牛”是与“黑天鹅”相互补足的概念,“灰犀牛事件”是太过于常见以至于人们习以为常的风险,“黑天鹅事件”则是极其罕见的、出乎人们意料的风险。)导致了算法的准确性问题。


Zillow表示,该算法导致其无意中以高于目前估计的未来售价的价格购买房屋,导致2021年第三季度的库存减记3.04亿美元。


Zillow联合创始人兼首席执行官Rich Barton(里奇·巴顿)在宣布这一消息后在与投资者举行的电话会议上表示,可能会调整算法,但最终风险太大。


四、英国因超过电子表格数据限制,损失了数千例冠状病毒病例


2020年10月,负责统计新冠肺炎感染病例的英国政府机构Public Health England(PHE,英国公共卫生局)透露,9月25日至10月2日期间,近16000例冠状病毒病例未报告。罪魁祸首是谁?Microsoft Excel(一般指Microsoft Office Excel。 Microsoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。)中的数据限制。


PHE(英国公共卫生局)使用自动化流程将新冠肺炎阳性实验室结果作为CSV文件(Comma-Separated Values,字符分隔值/逗号分隔值。其文件以纯文本形式存储表格数据,数字和文本。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。)传输到报告仪表盘和联系人跟踪所用的Excel模板中。不幸的是,Excel电子表格中每个工作表最多可以有1048576行16384列。此外,PHE以列而不是行的形式列出了案例。当这些案例超过了16384列的限制时,Excel在底部截断了15841条记录。


这个“小故障”并没有阻止接受检测的个人收到他们的结果,但它确实阻碍了接触者追踪工作,使得英国National Health Service (NHS,英国国家医疗服务体系。承担着保障英国全民公费医疗保健的责任。旨在为所有英国纳税人提供统一标准的医保,是英国政府最大的福利支出。也是英国福利制度的象征。)更难识别和通知与受感染患者密切接触的个人。在10月10日的一份声明中,PHE(英国公共卫生局)的临时首席执行官Michael Brodie(迈克尔·布罗迪)表示,NHS(英国国家医疗服务体系)检测和追踪系统以及PHE(英国公共卫生局)迅速解决了这一问题,并立即将所有未决病例转移到NHS(英国国家医疗服务体系)检测与追踪接触者追踪系统。


PHE(英国公共卫生局)制定了一项“快速缓解措施”,可以拆分大型文件,并对所有系统进行了全面的端到端审查,以防止未来发生类似事件。


五、医疗保健算法未能标记出黑人患者


2019年,发表在《Science/科学》(是American Association for the Advancement of Science/美国科学促进会,简称:AAAS,出版的一份学术期刊,为世界权威的学术期刊之一。《科学》是发表最好的原始研究论文、以及综述和分析当前研究和科学政策的同行评议的期刊之一。该杂志于1880年由爱迪生投资1万美元创办,于1894年成为AAAS的官方刊物。全年共51期,为周刊,全球发行量超过150万份。)杂志上的一项研究显示,美国各地的医院和保险公司用来识别需要“high-risk care management/高风险护理管理”项目的患者的医疗预测算法,不太可能挑出黑人患者。


高风险护理管理项目计划为慢性病患者提供训练有素的护理人员和初级保健监测,以预防严重并发症。但该算法实施起来发现,比起黑人患者,白人患者更有可能被推荐参加这些项目。


研究发现,该算法将医疗保健支出作为确定个人医疗保健需求的代理指标。但根据《Scientific American/科学美国人》(是美国的一本科普杂志,始于1845年8月28日,起先是每周出版,后改为每月出版;作为《自然》的姐妹出版物,《科学美国人》涵盖的受众包括企业主、高级经理人、决策者和意见领袖,与《自然》的学术受众形成互补。)的说法,病情较重的黑人患者的医疗成本与更健康的白人患者的费用不相上下,这意味着即使他们的需求更大,他们获得的风险得分也更低。


该研究的研究人员认为,可能有几个因素起了作用。首先,有色人种的收入更有可能较低,即使他们有保险,这也可能使他们不太可能获得医疗保健。隐性偏见也可能导致有色人种获得较低质量的护理。


虽然该研究没有指明算法或开发人员的名字,但研究人员告诉《Scientific American/科学美国人》,他们正在与开发者合作解决这一问题。


六、数据集训练微软聊天机器人发布种族主义的推文


2016年3月,Microsoft(微软,是一家美国跨国科技企业,1975年4月4日创立。公司总部设立在华盛顿州雷德蒙德/Redmond,邻近西雅图,以研发、制造、授权和提供广泛的电脑软件服务业务为主。最为著名和畅销的产品为Windows操作系统和Office系列软件,是全球最大的电脑软件提供商、世界PC/Personal Computer/个人计算机,软件开发的先导。)获悉,使用推特交互作为机器学习算法的训练数据可能会产生令人沮丧的结果。


Microsoft(微软)在社交媒体平台上发布了人工智能聊天机器人Tay(微软聊天机器人。微软公司于2016年3月23日在推特社交平台上发布的人工智能聊天机器人)。该公司将其描述为“对话理解”的实验。其想法是,聊天机器人将扮演一个十几岁女孩的角色,并通过Twitter(推特,是一家美国社交网络及微博客服务的公司,致力于服务公众对话。)结合机器学习和自然语言处理与个人互动。Microsoft(微软)为它植入了匿名的公共数据和一些由喜剧演员预先编写的材料,然后让它从社交网络上的互动中学习和发展。


在16个小时后,这个聊天机器人发布了超过9.5万条推文,这些推文很快就变成了公然的种族主义、厌女主义和反犹太主义。Microsoft(微软)迅速暂停了这项服务进行调整,并最终停止了服务。


事件发生后,Microsoft Research & Incubations/微软研究与孵化公司副总裁(then corporate vice president of Microsoft Healthcare/时任微软医疗保健公司副总裁)Peter Lee(皮特·李)在微软官方博客上的一篇帖子中写道:“我们对Tay无意中发出的攻击性和伤害性推文深表歉意,这些推文既不代表我们是谁,也不代表我们的意图,更不能代表我们是如何设计Tay的。”。


Lee(李)指出,Tay的前身,Xiaoice(小冰,人工智能框架。是一套完整的、面向交互全程的人工智能交互主体基础框架,又叫Avatar Framework/小冰框架。它包括核心对话引擎、多重交互感官、第三方内容的触发与第一方内容生成,和跨平台的部署解决方案。自发布以来,小冰框架是人工智能的技术创新,小冰是全球承载交互量最大的完备人工智能框架之一,技术覆盖自然语言处理、计算机语音、计算机视觉和人工智能内容生成等人工智能领域。小冰框架系统是微软北京、苏州及东京研发团队成就的世界上最具创新性的人工智能技术之一。)由Microsoft(微软)于2014年在中国发布,在Tay发布之前的两年里,已经成功地与超过4000万人进行了对话。Microsoft(微软)没有考虑到的是,会有一群Twitter(推特)用户会立即开始向Tay发表种族歧视和歧视女性的评论。该机器人很快就从这些材料中吸取了渣滓,并将其整合到自己的推文中。


尽管我们已经为系统的滥用做了许多准备,我们也对这次具体的攻击进行了关键的监督。但结果仍是,Tay在Twitter(推特)上发布了非常不恰当和应受谴责的文字和图片,”Lee(李)写道。


七、亚马逊的人工智能招聘工具只推荐男性


和许多大公司一样,Amazon(亚马逊公司,简称亚马逊,网络电子商务公司。是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图。是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年,一开始只经营网络的书籍销售业务,现在则扩及了范围相当广的其他产品,已成为全球商品品种最多的网上零售商和全球第二大互联网企业,在公司名下,也包括了AlexaInternet、a9、lab126、和Internet Movie Database/互联网电影数据库,IMDB等子公司。亚马逊及其它销售商为客户提供数百万种独特的全新、翻新及二手商品,如图书、影视、音乐和游戏、数码下载、电子和电脑、家居园艺用品、玩具、婴幼儿用品、食品、服饰、鞋类和珠宝、健康和个人护理用品、体育及户外用品、玩具、汽车及工业产品等。)渴求能够帮助其人力资源职能部门筛选最佳候选人的工具。2014年,Amazon(亚马逊)开始研发人工智能招聘软件来做到这一点。但只有一个问题:该制度非常倾向于男性候选人。2018年,Reuters(路透社,是世界上最早创办的通讯社之一,也是英国最大的通讯社和西方四大通讯社之一。路透社是世界前三大的多媒体新闻通讯社,提供各类新闻和金融数据,在128个国家运行。路透社提供新闻报导给报刊、电视台等各式媒体,并向来以迅速、准确享誉国际。另一方面,路透社提供工具和平台,例如股价和外币汇率,让交易员可以分析金融数据和管理交易风险;同时路透社的系统让客户可以经由因特网完成买卖,取代电话或是纽约证券交易所的买卖大厅等人工交易方式,它的电子交易服务串连了金融社群。由德国人Paul Julius Reuter/保罗·朱利叶斯·路透1850年在德国亚琛创办,次年迁往英国伦敦。)爆料称Amazon(亚马逊)已经取消了该项目。


Amazon(亚马逊)的系统给候选人的星级评分从1分到5分。但该系统核心的机器学习模型是根据提交给Amazon(亚马逊)的10年简历进行训练的——其中大部分来自男性。由于这些培训数据,该系统开始筛选简历中包含“女性”一词的短语,甚至降级了所有女子学院的候选人。


当时,Amazon(亚马逊)表示,其招聘人员从未使用该工具来评估候选人。


该公司试图编辑该工具,使其保持中立,但最终决定由于不能保证不会学习其他歧视性的候选人排序方式,最终结束了该项目。


八、目标分析侵犯了隐私


2012年,零售巨头Target(塔吉特公司,美国折扣店零售企业。前身为戴顿赫德森公司,于1962年成立,2000年改称现名。公司以多样化的零售方式为经营策略,主营一般商品的零售业务。拥有折扣店100多家、社区型百货店200多家和数十家高档时尚店。总部设在明尼苏达州明尼阿波利斯。入选2023年《财富》美国500强排行榜,排名第33位。)的一个分析项目展示了公司可以从客户的数据中了解到多少信息。据《New York Times/纽约时报》(有时简称为“The Times/时报”是一份在美国纽约出版的日报,在全世界发行,有相当高的影响力,美国高级报纸、严肃刊物的代表。由于风格古典严肃,它有时也被戏称为“The Gray Lady/灰色女士”。它最初的名字是《The New-York Daily Times/纽约每日时报》,创始人是亨利·贾维斯·雷蒙德和乔治·琼斯。)报道,2002年,Target(塔吉特)的营销部门开始考虑如何确定顾客是否怀孕。这一调查路线开启了一个预测性分析项目,这一项目导致该零售商无意中向一个十几岁女孩的家人透露她怀孕了。这反过来又会导致各种各样的文章和营销博客引用这一事件作为避免“令人毛骨悚然的因素”建议的一部分。


Target(塔吉特)的营销部门想要识别孕妇,因为在生命的某些时期——其中最重要的是怀孕——人们最有可能从根本上改变他们的购买习惯。如果Target(塔吉特)能在那个时期接触到客户,举个例子,它就可以在这些客户身上培养新的行为,让他们转向Target(塔吉特)购买杂货、衣服或其他商品。


和所有其他大型零售商一样,Target(塔吉特)公司一直在通过购物者代码、信用卡、调查等方式收集其客户的数据。它将这些数据与人口统计数据和它购买的第三方数据相结合。通过对所有这些数据的综合分析,使Target(塔吉特)的分析团队能够确定,Target(塔吉特)销售的大约有25种产品可以一起进行分析,以生成“妊娠预测”分数。然后,市场营销部门就可以用优惠券和市场营销信息来瞄准获得高分的客户。


进一步的研究表明,研究客户的生殖状况可能会让其中一些客户感到毛骨悚然。据《New York Times/纽约时报》报道,该公司并没有放弃其定向营销,而是开始在广告中混合他们知道孕妇不会买的东西——包括在尿布广告旁边的割草机广告——以让广告组合对顾客来说感觉是随意的。


作者:Thor Olavsrud(托尔·奥拉夫斯鲁德)


Thor Olavsrud(托尔·奥拉夫斯鲁德)为CIO.com供稿,包括数据分析、商业智能和数据科学方面。他目前住在纽约。