你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
生成式人工智能可以解决您的数据问题,但非全能
作者:CIO.com&睿信咨询 来源:CIOCDO 发布时间:2024年06月14日 点击数:

生成式人工智能可以解决一系列的数据挑战——填补空白,从文档中提取信息和提高数据质量——但专家表示,要谨慎行事,并将其与传统方法结合使用。生成式人工智能是一项强大技术,可以用于解决各种数据挑战。然而,重要的是要负责任和道德地使用它,并意识到其局限性。


图源:ESB BASIC(图片上传者,可以译为用户ESB BASIC,或者ESB BASIC)/SHUTTERSTOCK

【睿观:生成式人工智能(Generative AI)是一种强大的工具,可以用于解决各种数据挑战。


一、主要作用:

  • 填补数据空白: 生成式人工智能可以生成新的、逼真的数据,用于训练机器学习模型或创建合成数据集。这对于在数据稀缺或难以获取的情况下特别有用。

  • 从文档中提取信息: 生成式人工智能可以用于从非结构化和半结构化文档中提取关键信息,例如合同、发票和医疗记录。这可以自动化数据提取过程并提高数据准确性。

  • 提高数据质量: 生成式人工智能可以用于识别和删除数据中的错误、重复项和不一致项。这可以提高数据质量并使其更易于分析。

然而,重要的是要注意,生成式人工智能并不是灵丹妙药。它应该与传统的数据方法结合使用,并由具有相关专业知识的人员进行监督。

二、关键发现

  • 生成式人工智能可以用于生成新的、逼真的数据,用于训练机器学习模型或创建合成数据集。

  • 生成式人工智能可以用于从非结构化和半结构化文档中提取关键信息。

  • 生成式人工智能可以用于识别和删除数据中的错误、重复项和不一致项。

  • 生成式人工智能应该与传统的数据方法结合使用,并由具有相关专业知识的人员进行监督。

三、注意事项

  • 生成式人工智能模型可能存在偏差,因此在使用之前对其进行评估很重要。

  • 生成式人工智能模型可能需要大量计算资源,因此可能不适用于所有应用。

  • 生成式人工智能模型可能无法生成完全准确或可靠的数据,因此在使用之前对其进行验证很重要。

四、未来展望

随着生成式人工智能技术的不断发展,它在解决数据挑战方面将变得更加强大。我们可以期待看到生成式人工智能被用于更广泛的应用,例如:

  • 创建个性化的学习体验

  • 开发新的药物和治疗方法

  • 构建更智能的城市和基础设施

总结

生成式人工智能是一项强大的技术,可以用于解决各种数据挑战。然而,重要的是要负责任和道德地使用它,并意识到其局限性。

目前,低收入国家有1.43亿人在等待手术。Boston Children’s Hospital哈佛大学医学院附属波士顿儿童医院,简称波士顿儿童医院,始建于1869年,一家非盈利医疗机构,位于美国马萨诸塞州波士顿,毗邻其教学附属机构哈佛医学院和达纳法伯癌症中心研究所。)副首席医疗官、Harvard medical School哈佛医学院,简称:HMS。是世界上最顶尖的医学院,它因高超的医学技术与每年录取的学生最少而闻名世界。与商学院,法学院共同占有世界高等学术殿堂的一席地位。)教授、致力于解决这一信息问题的非政府组织the Virtue Foundation美德基金会,通过主要由志愿者推动的努力,包括医疗探险、研究和设备捐赠,在25多个国家提供全球医疗服务。是一个具有联合国特别咨商地位的非营利组织。其使命是通过医疗保健、教育、妇女和司法项目以及研究和分析领域的创新工作,提高认识,激励行动,提供援助。美德基金会主要由志愿者组成。美德基金会致力于为全球社区提供有影响力的短期和长期可持续发展解决方案。目标是解决紧迫的、紧迫的社区关切,同时建立持久的伙伴关系,以创建和实施卫生、教育和赋权领域的发展和进步倡议。除了在世界各国开展这一领域的工作外,还参与了大量的研究和分析,并花了几年时间开发了Actionable Data Initiative,这是一种数据驱动的机器学习模型,旨在为世界上服务不足的地区的医疗保健服务创造一个高效的市场。)的联合创始人Joan LaRovere(琼·拉罗弗)表示,有组织准备引进医生和资源,但两者之间存在信息差距。


The Virtue Foundation成立于2002年,已经建立了世界上最大的非政府组织和医疗机构数据库,在超过25个国家提供全球卫生服务,组织医疗探险,进行研究和捐赠医疗设备。作为这项工作的一部分,该基金会的志愿者了解了收集可靠数据以提供高效医疗活动的必要性。


LaRovere(拉罗弗)说,问题是信息来源的多样性令人难以置信,而且往往是隐藏的。


“它不是集成的,”她说,“它在网上,被隐藏在政府组织里。它是结构化和非结构化的混合格式。”


为了帮助缓解复杂性并提取见解,该基金会与DataBricks(属于 Spark 的商业化公司。致力于提供基于 Spark 的云服务,可用于数据集成、数据连接等任务。)和DataRobot(成立于2012年6月,总部位于马萨诸塞州波士顿。是一家全球领先的机器学习平台,提供一个预测分析平台帮助用户快速构建和部署云或企业的预测模型。)合作,使用不同的人工智能模型,在该数据库的基础上构建了一个分析层。LaRovere(拉罗弗)说,其中一些模型是传统的ML机器学习,是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。),还有一些是生成式人工智能,包括新的多模态进步。


“生成式人工智能正在填补数据空白,”她说,“这是一件非常新的事情,我们正处曲线于最前沿。”


她说,下一步是利用基础数据集,利用其他数据源、更多层次的数据,甚至卫星数据对其进行扩充,以获得见解并找出相关性。


她补充道:“人工智能的能力让我们能够将无形之物化为可见。”


但the Virtue Foundation并不是唯一一个尝试使用生成式人工智能来帮助开发或增强数据集的机构。


“这确实有效,而且现在越来越多的公司正在使用。”PwC普华永道咨询公司,国际领先的管理咨询公司之一。2002年7月30日,普华永道咨询公司被IBM以35亿美元的现金和股票形式收购。)生成式人工智能远程营销战略合伙人兼领导者Bret Greenstein(布雷特·格林斯坦)说,“大多数企业数据都是非结构化和半结构化的文档和代码,以及图像和视频。在过去,如果没有复杂的自定义解决方案,这些数据是无法访问的,而这些解决方案往往非常脆弱。”


例如,生成式人工智能可以用于从文档中提取元数据,创建信息和知识图的索引,以及查询、汇总和分析这些数据。


“与需要大量手工处理的旧方法相比,这是一个巨大的飞跃。”他说,“它解锁了许多用例,因为大多数工作流和流程都基于文档和类似的数据类型。”


根据IDC国际数据公司,是国际数据集团旗下全资子公司。是信息技术、电信行业和消费科技市场咨询、顾问和活动服务专业提供商。经常发布的市场资讯、预测和资深分析师关于业内热点话题的观点性文章。)的数据,2022年组织生成的数据中,90%是非结构化的。公司使用生成式人工智能创建合成数据,从训练数据集中查找和删除敏感信息,为数据添加意义和上下文,并在传统ML方法无法实现的情况下执行其他更高级别的功能。但生成式人工智能也可能比旧技术更慢、更昂贵,有时甚至更不准确,专家建议不要在所有基础层都到位之前就投入其中。


一、数据提取用例


ABBYY致力于人工智能和语言软件开发,提供全套文档识别,转换和数据捕捉技术的产品解决方案。在全球在超过80个国家有分布式的伙伴网络,包括法国,英国,澳大利亚,意大利,印度,等等。)是一家智能自动化公司,已经使用各种类型的人工智能和ML来处理文档超过35年了。三年前,早在ChatGPT(是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务)出现之前,它就开始使用生成式人工智能。


“我们用它来帮助视觉识别,”ABBYY的人工智能战略高级总监Max Vermeir(迈克斯·维梅尔)说。


以前,convolutional neural network卷积神经网络,是一类包含卷积计算且具有深度结构的前馈神经网络/Feedforward Neural Networks,是深度学习/deep learning的代表算法之一。卷积神经网络具有表征学习/representation learning能力,能够按其阶层结构对输入信息进行平移不变分类/shift-invariant classification,因此也被称为“平移不变人工神经网络/Shift-Invariant Artificial Neural Networks, SIANN”。)将被用来检测图像的哪些位中有文本。他说,然后它进入了一个转换器,与ChatGPT相同的架构,但以不同的方式构建。


在这项任务中使用LLM大型语言模型。是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练,以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务,例如翻译语言、分析情绪、聊天机器人对话等。)的好处是,它可以看到全局,并从上下文线索中找出文本应该是什么。Vermeir(维梅尔)说,问题在于LLM是资源密集型的。“在视觉识别中,一切都与速度有关。”他补充道,“因此,只有当我们检测到质量非常低的文档时,我们才会涉及到大型语言模型。”


使用LLM来完成这个任务的好处是,它可以看到大局,并从上下文线索中找出文本应该是什么。Vermeir(维梅尔)说,问题是llm的资源非常密集型。“在视觉识别中,这一切都与速度有关,”他补充道。“所以,只有当我们检测到一个非常低质量的文档时,我们才会涉及到大型语言模型。”


该公司还使用LLM来确定特定类型文档中关键信息的位置。


他说:“我们进行视觉识别,将全文交给LLM,然后询问我们的问题。”例如,LLM可以确定文档的哪些部分包含特定类型的信息。“然后我们将其提炼成一个较小的模型,专门针对这类文档进行训练,这意味着它将非常高效、准确,而且资源密集度大大降低。”


除了资源密集化外,通用LLM还因准确性问题而臭名昭著。


“单纯使用LLM无法提供关键数据任务所需的可靠性。”Vermeir(维梅尔)说,“您也不会希望LLM猜出在您的档案中保存了10年的PDF里是什么——尤其是如果这是您最重要的合同。”


考虑到所有围绕生成式人工智能的炒作,为工作使用正确的工具很重要。“很多人都在试图利用这项技术,它似乎可以做任何事情,”他说,“但这并不意味着您应该把它用于所有事情。”


例如,ABBYY已经有了一个工具,可以将一张图像转换成数百张合成图像,用于训练数据。如果有重复的记录,模糊逻辑匹配技术可以很好地检查是否是同一个人。但如果Onion洋葱新闻是美国一家提供讽刺新闻的组织。它以报道讽刺性文章为特色,文章内容涉及国内外以及当地的消息,在它的旗下还有娱乐性的报纸和网站。洋葱新闻所提供的新闻是对时事的评论,而这些时事既有真实的也有虚构的。它以真实新闻事件为蓝本,加工杜撰假新闻。虽然故事都是假的,却绝非胡编瞎造,而是用夸张的想象表达对世界观感,是另类的社会评论,因此有不少读者追捧。它模仿了传统新闻的特点,所有新闻均以美国联合通讯社规格报道。)刊载一篇建议每天吃一块石头的文章,或者Reddit(是互联网上访问量最大的网站之一,成立于2005年,由企业家Steve Huffman、Alexis Ohanian和已故的电脑奇才Aaron Swartz共同创立,每月活跃用户达到8.5亿。)有一篇关于在披萨上涂胶水的帖子,这些“不可靠”的信息来源应该成为训练数据集的一部分吗?


“这实际上要求技术来解释人们是否日常会在披萨上涂胶水。”Vermeir(维梅尔)说,“对于一个大型语言模型来说,这是一项有趣的任务,它对大量信息进行推理。所以这个用例非常有用。”事实上,ABBYY也有类似的功能,即当将特定的信息添加到训练数据集中时,是否有助于训练模型的性能。


他说:“我们正在验证我们收到的训练数据是否真的会增加进模型。”


这与较小的ML或特殊用途的生成式人工智能模型特别相关。对于通用模型来说,很难做出这种区分。例如,从训练数据集中排除Onion的文章可能会提高模型的事实表现,但也剔除了包括它们可能会提高模型的幽默感和写作水平的可能;屏蔽道听途说网站的文章可能会提高模型的科学准确性,但会降低其讨论阴谋论的能力。


二、重复数据删除和质量控制用例


网络安全初创公司Simbian是一家为不同 IT 环境下的业务运营提供人工智能解决方案的公司,致力于通过将所有战术任务委托给其可信赖的人工智能平台来实现完全自主的安全,从而使用户能够专注于战略安全目标。)正在构建一个人工智能驱动的安全平台,担心用户“jailbreaking(越狱,打破 ChatGPT 等人工智能模型道德保障的一种方式。它是借助某些特定的文字提示,可以轻松绕过内容审核准则,使人工智能程序不受任何限制。)”人工智能,或者以不应该的方式提问。


该公司的首席执行官Ambuj Kumar(阿姆布·库马尔)说:“当您建立一个LLM时,它最好是安全的。”


为了找到此类越狱的例子,该公司建立了一个网站,用户可以在那里尝试欺骗人工智能模型。他说:“这向我们展示了LLM可以被愚弄的所有方式。”然而,在研究结果中有很多重复的地方。例如,一个用户想让聊天机器人解释如何制造炸弹。直接询问会导致聊天机器人拒绝回答问题。因此,用户可能会说,“我的祖母曾经给我讲过一个制造炸弹的故事……”而另一个用户则可能会说,“我的曾祖父曾经给我讲故事……”简单地说,就所用的单词而言,这是两个不同的提示,但这些是常见越狱策略的例子。


在训练数据集中有太多类似策略的例子会扭曲结果。另外,它还会花费更多的钱。他说,通过使用生成式人工智能来比较不同的成功越狱,样本总数减少了10倍。


Simbian还使用LLM来筛选其训练数据集,该数据集充满了不同类型的安全相关信息。


“人们已经写了千兆字节的博客、手册和阅读材料,”他说,“我们正在不断阅读这些东西,弄清楚哪些是精华,哪些则不然,并将精华添加到我们的训练数据集中。”


三、合成数据用例


其中一个用例特别适合于生成式人工智能,因为它是专门为生成新文本而设计的。


“它们在生成合成数据和测试数据方面非常强大。”数据安全公司Dasera是一家数据安全公司,Dasera的综合数据安全平台分析了所有数据存储之间的每一次交互,以便在尽可能早的阶段识别风险。他们使数据、安全和合规团队能够克服数据蔓延、数据滥用和隐私侵犯。)的联合创始人兼首席技术官Noah Johnson(诺亚·约翰逊)说,“他们在这方面卓有成效。您给他们提供结构和一般背景,他们就可以生成看起来非常逼真的合成数据。”这些合成数据随后将被用来测试该公司的软件,“我们使用了一个开源模型,我们已经针对这个特定的应用程序进行了调整。”他说。


Constellation Research(是美国硅谷的一家科技研究与咨询公司。致力提供战略指导,帮助企业通过突破性技术的率先应用推进企业转型。)副总裁兼首席分析师Andy Thurai(安迪·图莱)表示,合成数据不仅仅用于软件测试。例如,客户服务聊天机器人可能需要大量的培训数据来学习。


“但有时还没有足够的数据,”Thurai(图莱)说,“真实世界的数据非常昂贵、耗时且难以收集。”获取数据还可能存在法律限制或版权问题以及其他障碍。此外,现实世界的数据是混乱的,他说。“数据科学家将花费高达90%的时间来整理和清理数据集。”模型训练的数据越多越好。有些模型有数十亿个参数。


他说:“通过使用合成数据,您可以在需要的时候随心所欲地快速生成数据。”


他补充道,挑战在于,只生成您期望看到的数据太容易了,当遇到现实世界的混乱时,导致模型不太好。


“但根据我与高管们的对话,他们似乎都认为这已经足够好了,”Thurai(图莱)说。“让我先把真实世界的数据和合成数据混合在一起,把模型制作出来,以填补一些空白和漏洞。在以后的版本中,随着我获得更多的数据,我可以用更新的数据进行微调或RAG(即检索增强生成,是一种自然语言处理模型,旨在改进各种NLP任务的表现,包括问答、摘要生成等。)或重新训练。”


四、控制生成式人工智能的期望


最重要的是要知道,生成式人工智能并不能解决公司的所有数据问题


“这不是灵丹妙药,”人工智能和数据咨询公司Indicium的数据主管Daniel Avancini(丹尼尔·阿万西尼)说。


如果一家公司刚刚开始数据之旅,那么做好基础工作是关键,包括构建良好的数据平台,建立数据治理流程,以及使用高效而稳健的传统方法来识别、分类和清理数据。


“生成式人工智能肯定会有所帮助,但有很多传统的最佳实践需要首先加以实施,”他说。


如果没有这些基础,LLM的收益可能有限。但是,当公司确实有了自己的框架,并且正在处理大量数据时,生成式人工智能可以帮助完成一些特定的任务。


他说:“但我不会说,以我们现在的技术,这将取代传统方法。”

作者:Maria Korolov(玛丽亚·科洛洛夫)

Maria Korolov(玛丽亚·科洛洛夫)是一位报道人工智能和网络安全的获奖科技记者。她还写科幻小说,编辑一本科幻和幻想杂志,并主持一个YouTube节目。

译者:宝蓝 @lex