对于许多公司来说,CIO从头开始建立大语言模型(LLM)可能过于昂贵。幸运的是,还有其他几种方法来实现自定义模板,这些方法更快、更容易,最重要的是,更便宜。通过详细分析企业实施大语言模型的七种不同路径,为企业提供了全面的参考。企业可以根据自身情况,选择最适合的路径,从而更好地利用大语言模型,提升业务效率。
来源:Shutterstock
【睿观:企业在实施大语言模型(LLM)时,有多种路径可选择,从简单的聊天机器人到复杂的模型花园,每种方式都有其优缺点和适用场景。
(一)企业实施大语言模型的7条路径
路径一:聊天机器人
路径二:API
路径三:矢量和RAG数据库
路径四:本地管理的开源大模型AI模板
路径五:模型的微调
路径六:从头开始
路径七:模型花园
(二)7条路径的特点、优缺点和适用场景
1.聊天机器人:简单易用,适合低风险用例
2.API:灵活方便,适用于各种任务
3.矢量和RAG数据库:提高模型准确性,适用于需要处理大量数据的场景
4.本地管理的开源大模型AI模板:可定制性强,适合对数据安全有高要求的场景
5.模型的微调:提高模型针对性,适用于特定领域任务
6.从头开始:成本高,技术难度大,适合对模型有极高定制化需求的场景
7.模型花园:综合多种模型,灵活应对不同需求
(三)影响企业选择路径的因素与综合评价指标表
1.成本;2.技术能力;3.数据量;4.安全性;5.定制化需求;6.灵活度
企业在选择LLM实施路径时,需要综合考虑自身的情况和业务需求,没有一种路径是万能的。随着技术的不断发展,模型花园这种灵活、高效的模式将会成为未来发展的趋势。
(四)核心观点的进一步阐述:
1.多样性是关键:随着大语言模型技术的快速发展,企业需要建立一个多样化的模型生态系统,以满足不同业务场景的需求。
2.成本效益:企业在选择模型时,需要综合考虑成本和性能,选择性价比最高的模型。
3.数据安全:数据安全是企业实施大语言模型时需要重点关注的问题,选择合适的部署方式和数据保护措施至关重要。
4.灵活性和可扩展性:企业需要选择具有灵活性和可扩展性的模型,以适应不断变化的业务需求。
(五)建议:
循序渐进:企业可以从简单的聊天机器人开始,逐步探索更复杂的模型。
结合自身业务:选择的模型要与企业的业务场景紧密结合。
持续优化:随着技术的不断发展,企业需要不断优化和更新自己的模型。】
生成式人工智能是历史上发展最快的技术之一。它正在改变世界,根据实时人口调查9月份发布的一项针对美国3,000多名在职成年人的调查显示,四分之一的人在调查前一周至少使用过一次GenAI进行工作,其中近11%的人表示他们每天都使用它。
根据这些数据,我们可以看到技术采用率大约是互联网特征的两倍,并且在标准普尔全球市场情报代表Weka最近发布的一份报告中,88%的受访公司使用生成式人工智能,而24%的人已将其集成到他们的工作流程中。
更具体地说,大语言模型(LLM)是GenAI的一种,专注于文本和代码而不是图像或音频,尽管有些已经开始整合不同的模式。当今企业中最流行的大型语言模型是ChatGPT和其他OpenAIGPT模型、Anthropic的Claude、Google的Gemini、Meta的Llama和由前Meta员工创建的开源项目Mistral以及Google的DeepMind。
因此,随着更直接地参与GenAI的行业动力和压力的增加,检查公司在实施LLM时面临的七种不同程度的复杂性以及它们将经历的相关阶段可能会有所帮助,以确保获得和保持可持续竞争优势。
一、聊天机器人的发展
聊天机器人是在您的业务中开始使用GenAI的最简单方法。对于低风险用例,有免费和公共的选项,例如人工智能驱动的互联网搜索或公共文档摘要。这些聊天机器人还有企业版本,供应商承诺保证所有对话的安全,并且不会使用它们来训练人工智能。
根据Netskope威胁实验室7月份的一份报告,96%的企业使用生成式AI驱动的聊天机器人,高于一年前的74%,其中ChatGPT是最受欢迎的平台,使用率为80%。微软Copilot紧随其后,占67%,谷歌Gemini占51%。
此外,企业软件供应商越来越多地将人工智能功能纳入其平台中。例如,Grammarly和Salesforce都具有人工智能功能。大多数主要企业软件供应商已经推出了一些GenAI功能或已将其纳入其路线图中。
“当然,今年和未来两年内,生成式人工智能所产生的大部分价值可能会以副驾驶或助理、搜索引擎、应用程序和工具的形式体现出来。”全球咨询公司SSA&Company的应用解决方案领导者NickKramer指出。
此外,Gartner在评估中预测,到2026年,超过80%的企业软件供应商将拥有GenAI能力,而今年3月份这一比例还不到5%。
二、API(应用程序编程接口)
下一个生成式人工智能实施策略可能是将API添加到企业平台中。例如,如果员工使用应用程序来跟踪会议,则可以使用API自动生成记录摘要。Gartner表示,到2026年,API需求增长的30%以上将来自GenAI。
“商业大语言模型(LLM)由大型科技公司创建,可通过API和即用即付成本模式访问,”科尔尼数字和分析实践合作伙伴BharathThota强调道。“许多云提供商都让这些大语言模型(LLM)很容易获得。”
他说,对于简单的任务,例如总结报告,大语言模型(LLM)可以按原样使用,无需结合检索增强生成(RAG)或进行微调;通常,仅输入提示词(Prompt)就足够了,但很大程度上取决于要解决的业务问题(以及AI提示词的策划运营技能)。这是一种向企业系统添加人工智能功能的低风险、低成本方式,且无需大量开销。这也是公司了解这些API如何工作以及如何创建有效提示的机会。
OpenAI的数据显示,92%的财富500强公司使用其API,由于新模型的发布、更低的成本和更好的性能,使用率自7月份以来翻了一番。
【API是Application Programming Interface(应用程序编程接口)的缩写,它是一组规则和定义,允许不同的软件应用程序之间进行通信。API定义了软件组件应该如何交互,包括可以发出哪些请求、如何处理这些请求以及响应的数据格式等。】
三、矢量和RAG数据库
对于大多数希望定制大语言模型(LLM)的公司来说,RAG是最佳选择。如果有人谈论嵌入或向量数据库,他们通常指的是这个。它的工作方式是,如果用户提出问题,例如有关政策或公司产品的问题,它不会立即发送到大语言模型,而是首先进行处理以确定用户是否有权访问该信息。当存在访问权限时,通常从矢量数据库中检索所有潜在的相关信息。之后,问题和相关信息被发送到大语言模型(LLM)并输入优化提示,该提示还可以指定模型应使用的首选响应格式和语气。
矢量数据库是一种将信息组织成一系列列表的方法,每个列表都按不同的属性排序。例如,如果有一个按字母顺序排列的列表,则其答案越接近该顺序,它们就越相关。按字母顺序排列的列表是一维向量数据库,但它的大小不受限制,允许您根据与任意数量因素的接近程度来搜索相关答案。这使得它们非常适合与大语言模型(LLM)结合使用。
“目前,我们正在将所有内容转换为矢量数据库,”销售增长平台供应商Salesloft的首席产品和工程官EllieFields说道。“是的,它们确实有效。”
他说,它也比使用简单文档为大语言模型(LLM)查询提供上下文更有效。该公司主要使用ChromaDB,一个开源矢量档案,其主要用途是大型语言模型。Salesloft使用的另一个向量数据库是PGVector,它是PostgreSQL的向量相似性搜索扩展。
“我们还使用FAISS和Pinecone进行了一些研究,”Fields指出。FAISS,即FacebookAI相似性搜索,是Meta提供的一个开源库,支持搜索多媒体文档中的相似性。
另一方面,Pinecone是一种专有的基于云的矢量数据库,也受到了开发人员的欢迎。其免费层支持多达100,000个向量。从数据库检索相关信息并输入提示后,该信息将被发送到OpenAI,OpenAI将在Microsoft Azure上的私有实例中运行它。
“我们已将Azure认证为我们平台上的新子处理器,”Fields说道。“当我们有新的信息处理器时,我们总是通知客户。”
但Salesloft还与谷歌和IBM合作,并正在开发同样使用这些平台的人工智能功能。
“我们肯定会与不同的供应商和不同的型号合作,”他说。“事情每周都在变化。如果你不看不同的模型,你就会错过这艘船。”因此,RAG允许公司将第一方数据与模型本身分开,从而在发布更好的模型时更轻松地交换模型。此外,矢量数据库甚至可以实时更新,无需对模型进行进一步的微调或重新鉴定。
有时不同的模型有不同的API。但改变模型仍然比重新开发模型更容易。“我们还没有找到比矢量数据库更适合微调的用例,”Fields补充道。“我认为有几个有效的用例,但到目前为止我们还没有找到比其他用例更好的用例。”
Salesloft构建的LLM的首批应用程序之一是添加一项功能,允许客户向潜在客户生成销售电子邮件。“用户花了很长时间才写下这些消息,”菲尔兹指出。“一开始很困难,而且存在某种写作障碍。”然而现在,客户可以指定目标受众、他们的价值主张和号召性用语,更重要的是,他们会收到三个可以自定义的不同电子邮件草稿。
【睿观:RAG (Retrieval-Augmented Generation)与向量数据库,以及应用示例
(一)RAG定义:RAG是一种将检索机制与生成模型相结合的方法,旨在通过检索外部知识来增强文本生成的质量。它允许模型在生成回答时能够参考或引用到一个大的文档库中的相关信息。
工作原理:首先,RAG利用一个检索器从大规模文档集中找到与输入查询最相关的文档片段;接着,这些文档片段被传递给生成模型作为上下文的一部分,帮助生成更准确、更具有信息量的回答。
优势:
准确性提高:通过引入外部知识,生成的答案更加准确可靠。
灵活性增强:即使面对未曾见过的数据也能较好地处理。
减少幻觉:降低了生成模型产生虚构信息的可能性。
应用场景:广泛应用于问答系统、对话系统等领域。
(二)向量数据库定义:向量数据库是一种专门用于存储和查询高维向量数据的数据库系统。这些向量通常代表了文本、图像或其他类型数据的特征表示。
2.1主要特点:
高效相似性搜索:支持快速执行近似最近邻搜索,这对于基于内容的推荐、图像识别等任务至关重要。
可扩展性:设计为能够处理大规模数据集,同时保持良好的性能。
灵活的数据结构:不仅限于文本,还可以应用于各种形式的数据。
技术基础:依赖于先进的索引技术和近似算法,如LSH(局部敏感哈希)、HNSW(层次化导航小世界图)等,以实现高效的查询效率。
应用场景:包括但不限于推荐系统、搜索引擎优化、生物信息学研究等多个领域。
(三)RAG与向量数据库结合使用
当RAG与向量数据库结合起来时,可以构建出强大的信息检索和生成系统。例如,在问答系统中,可以先用向量数据库快速定位到与问题相关的文档或段落,然后将这些结果输入到RAG框架下的生成模型中,从而生成高质量的答案。这种方式不仅提高了答案的相关性和准确性,同时也增强了系统的响应速度和效率。
总之,RAG和向量数据库都是当前AI技术发展中非常重要的组成部分,它们各自的优势使得二者在很多场景下能够相辅相成,共同推动着智能应用的发展。
(三)向量数据库在在线培训与客户服务中的应用
3.1向量数据库的本质与优势
向量数据库是一种专门用于存储和检索向量数据的数据库。在AI领域,特别是自然语言处理中,文本、图像等非结构化数据都可以被转化为高维向量。这些向量能捕捉数据的语义和相似性,使得向量数据库可以高效地进行相似性搜索。
3.2在在线培训与客户服务场景中,向量数据库的优势主要体现在以下几点:
3.2.1精准的语义搜索: 可以根据用户的问题或需求,快速检索到最相关的知识库文章、FAQ、视频等内容。
3.2.2个性化推荐: 通过分析用户历史查询和行为数据,为用户推荐最适合的学习资源或解决方案。
3.2.3上下文理解: 能够理解用户问题的上下文,提供更准确、更有针对性的回答。
3.2.3实时更新: 支持实时更新知识库,确保用户始终获得最新信息。
3.3向量数据库在在线培训与客户服务中的应用场景
3.3.1智能问答系统
知识库构建:将培训资料、常见问题、产品手册等转化为向量,存储在向量数据库中。
问题匹配:用户提出的问题被转化为向量,与知识库中的向量进行相似度计算,找到最匹配的答案。
个性化回答:根据用户的角色、历史记录等信息,提供定制化的回答。
3.3.2推荐系统
课程推荐:根据用户的学习历史、兴趣偏好,推荐合适的课程或学习路径。
资源推荐:为用户提供相关的学习资源,如文章、视频、代码示例等。
3.3.3聊天机器人
上下文理解:能够理解用户在对话中的上下文,提供连贯、自然的对话体验。
知识问答:通过访问向量数据库,回答用户关于产品、服务、政策等方面的问题。
3.3.4搜索引擎
语义搜索:能够理解用户搜索意图,返回最相关的搜索结果。
个性化搜索:根据用户历史搜索记录和个人偏好,提供个性化的搜索结果。
(四)落地指南
数据准备:将培训资料、FAQ、产品手册等转化为高质量的向量。
向量数据库选择:选择适合的向量数据库,如Pinecone、Milvus、Faiss等。
模型选择:选择适合的语言模型,如BERT、GPT等,并进行微调。
系统集成:将向量数据库与语言模型、知识库、用户界面等进行集成。
持续优化:定期评估系统性能,不断优化向量索引、模型参数等。】
四、本地管理的开源大模型AI模板(如Meta的Llama顶级模型)
对于Constellation Research副总裁兼首席分析师AndyThurai来说,开源大语言模型(LLM)显然已经变得非常强大。例如,Meta刚刚发布了多种尺寸的Llama3.2模型,并具有新的查看功能,并表示其下载量已近3.5亿次——在短短一年内增长了10倍——并且拥有超过60,000个衍生模型,针对特定用例进行微调。
根据ChatbotArenaLLM排行榜,Meta的Llama顶级模型在质量上可与OpenAI的GPT4和Anthropic的Claude3.5Sonnet相媲美。
“虽然Llama处于领先地位,但许多其他公司也在创建自己版本的开源LLM,”Thurai指出,其中包括IBM的Granite、AWS的Titan和拥有各种开源模型的Google。鉴于这种增长,API公司Kong最近发布了一项针对数百名IT专业人士和商业领袖的调查,结果发现大多数公司直接或通过Azure AI使用OpenAI,其次是Google Gemini,但Llamadi Meta出现了第三名。
事实上,开源模板有多种尺寸,这对企业来说是一个好处,因为较小的模板更便宜、速度更快。“许多企业正在从实验转向分销模式,推理和优化的成本正在成为一个主要问题,”图赖报告道。“他们中的许多人在追求必要的可扩展性方面都面临着各种困难。”
总部位于波士顿的IkigaiLabs还提供了一个平台,允许公司构建大型定制图形模型或旨在处理结构化数据的人工智能模型。但为了使界面更易于使用,Ikigai使用大语言模型(LLM)为其前端提供支持。例如,该公司使用开源Falcon LLM的70亿参数版本,并在自己的环境中为某些客户运行它。
联合创始人兼联合首席执行官DevavratShah解释说,为了将信息输入大语言模型(LLM),Ikigai使用也在本地运行的矢量数据库。“四年前,在麻省理工学院,我和我的一些学生尝试了大量的向量数据库,”沙阿说,他也是麻省理工学院的人工智能教授。“我知道这会有帮助,但没有那么多。”
他澄清说,将模型和矢量数据库保存在本地意味着数据不会泄露给第三方。“对于不介意向其他人发送查询的客户,我们使用OpenAI,”Shah说。“我们对大语言模型(LLM)持不可知论。”
然后是普华永道,它建立了自己的Chat PwC工具,并且对大语言模型(LLM)也是不可知的。“Chat PwC为我们的员工提供支持,”该公司的合伙人兼GenAI市场战略负责人Bret Greenstein说道。例如,它包括建议和预构建的嵌入,以实现生成职位描述等用例。“它的实施是为了使用我们的格式、模板和术语,”他指出。“为了创建它,我们拥有人力资源、数据和提示词(Prompt)专家,并且我们优化每个用例以生成有效且一致的职位发布。如今,最终用户不需要知道如何提示生成它们。”
该工具基于Microsoft Azure构建,但也有适用于Google Cloud Platform和AWS的变体。“我们需要为跨所有云运营的客户提供服务,”格林斯坦指出。同样,它也经过优化以在后端使用不同的模板,因为这就是客户想要的方式。“我们所有的主要模型都在工作,”他补充道。“Claude、Anthropic、OpenAI、Llama、Falcon:我们都有。”
市场正在快速而自然地发生变化,格林斯坦建议公司对其人工智能实施采取“不后悔”的政策。
“人们可以做很多事情,比如构建独立于模型的数据和创建治理,”他说。那么,当市场发生变化、新的模式和技术出现时,数据和治理结构仍然具有相关性。
五、模型的微调
管理咨询公司Aarete在AWS Bedrock的Claude2.5 Sonnet上使用快速学习优化。“我们是美国整个East-1地区这一最新应用程序的最大采用者,”该公司数字技术服务副总裁PriyaIra gavarapu说道。“我们已经能够有效地将我们的生成式人工智能应用扩展到生产中。”
如果管理咨询公司Aarete使用托管模型并通过API连接到它,就会出现安全问题。“我们担心提示词(Prompt)数据最终会去向哪里,”专家说。“我们不想冒这些风险。”
在选择开源模型时,您会查看它之前被下载了多少次、社区支持的程度以及硬件要求。
“自去年初以来,基本模型已经变得非常强大,我们不必担心结果与任务相关性的有效性,”他指出。“现在唯一的区别是模型可以接受的代币数量和版本控制不同。”
许多金融和医疗保健公司正在根据其额外的数据集完善大语言模型(LLM)。基本的大型语言模型是在整个互联网上进行训练的,但通过微调,公司可以创建特定于其业务用例的模型。执行此操作的常见方法是创建问题和答案列表,然后根据它们完善模型。事实上,OpenAI于2023年8月开始使用问答方式对其GPT3.5模型进行调整,并在11月的DevDay上推出了一套针对GPT4的新优化、定制和RAG选项。这对于客户服务和帮助台应用程序特别有用,因为公司可能已经拥有常见问题解答数据库。
普华永道的Greenstein表示,构建SaaS应用程序的软件公司可能会进行微调。“如果你有一个高度可重复的模型,微调可以降低成本,”他说,但对于企业部署,RAG在高达95%的时间里效率更高。
六、从头开始
很少有公司会从头开始建立大语言模型(LLM)。OpenAI的GPT3拥有1750亿个参数,在45TB数据集上进行训练,耗资460万美元。OpenAI首席执行官SamAltman表示,GPT4的成本超过1亿美元。这个维度赋予了大语言模型(LLM)处理人类语言的魔力和能力,以及一定程度的常识和遵循指示的能力。“虽然可以创建自己的大语言模型(LLM),但这需要在数据和处理能力方面进行大量投资,”Insight首席数据官CarmTaglienti说。“从头开始训练模型需要足够的数据量,才能执行数据预期的LLM任务。”
然后,一旦模型完成了基本训练,就会进入带有人类反馈的强化学习阶段,RLHF,这是模型与用户适当交互所必需的。
【睿观:RLHF,即Reinforcement Learning from Human Feedback,是一种机器学习技术,通过将人类的反馈纳入到强化学习的过程中,来提升模型的性能和对人类意图的理解。
(一)RLHF的工作流程大致如下:
1.预训练模型: 首先,大语言模型会在大规模文本数据集上进行预训练,学习语言的统计规律和表达方式。
2.收集人类反馈数据: 训练好的模型会生成一些文本,然后由人类标注人员对这些文本进行评分或排序,以表示对生成结果的偏好。
3.训练奖励模型: 基于人类的反馈数据,训练一个奖励模型。这个模型可以预测给定文本的质量,即这个文本有多大可能得到人类的正面评价。
4.强化学习微调: 使用强化学习算法,让模型最大化奖励模型给出的奖励。通过不断地生成文本并根据奖励模型的反馈进行调整,模型逐渐学习生成符合人类偏好的文本。
(二)RLHF的优势:
1.提高模型与人类价值观的一致性: 通过人类反馈,模型可以更好地理解人类的意图和偏好,从而生成更符合人类期望的文本。
2.增强模型的安全性:RLHF可以帮助模型避免生成有害、歧视或偏见的内容。
3.提升模型的创造性: 通过鼓励模型生成多样化和有趣的文本,可以提高模型的创造力。
(三)在在线培训和客户服务场景中,RLHF的应用可以带来以下好处:
1.更个性化的回答: 模型能够更好地理解用户的需求,提供更贴合用户需求的答案。
2.更自然流畅的对话: 模型生成的文本更加流畅自然,更像人类的表达。
3.更高的用户满意度: 通过不断优化模型,可以提高用户对服务的满意度。
总结来说,RLHF是一种非常有效的技术,可以帮助我们训练出更智能、更符合人类需求的大语言模型。】
如今,几乎所有大语言模型(LLM)都来自大型超大规模企业或专注于人工智能的初创公司,例如OpenAI和Anthropic。即使是在构建自己的模型方面拥有丰富经验的公司也回避构建自己的模型。例如,Salesloft多年来一直在构建自己的人工智能和机器学习模型,包括使用旧技术的GenAI模型,但对于从头开始构建新的尖端基线模型犹豫不决。
“这是一个巨大的计算步骤,至少在现阶段,我们还没有承诺,”菲尔兹说。
七、模型花园
对于更成熟的公司来说,单一的人工智能模型可能不够,因为对于每种具体情况,可能有多个具有不同成本和性能指标的合适模型。此外,新的参与者不断进入该行业,超越老牌巨头。更不用说某些模型可以在本地或托管数据中心运行,从而降低公司成本并提供更高的安全性或灵活性。为了利用这些选项,公司创建了精心策划的模型花园、经过仔细审查、定制和完善的大语言模型(LLM)的私人收藏,并使用路由系统将请求转发给最合适的人。“还没有多少公司能做到这一点,”科尔尼公司的托塔总结道。“这很复杂,但我相信这将是未来。”
【睿观:模型花园:打造企业个性化AI生态。模型花园是企业构建AI能力的重要一环,它可以帮助企业更好地利用人工智能技术,提高业务效率,降低成本,增强竞争力。
模型花园(Model Garden)这个概念,形象地描绘了一个企业内部精心培育、管理和利用的大语言模型(LLM)集合。它就像一个私家花园,每株植物(模型)都有其独特的特性和价值,经过精心的培育,为企业提供多样化的服务。
(一)为什么需要模型花园?
1.多样性需求: 不同的业务场景对模型的要求各异,单一模型无法满足所有需求。模型花园提供了一个多样化的模型池,可以根据任务的具体情况选择最合适的模型。
2.成本优化: 不同的模型在性能、成本、部署方式等方面存在差异。通过选择合适的模型,企业可以实现成本优化,提高资源利用效率。
3.灵活应对: 模型花园可以帮助企业快速响应市场变化,适应新的业务需求。企业可以通过添加、更新或替换模型来提升整体AI能力。
4.数据安全: 将模型部署在本地或托管数据中心,可以更好地保护企业的数据安全。
(二)模型花园的工作原理
模型选型:根据业务需求,选择合适的预训练模型,并进行微调。
模型部署:将微调后的模型部署到不同的环境中,如云端、本地服务器等。
路由系统:建立一个路由系统,根据用户的请求,将请求转发到最合适的模型。
持续优化:不断对模型进行评估和优化,以保证模型的性能和可靠性。
(三)模型花园的优势
个性化:模型花园可以根据企业的具体需求定制模型,提供更加个性化的服务。
高效:通过路由系统,可以快速找到最合适的模型,提高处理效率。
灵活:模型花园可以适应不断变化的业务需求,具有很强的灵活性和扩展性。
安全:将模型部署在本地或托管数据中心,可以提高数据安全。
(四)模型花园的未来
随着人工智能技术的不断发展,模型花园将会变得越来越重要。越来越多的企业将建立自己的模型花园,以提升企业的竞争力。】