天生式人工智能 (GenAI) 和大型措辞模型 (LLM) 为各个行业供应了变革潜力。
然而,由于其打算强度、动态行为以及可能产生不准确或不良输出,它们在生产环境中的支配面临寻衅。
现有的监控工具常日无法供应对管理此类运用程序至关主要的实时见地。
在现有事情的根本上,本文先容了在生产中监控 GenAI 运用程序的框架。
它涉及根本举动步伐和质量方面。

在根本架构方面,须要主动跟踪性能指标,例如本钱、延迟和可扩展性。
这样可以实现明智的资源管理和主动扩展决策。
为确保质量和合乎道德的利用,该框架建议对幻觉、事实性、偏见、连贯性和敏感内容天生进行实时监控。

这种集成方法使开拓职员能够立即发出警报和修复建议,从而能够快速干预和缓解潜在问题。
通过将性能和面向内容的监控相结合,该框架促进了天生式 AI 在生产环境中的稳定、可靠和合乎道德的支配。

先容

在 LLM 的强大功能的推动下,GenAI 的功能正在迅速改变我们与技能交互的办法。
从天生非常像人类的文本到创建令人惊叹的视觉效果,GenAI 运用程序正在进入不同的生产环境。
各行各业正在利用这种潜力进行内容创建、客户做事谈天机器人、个性化营销乃至代码天生等用例。
然而,从有出息的技能到这些模型的可操作性仍旧是一个巨大的寻衅[1]。

监控分娩中的生成式 AI 应用

确保 GenAI 运用程序的最佳性能须要仔细管理与模型推理干系的根本举动步伐本钱、本钱和主动扩展方法,以应对需求颠簸。
掩护用户体验须要密切关注相应延迟。
同时,LLM天生的输出质量至关主要。
开拓职员必须努力应对潜在的事实缺点、有害偏见的存在以及模型天生有毒或敏感内容的可能性。
这些寻衅须要一种超越传统工具的量身定制的监测方法。

须要实时洞察根本举动步伐运行状况和输出质量,这对付在生产中可靠和合乎道德地利用 GenAI 运用程序至关主要。
本文通过提出专门用于实时监控生产中 GenAI 运用程序的办理方案来知足这一关键需求。

当前限定

近年来,人工智能系统的监控和管理引起了人们的极大关注。
关于人工智能模型监控的现有文献常日集中在监督学习模型上[2]。
这些方法办理了分类或回归任务中的性能跟踪、偏移检测和调试问题。
可阐明人工智能(XAI)的研究也为阐明模型决策供应了见地,特殊是对付黑盒模型[3]。
该领域试图解开这些繁芜系统的内部运作,或为输出供应事后情由[4]。
此外,关于偏差检测的研究探索了识别和减轻演习数据或模型设计中可能产生的歧视模式的技能[5]。

虽然这些领域供应了坚实的根本,但它们并不能完备办理基于 LLM 的监控和评估天生式 AI 运用程序的独特寻衅。
在这里,重点从传统的分类或回归指标转移到开放式天生。
评估LLM常日涉及专门的技能,如人工判断或与参考数据集进行比较[6]。
此外,标准监控和 XAI 办理方案可能无法针对跟踪 GenAI 中普遍存在的问题进行优化,例如幻觉、实时偏差检测或对代币利用和本钱的敏感性。

最近有一些事情可以帮助办理这一寻衅[8],[9]。
本文建立在这些干系领域的先前事情根本上,同时提出了一个专门为生产GenAI运用程序的实时监控需求而设计的框架。
它强调根本举动步伐和质量监控的集成,能够及时检测基于 LLM 的运用程序特有的各种潜在问题。

本文重点先容利用模型即做事 (MLaaS) 产品监控天生式 AI 运用程序,例如 Google Cloud 的 Gemini、OpenAI 的 GPT、Amazon Bedrock 上的 Claude 等。
虽然核心监视原则仍旧适用,但自托管 LLM 须要额外的考虑。
这些成分包括模型优化、加速器(例如 GPU)管理、根本举动步伐管理、扩展等,这些成分超出了本谈论的范围。
此外,本文重点先容文本到文本模型,但这些原则也可以扩展到其他模式。
后续部分将重点先容用于捕获这些指标的各种指标、技能和架构,以理解 LLM 在生产中的行为。

运用程序监控

监控天生式 AI 运用程序的性能和资源利用率对付确保其在生产环境中的最佳运行和本钱效益至关主要。
本节深入磋商了 GenAI 运用程序监控的关键组件,特殊关注本钱、延迟和可扩展性把稳事变。

本钱监控和优化

与支配 GenAI 运用程序干系的本钱可能很高,尤其是在利用 MLaaS 产品时。
因此,风雅的本钱监控和优化至关主要。
以下是一些须要关注的关键指标:

风雅本钱跟踪

MLaaS 供应商常日根据 API 调用次数、利用的令牌、模型繁芜性和数据存储等成分收费。
在这种详细程度上跟踪本钱可以精确理解本钱动因。
对付 MLaaS LLM,输入和输出字符/令牌计数可能是本钱的关键驱出发分。
大多数模型都有分词器 API 来打算任何给定文本的字符/标记。
这些 API 可以帮助理解监控和优化推理本钱的利用情形。
以下是为 Google Cloud 的 Gemini 模型天生计费字符数的示例。

import vertexaibr

from vertexai.generative_models import GenerativeModelbr

br

def generate_count(project_id: str, location: str) -> str:br

# Initialize Vertex AIbr

vertexai.init(project=project_id, location=location)br

br

# Load the modelbr

model = GenerativeModel("gemini-1.0-pro")br

br

# prompt tokens countbr

count = model.count_tokens("how many billable characters are here?"))br

br

# response total billable charactersbr

return count.total_billable_charactersbr

br

generate_count('your-project-id','us-central1')

利用模式剖析与代币效率

剖析代币利用模式在优化 GenAI 运用程序的运营本钱和用户体验方面起着关键浸染。
云供应商常日会施加每秒令牌配额,持续超过这些限定可能会降落性能。
虽然配额增加是可能的,但每每有硬性限定。
对付超出这些阈值的利用,可能须要进行创意资源管理。
对一段韶光内代币利用情形的全面剖析有助于确定本钱优化的路子。
请考虑以下策略:

提示优化:重写提示以减小其大小可以减少令牌花费,并且该当是优化事情的紧张重点。
模型调度:在精心策划的数据集上微调的模型可以通过较小的提示供应类似乃至更出色的性能。
虽然一些供应商对基本型号和调度型号收取类似的用度,但调度型号也存在溢价定价模式。
在做出决定之前,人们须要认识到这些。
在某些情形下,模型调度可以显著降落令牌利用和干系本钱。
检索增强天生: 结合信息检索技能可以通过计策性地限定输入模型的数据来帮助减小输入令牌大小,从而可能降落本钱。
更低的模型利用率: 当较小的模型与高质量的数据结合利用时,它不仅可以实现与大型模型相称的性能,而且还供应了令人信服的本钱节约策略。

本文前面供应的令牌计数剖析代码示例有助于理解和优化令牌利用。
值得把稳的是,调度模型的定价模型因 MLaaS 供应商而异,这凸显了在选择过程中仔细定价剖析的主要性。

延迟监控

在 GenAI 运用程序的高下文中,延迟是指用户提交要乞降吸收模型相应之间经由的总韶光。
确保最小的延迟对付保持积极的用户体验至关主要,由于延迟会显著降落感知相应能力和整体满意度。
本节深入磋商了 GenAI 运用程序的可靠延迟监控的基本组件。

实时延迟丈量

实时跟踪端到端延迟至关主要。
这须要丈量以下组件:

网络延迟: 数据在用户设备和基于云的 MLaaS 做事之间传输所花费的韶光。
模型推理韶光:LLM 处理输入并天生相应所需的实际韶光。
前/后处理开销: 在模型实行之前为数据准备和格式化相应以进行交付所花费的任何其他韶光。
对用户体验的影响

理解延迟与用户行为之间的干系性对付优化运用程序至关主要。
要剖析的关键用户满意度指标包括:

跳出率: 在查看单次交互后离开网站或运用程序的用户所占的百分比。
会话持续韶光:用户与运用程序互动所花费的韶光长度。
转化率:(如适用)完成所需操作(例如购买或注册)的用户比例。
识别瓶颈

查明延迟的紧张来源对付有针对性的修复至关主要。
须要调查的潜在瓶颈领域包括:

网络性能: 带宽不敷、DNS 解析速率慢或网络拥塞会显著增加网络延迟。
模型架构:大型繁芜模型的推理韶光可能更长。
很多时候,利用更小的模型、更高质量的数据和更好的提示可以帮助产生必要的结果。
输入/输出处理效率低下:未经优化的数据处理、编码或格式化可能会增加全体过程的开销。
MLaaS 平台成分:MLaaS 平台上的做事端性能颠簸可能会影响延迟。

主动延迟监控对付在生产环境中保持 GenAI 运用程序的相应能力和用户满意度至关主要。
通过理解延迟的组成部分,剖析其对用户体验的影响,并计策性地识别瓶颈,开拓职员可以做出明智的决策来优化他们的运用程序。

可扩展性监控

GenAI 运用程序的生产级支配须要能够优雅地处理需求颠簸。
定期的负载和压力测试对付评估系统在现实和极度流量场景下的可扩展性和弹性至关主要。
这些测试应仿照不同的利用模式、逐渐增加的负载、峰值负载仿照和持续负载。
主动可伸缩性监控至关主要,尤其是在利用具有 LLM 硬配额限定的 MLaaS 平台时。
本节概述了在这些约束条件下进行有效可伸缩性监视的关键指标和策略。

自动缩放配置

利用 MLaaS 平台供应的自动缩放功能对付动态资源管理至关主要。
紧张考虑成分包括:

指标:确定将触发扩展事宜的紧张指标(例如,相应韶光、每秒 API 要求数、缺点率)。
根据性能目标设置适当的阈值。
伸缩策略:定义根据需求变革添加或删除资源的速率。
考虑启动其他模型实例所需的韶光等成分。
冷却韶光:在缩放事宜后履行冷却期,以防止“捶打”(快速扩展和缩减),这可能导致不稳定和本钱增加。
监控扩展指标

在扩展事宜期间,请仔细监控以下基本指标:

相应韶光:确保相应韶光保持在可接管的范围内,纵然在缩放时也是如此,由于延迟会直接影响用户体验。
吞吐量: 跟踪系统的整体吞吐量(例如,每分钟的要求数),以衡量其处理传入要求的能力。
缺点率:监视由于资源不敷或扩展过程中可能涌现的瓶颈而导致的缺点率增加。
资源利用率: 不雅观察 CPU、内存和 GPU 利用率,以确定潜在的资源限定。

MLaaS 平台的硬配额限定为扩展 GenAI 运用程序带来了独特的寻衅。
办理这一问题的策略包括:

缓存:对常常要求的提示对模型输出进行策略性缓存,以减少模型调用的次数。
配料:整合多个要求并批量处理,优化资源利用。
负载均衡:在负载均衡器后面的多个模型实例之间分配流量,以最大限度地提高可用配额内的利用率。
稠浊支配:考虑一种稠浊方法,个中哀求较低的要求由 MLaaS 模型供应做事,而超出配额的要求则由自承载支配处理(假设有必要的专业知识)。

主动运用监控,包括本钱、延迟和可扩展性方面,是 GenAI 运用在生产中成功支配和高性价比运行的根本。
通过履行上述策略,开拓职员和组织可以得到关键的见地,优化资源利用,并确保其运用程序的相应能力,从而增强用户体验。

内容监控

确保生产中 GenAI 运用程序的质量和道德完全性须要强大的内容监控策略。
本节先容幻觉检测、准确性问题、有害偏见、缺少连贯性以及敏感内容的天生。

幻觉检测

减轻 LLM 天生看似合理但禁绝确的信息的趋势对付它们在生产环境中的道德和可靠支配至关主要。
本节深入磋商了利用多个 LLM 来增强幻觉检测的接地技能和策略。

人机交互

为理解决基于 LLM 的运用程序中固有的幻觉问题,人机交互方法供应了两种关键的实现策略:

终极用户反馈: 结合直接反馈机制,例如竖起大拇指/竖起大拇指的评级和详细文本反馈的选项,为LLM的输出供应了宝贵的见地。
这些数据许可连续的模型改进,并精确定位幻觉可能普遍存在的区域。
终极用户反馈创建了一个协作循环,随着韶光的推移,可以显著提高 LLM 的准确性和可信度。
人工审核抽样: 随机抽取一部分 LLM 天生的输出,并对其进行严格的人工审查,建立了质量掌握机制。
人类专家可以识别自动化系统可能遗漏的细微幻觉、偏见或事实不一致。
这个过程对付保持高标准的输出至关主要,特殊是在精度至关主要的运用中。

履行这些 HITL 策略可以促进人类和 LLM 之间的共生关系。
它利用人类的专业知识来辅导和纠正 LLM,从而逐步得到更可靠和更符合事实的输出。
这种方法在准确性和没有误导性信息至关主要的领域尤为主要。

以第一方和可信数据为根本

将 GenAI 运用程序的输出锚定在可靠的数据源中,为幻觉检测供应了一种强大的方法。
这种方法是必不可少的,尤其是在处理特定于域的内容或须要可验证事实的场景时。
技能包括:

具有事实约束的提示工程:仔细构建包含特定领域知识的提示,引用外部数据,或明确哀求模型遵照已知的事实高下文。
例如,总结事实文档的提示可以包括以下解释:“将择要限定为文档中明确提及的信息。

检索增强天生:利用可信数据集增强 LLM,这些数据集优先考虑事实准确性和对所供应信息的遵守。
这有助于减少模型捏造信息的整体方向。
结合外部接地源: 利用旨在访问和处理第一方数据、可信知识库或真实天下信息的 API 或做事。
这许可系统交叉验证模型的输出并标记潜在的差异。
例如,财经新闻择要任务可以与API相结合,API供应最新的股票市场数据以进行准确性验证。
基于 LLM 的输出评估: 可以利用 LLM 的独特功能来评估天生文本的事实同等性。
策略包括:自同等性检讨:这可以通过多步骤天生来实现,个中任务被分解为更小的步骤,并检讨后续输出是否与先前的输出相抵牾。
例如,哀求模型首先概述文档的关键点,然后天生完全的择要,可以验证摘假如否与这些关键点同等。
或者,以不同的格式改写原始提示并比较结果的输出可以揭示表明捏造信息的不一致之处。
跨模型比较: 将一个 LLM 的输出作为提示输入到具有潜在互补上风的另一个 LLM。
剖析后续输出之间的任何不一致或抵牾,这可能会揭示幻觉。
跟踪幻觉的指标: 准确丈量和量化LLM产生的幻觉仍旧是一个生动的研究领域。
虽然信息检索和分类等领域的既定指标供应了根本,但幻觉检测的独特性须要调度现有指标并开拓新的指标。
本节提出了一套多方面的指标,包括创造性地适应此高下文的标准指标,以及专门设计用于捕捉幻觉文本细微差别的新指标。
主要的是,我鼓励从业者根据其业务领域的特定敏感性定制这些指标。
特定领域的知识对付制订符合每个 GenAI 支配独特哀求的指标集至关主要。

考虑成分和未来方向特异性与开放性

接地技能在须要事实精确度的任务中非常有效。
然而,在期望新颖性的更具创造性的领域,严格的根本可能会阻碍模型产生原创想法的能力。

数据质量

任何接地策略的可靠性都取决于所利用的外部数据源的质量和可信度。
根据精心策划的第一方数据或信誉良好的知识库进行验证至关主要。

打算开销

事实检讨、数据检索和多模型评估可能会带来额外的延迟和本钱,在生产环境中须要仔细考虑。

不断发展的评估技能

利用LLM进行语义剖析和同等性检讨的研究正在进行中。
利用LLM进行幻觉检测的更繁芜的技能可能会涌现,进一步增强它们在这项任务中的效用。

接地和跨模型评估为对抗 GenAI 输出中的幻觉供应了强大的工具。
这些技能被计策性地利用,可以提高这些运用程序的事实准确性和可信度,促进它们在实际场景中的可靠支配。

偏置监控

LLM中的偏见问题是一个繁芜而紧迫的问题,由于这些模型有可能延续或放大其演习数据中存在的有害刻板印象和歧视性模式。
主动偏见监控对付确保 GenAI 在生产中的合乎道德和原谅性的支配至关主要。
本节磋商了数据驱动的、可操作的偏差检测和缓解策略。

公正性评估工具包

专门的库和工具包为LLM输出中的偏差评估供应了一个有代价的出发点。
虽然并非所有都是明确为LLM评估而设计的,但许多都可以针对这种情形进行调度和重新利用。
请考虑以下工具:

埃奎塔斯:供应一套指标和可视化效果,用于评估不同人口统计数据中的群体公正性和偏见。
此工具可用于剖析基于性别、种族等敏感属性的模型输出差异([删除了无效的 URL])公正测试: 能够识别和调查模型输出中的潜在偏差。
它可以剖析是否存在歧视性措辞或对受保护群体的差别报酬。
([删除了无效的 URL])实时剖析

在生产环境中,实时偏置监控至关主要。
策略包括:

关键字和短语跟踪: 监视历史上与有害偏见或刻板印象干系的特定单词、短语或措辞模式的输出。
根据敏感域和与运用程序干系的潜在风险定制这些列表。
偏差创造的动态提示: 利用精心构建的输入系统地测试模型,以揭示潜在的偏差。
例如,修正提示以改变性别、种族或其他属性,同时保持任务同等,并不雅观察模型的输出是否表现出偏见。
缓解策略

当创造偏倚时,及时干预至关主要。
请考虑以下操作:

提醒: 履行警报系统,以标记可能有偏见的输出,以供人工审查和干预。
根据偏差的严重性及其潜在影响校准这些警报的敏感性。
过滤或修正:在敏感运用中,考虑自动过滤高度偏置的输出或修正以肃清有害措辞。
这些方法必须与限定有效和公道辞吐的可能性相平衡。
人机交互:整合人工审核员,进行细致入微的偏见评估并确定适当的缓解方法。
这可能包括重新提示模型、为微调供应反馈或升级关键问题。
主要考虑成分不断发展的标准:偏见检测与高下文干系,有害辞吐的定义会随着韶光的推移而演化。
监测系统必须保持适应性。
交叉性:偏见可以超过多个轴(例如,种族、性别、性取向)。
监测策略须要考虑到这种繁芜性。

GenAI 运用中的偏置监控是一项多方面且持续的事情。
通过结合专门的工具包、实时剖析和寻思熟虑的缓解策略,开拓职员可甚至力于实现更具原谅性和公正的 GenAI 系统。

连贯性和逻辑评估

确保GenAI输出的内部同等性和逻辑流程对付掩护用户信赖和避免无意义的结果至关主要。
本节供应无监督同等性和逻辑评估技能,适用于各种基于 LLM 的大规模任务。

语义同等性检讨语义相似性剖析

打算天生文本的不同片段(例如,句子、段落)之间的语义相似性。
相似性得分低可能表明缺少主题凝聚力或主题溘然变革。

实现

利用预演习的句子嵌入模型(例如,句子转换器)来打算文本块之间的相似性分数。

from sentence_transformers import SentenceTransformerbr

model = SentenceTransformer('paraphrase-distilroberta-base-v2')br

br

generated_text = "The company's stock price surged after the earnings report. Cats are excellent pets."br

sentences = generated_text.split(".")br

embeddings = model.encode(sentences)br

br

similarity_score = cosine_similarity(embeddings[0], embeddings[1])br

print(similarity_score) # A low score indicates potential incoherence

主题建模

运用主题建模技能(例如 LDA、NMF)从天生的文本中提取潜在主题。
输出中主题分布不一致可能表明缺少中央主题或重点。

实现

利用 Gensim 或 scikit-learn 等库进行主题建模。

逻辑推理评估蕴涵和抵牾检测

评估天生文本中的连续句子是否表现出逻辑蕴涵(一个句子暗示另一个句子)或抵牾。
这可以揭示推理中的不一致之处。

实现

采取蕴涵模型(例如,基于 BERT 的模型,在 SNLI 或 MultiNLI 等自然措辞推理数据集上进行微调)。

这些技能可以打包成用户友好的功能或模块,使没有深厚机器学习专业知识的用户免受底层繁芜性的影响。

敏感内容检测

由于 GenAI 能够天生非常像人类的文本,因此必须积极主动地检测其输出中的潜在敏感内容。
这对付避免意外侵害、促进负任务的利用和保持对技能的信赖是必要的。
以下部分磋商专门设计用于大型措辞模型高下文中的敏感内容检测的当代技能。
这些可扩展的方法将利用户能够保护GenAI在各种运用程序中的道德履行。

透视 API 集成:Google 的 Perspective API 供应了一个预先演习的模型来识别有害评论。
它可以集成到 LLM 运用程序中,以剖析天生的文本,并为包含有毒内容的可能性供应分数。
透视 API 可以通过 REST API 访问。
下面是一个利用 Python 的示例:

from googleapiclient import discoverybr

import jsonbr

br

def analyze_text(text):br

client = discovery.build("commentanalyzer", "v1alpha1")br

analyze_request = {br

"comment": {"text": text},br

"requestedAttributes": {"TOXICITY": {}},br

}br

response = client.comments().analyze(body=analyze_request).execute()br

return response["attributeScores"]["TOXICITY"]["summaryScore"]["value"]br

br

text = "This is a hateful comment."br

toxicity_score = analyze_text(text)br

print(f"Toxicity score: {toxicity_score}")

API 返回一个介于 0 和 1 之间的分数,表示毒性的可能性。
可以设置阈值来标记或过滤超过特定分数的内容。

基于 LLM 的安全过滤器:像 Google 这样的紧张 MLaaS 供应商供应集成到其 LLM 产品中的第一方安全过滤器。
这些筛选器利用专门演习的内部 LLM 模型来检测和缓解敏感内容。
利用 Google 的 Gemini API 时,会自动运用安全过滤器。
您可以在设置安全护栏的情形下访问不同的创意文本格式。
它们还供应第二级安全过滤器,用户可以利用这些过滤器根据一组指标运用额外的过滤器。
例如,这里提到了 Google Cloud 的安全过滤器。
人机交互评估:在评估过程中集成人工审核职员可以显著提高敏感内容检测的准确性。
人类判断可以帮助识别自动化系统可能遗漏的细微差别和高下文成分。
像 Amazon Mechanical Turk 这样的平台可用于网络对标记内容的人工判断。
评估员 LLM: 这涉及利用单独的 LLM(“Evaluator LLM”)专门用于评估敏感内容的天生 LLM 的输出。
此 Evaluator LLM 可以在标记为敏感内容的精选数据集上进行演习。
培训评估员 LLM 须要深度学习方面的专业知识。
像 Hugging Face Transformer 这样的开源库供应了工具和预演习模型来促进这一过程。
另一种方法是利用通用 LLM,例如 Gemini 或 GPT,并带有适当的提示来创造敏感内容。

用于表达敏感内容的措辞不断发展,须要不断更新检测模型。
通过结合这些可扩展的技能并仔细办理干系寻衅,我们可以构建强大的系统来检测和缓解 LLM 输出中的敏感内容,确保负任务和合乎道德地支配这项强大的技能。

结论

确保天生式 AI 运用程序在生产环境中的可靠、合乎道德且具有本钱效益的支配须要采取多方面的监控方法。
本文先容了一个专门为实时监控 GenAI 而设计的框架,办理了根本举动步伐和质量方面的考虑。

在根本架构方面,主动跟踪本钱、延迟和可扩展性至关主要。
用于剖析令牌利用情形、优化提示和利用自动扩展功能的工具在管理运营用度和保持积极的用户体验方面发挥着至关主要的浸染。
内容监控对付担保 GenAI 运用程序的质量和道德完全性同样主要。
这包括检测幻觉的技能,例如在可靠的数据源中扎根并结合人机交互验证机制。
减少偏见、同等性评估和敏感内容检测的策略对付促进原谅性和防止有害产出至关主要。

通过集本钱文中概述的监控技能,开拓职员可以更深入地理解与其 GenAI 运用程序干系的性能、行为和潜在风险。
这种主动方法使他们能够采纳明智的纠正方法,优化资源利用率,并终极为用户供应可靠、值得相信和合乎道德的 AI 驱动的体验。
虽然我们专注于 MLaaS 产品,但所谈论的原则可以适用于自托管 LLM 支配。

GenAI监控领域正在迅速发展。
研究职员和从业者应对幻觉检测、偏差缓解和评估技能的新发展保持当心。
此外,认识到环绕天生模型中准确性限定和创造力之间的平衡的持续辩论至关主要。

参考M. Korolov, “For IT leaders, operationalized gen AI is still a moving target,” CIO, Feb. 28, 2024.O. Simeone, "A Very Brief Introduction to Machine Learning With Applications to Communication Systems," in IEEE Transactions on Cognitive Communications and Networking, vol. 4, no. 4, pp. 648-664, Dec. 2018, doi: 10.1109/TCCN.2018.2881441.F. Doshi-Velez and B. Kim, "Towards A Rigorous Science of Interpretable Machine Learning", arXiv, 2017. [Online].A. B. Arrieta et al. "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI." Information Fusion 58 (2020): 82-115.A. Saleiro et al. "Aequitas: A Bias and Fairness Audit Toolkit." arXiv, 2018. [Online].E. Bender and A. Koller, “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data,” Proceedings of the 58th Annual Meeting of the Association for ComputationalS. Mousavi et al., “Enhancing Large Language Models with Ensemble of Critics for Mitigating Toxicity and Hallucination,” OpenReview.X. Amatriain, “Measuring And Mitigating Hallucinations In Large Language Models: A Multifaceted Approach”, Mar. 2024. [Online].

原文标题:Monitoring Generative AI Applications in Production

原文链接:https://dzone.com/articles/monitoring-generative-ai-applications

作者:Amit Rai

编译:LCR