LLM的关键特色之一是其规模,即模型中包含的参数数量非常弘大。
这些参数帮助模型捕获措辞的繁芜性和细微差别。
随着模型规模的增加,它们的理解能力和天生文本的质量也会提高,但同时也会增加所需的打算资源和演习韶光。

AGI

AGI(Artificial General Intelligence)也称为通用人工智能,指的是一种具有广泛智能的机器,能够理解、学习和运用知识,并能够在宽广范围的环境和任务中进行自主学习、推理、适应和创造,与人类智能相似或等同的水平。

差异于目前广泛运用的专业人工智能(AI)系统,这些系统常日优化和设计用来办理特定问题(如图像识别、措辞翻译等),AGI能够跨领域事情,不仅局限于一个详细领域或任务。

AGI的实现将标志着一个重大科技进展,但同时也引发了许多伦理和安全的考量。
目前AGI仍旧是人工智能领域的一个长期目标,并且尚未实现。

人工智能  通俗讲解AI根本概念

AIGC

AIGC(Artificial Intelligence Generated Content)即为人工智能天生内容,是一种内容生产形式。
例如AI笔墨续写,笔墨转像的AI图、AI主持人等,都属于AIGC的运用。

AI Agent

AI Agent 即智能代理,是一种基于人工智能技能的软件实体,它能够在一定的环境下自主感知信息、处理数据、并采纳行动以实现特定目标。
这种智能代理能够仿照人类的事情和思考办法,通过类似人类的独立思考和行动来完成一系列大略或繁芜的任务。

大措辞模型 (LLM) 仅限于它们所演习的知识,并且这些知识很快就会过期(每天用最新信息重新演习这么大的模型是不可行的),LLM的一些局限紧张包括:

会产生幻觉结果并不总是真实的对时势的理解有限或一无所知很难应对繁芜的打算。

这便是AI Agent的用武之地,它可以利用外部工具来战胜这些限定。
可以将Agent视为人工智能大脑或LLM操作系统,它利用LLM进行推理、操持和采纳行动。

智能体Bot

是平台对AI Agent的抽象定义,即人工智能代理,是一个能够根据人类目标自主思考和方案任务的程序或实体。
可以将智能体视为人工智能大脑或LLM操作系统,它利用LLM进行推理、操持和采纳行动(调用工具)。

实际利用过程中,我们更建议为某个详细的运用处景创建专门的智能体,而不是什么事情都交给同一个智能体,只有让智能体做更专注的事情才能做的更加专业。

提示词Prompt

大略的理解它是给 AI 模型的指令。
它可以是一个问题、一段笔墨描述,乃至可以是带有一堆参数的笔墨描述。
AI 模型会基于 prompt 所供应的信息,天生对应的文本或者图片。

针对智能体的提示词可能和对话的提示词略有不同,对话过程中的提示词高下文最多只有5条,智能体的编排提示词可以一贯生效,而且常日具有一定的格式规范,更利于智能体实行任务。
平台也预设了一些常用的智能体提示词可供用户选择。

RAG

RAG(Retrieval-Augmented Generation 检索增强天生)是一种结合了信息检索和文本天生技能的自然措辞处理方法,它通过检索干系信息来赞助天生更准确和丰富的文本输出。

RAG的一个关键上风是它可以有效地处理那些不仅依赖于通用知识,而且还须要特定信息源或文档中的知识才能回答的问题。
通过直策应用这些来源中的信息,RAG能够供应更加准确和信息含量更高的输出。

知识库Knowledge Base

知识库指用于供应信息检索支持的大规模数据凑集,包括用户上传到平台的各种文档、表格、数据表等资料,便于用户组织、管理领域知识,知识库可以理解为数据源。

知识库在RAG方案中的浸染是多方面的:

信息源:为天生模型供应丰富的背景信息和事实依据,使天生内容更加丰富和准确。
提升效率:通过预先建立的知识库进行检索,可以减少天生模型须要从头打算或推理的信息量,提升处理速率和效率。
增强准确性和干系性:基于检索到的与查询直接干系的信息,天生的内容更加贴近用户的实际需求,提升了回答的准确性和干系性。

因此,在RAG方案中,知识库的构建和质量直接影响到系统的整体性能,包括天生内容的准确度、丰富性和用户满意度。

多模态Multi Modal

多模态指的是结合利用两种或两种以上不同类型的模式或旗子暗记来进行信息的表达、互换或处理。
在打算机科学和人工智能领域,多模态常日涉及到结合文本、图像、音频、视频以及其他传感器数据来提升算法的理解、剖析和天生能力。

多模态方法可以帮助系统更全面地理解繁芜的信息场景,提高信息处理的效率和效果。

多路召回Multi-channel Recall

多路召回是自然措辞处理(NLP)和推举系统中的一种常见策略,旨在从多个维度或渠道同时检索信息或物品,以提高召回质量和覆盖率。
在这种策略中,系统会利用多个独立的算法或模型,每个算法或模型专注于从一个特定的角度或依据一个特定的特色来检索信息。

这些不同的召回渠道之后可以被合并或进一步处理,以天生一个综合的、多样化的结果集,从而提高终极推举或检索结果的准确性和多样性。
多路召回在提升用户体验和知足不同用户需求方面发挥着重要浸染。

微调Fine-Tuning

模型微调(Model Fine-tuning)是一种机器学习方法,特殊是在深度学习领域中常见。
这种方法涉及到在一个预演习的模型根本上,通过对模型进行额外的演习(或“微调”),使其更好地适应于特界说务或数据集。
在模型微调过程中,常日会采取较小的学习率,对预演习模型的权重进行小幅度调度,以达到提高模型在特界说务上表现的目的。

模型微调的特点是能够利用预演习模型已经学到的知识,从而在数据量较少的情形下也能达到较好的性能,加速模型的演习过程并提高模型的泛化能力。

对齐Alignment

人工智能中的对齐是指勾引人工智能系统的行为,使其符合设计者的利益和预期目标。
一个已对齐的人工智能的行为会向着预期方向发展;而未对齐的人工智能的行为虽然也具备特定目标,但此目标并非设计者所预期。

Token

在自然措辞处理中,我们常日将文本拆分为一个个离散的token,以便于打算机理解和处理在GPT模型中,token是模型吸收的最小单位。
模型在演习和天生文本时,将输入的文本序列划分为一系列的token,并通过对这些token进行处理和剖析来天生相应。

例如:在一个对话中,一句话可以被划分为多个token,包括单词、标点符号等。
每个token都有一个对应的编码表示,常日是一个整数。
这些编码将文本转换为模型能够处理的数值形式。
在利用ChatGPT时,用户常日须要理解自己的输入文本中有多少个token,以确保不超过模型的最大输入限定。

须要把稳的是,不同的模型和工具可能对token的定义和处理办法有所不同但总体来说token是指文本处理和剖析的最小单位,常日1Token的内容为5 字节的文本,但由于字符编码问题,不同中笔墨符的token数量并不是固定的,一样平常通过类OpenAI的接口调用会返回当前内容的token数量大小。

向量Vector

向量,物理、工程等也称作矢量、欧几里得向量(Euclidean vector) 是数学、物理学和工程科学等多个自然科学中的基本观点。
指一个同时具有大小和方向,且知足平行四边形法则的几何工具。
理论数学中向量的定义为任何在称为向量空间的代数构造中的元素。

一样平常地,同时知足具有大小和方向两个性子的几何工具即可认为是向量。
向量常常在以符号加箭头标示以差异于其它量。
与向量相对的观点称标量、纯量、数量,即只有大小、绝大多数情形下没有方向(电流是特例)、不知足平行四边形法则的量。

向量数据库Vector Database

向量数据库是基于智能算法提取需存储内容的特色,转变成具有大小定义、特色描述、空间位置的多维数值进行向量化存储的数据库,使内容不仅可被存储,同时可被智能检索与剖析。

工具Tool

是平台对智能体能力的抽象,通过工具的配置和组合可以实现多种业务场景需求,工具可以被实际关联到智能体的扩展能力,目前平台供应的工具包括大模型能力(文生图等)、联网查询(必应搜索)、知识库检索(知识管理检索)、函数调用(各种接口)等类型,将来还会拓展更多的工具类型。