如今的手机和个人电脑都配备了新的硬件,可以直接在设备上运行人工智能。
在今年的 Google I/O 大会上,Google 鼓励程序员们充分利用它。

这个思考是在本地存储的数据上运行大措辞模型,纵然没有互联网连接。
数据保持私密性,不会离开设备,而且该方法可以节省资金。

Google的产品经理Sachin Kotwani在 Google I/O 大会上如此说:

“作为开拓者,你可以做减少或肃清处理做事器端掩护、容量、限定或另一个入口的本钱的需求。

Google 推荐开拓者编写设备上的AI应用

运作办法

开拓设备端人工智能运用程序的能力是当今人工智能处理办法的重大进步。

新的手机和个人电脑中的神经处理器使设备上的人工智能成为可能。

如果大家还没有把稳到的话,人工智能实在已经存在于设备上。
它运行基本的智好手机活动,例如建议文本、改进图像以及剖析功耗以节省电池等。

新手机和个人电脑中的神经处理器使设备上的人工智能成为可能。
但是,在没有任何 AI 加速器的情形下,在 PC 上运行具有 10 亿或更多参数的 LLM(例如 TinyLlama 或 Phi-2)速率非常慢。

我们只能在带有Jan.ai或GPT4All的 CPU 上运行 LLM ,但这会给个人打算机带来不小的负载。

在具有强大 GPU 的PC 上运行大措辞模型是可以的。
但设置是一件苦差事——我们须要下载模型、加载神经网络环境(例如 Nvidia 的 CuDNN)、安装开拓者工具并须要编译它。

新一波能够在设备上进行矩阵数学运算的加速器和 GPU 使得在手机上实现 AI 成为可能。

因此,大多数人工智能打算都发生在云端强大的 GPU 上,这就像将 GPT-4 API 加载到谈天机器人界面中一样大略,然后将查询转移到 OpenAI 做事器根本举动步伐中的 GPU 上。
然后这些 API 并不是免费的,必须付费才能利用 OpenAI 的根本举动步伐。

能够在设备上进行矩阵数学运算的新一波加速器,包括 GPU 使得人工智能在手机上运行成为可能。

Google的新款 Pixel 8A 手机配备了用于 AI 的 Edge TPU(张量处理单元),英特尔和 AMD 在 PC 上配备了神经处理单元。
设备上的人工智能可以与基于云的人工智能资源相结合。

开拓工具

包括 AMD、Intel 和 Nvidia 在内的芯片制造商已经供应在设备上运行 LLM 的开拓工具。

Google在它的开拓大会和社区中提到了开拓套件、API 还有其它工具,这些工具利用了自己的Gemini Nano LLM 的移动设备。
该大措辞模型是多模态的,这意味着开拓者可以环绕它构建语音、图像、视频或谈天机器人等运用程序。

Google这样推举式地向开拓者们表示,Gemini Nano 是设备上人工智能最强大的模型,它可以很好地集成到 Android 运用程序中。

“Gemini Nano 是 Android 的推举生产路径,”谷歌 I/O 开拓者关系工程师Thomas Ezan如此说道。

对付那些不愿意被困在专有人工智能开拓环境中的人来说,Google也将支持两到三十亿个参数的开源 LLM。

“如果你想在设备上运行通用型推理,开放式大措辞模型在过去一年也越来越受欢迎,只管由于性能和内存寻衅,它们不太适宜在生产环境”。

个中包括 Falcon 1B(13 亿个参数)、Flan-T5(27 亿个参数)、StableLM 3B(28 亿个参数)和 Llama 2B(25 亿个参数)。
谷歌还将支持其开源 Gemma LLM 的 70 亿参数模型。

开拓者的工具

开拓者可以通过 Edge AI SDK 将 Nano AI 集成到运用程序和开拓环境中。

该 SDK 供应给开拓者们各种高等 API、管道、模型推理和硬件挂钩,可以高效运行 AI 模型。

移动设备在打算能力、带宽和内存方面受到限定。
开拓者可以通过访问名为 AICore 的系统做事来微调模型,该做事集成在 Pixel 8A 和三星 S24 等符合条件的设备上运行的 Android 14 中。

开拓者可以利用量化办法来优化移动设备的模型,以减少模型尺寸和处理哀求。

LoRA 被认为是对设备和运用程序进行 AI 微调的主要构建模块。

Google开拓者关系工程师特伦斯·张(Terence Zhang)这样说:

“高下文窗口也可能会更小,模型的通用性也会降落……这意味着为了得到生产质量,微调至关主要”。

AICore 还包括一个称为低阶适应 LoRA 的微调层,它许可运用程序开拓职员自定义模型来实行特界说务。
LoRA 被认为是对设备和运用程序进行 AI 微调的主要构建模块。

Google 软件工程师Miao Wang表示:“运用程序可以演习自己专门的 LoRA 微调模块,以优化 Gemini Nano 模型的性能。

支持开源大措辞模型

MediaPipe 是一个关键的 API,许可开拓者利用多个开源 LLM(包括 Falcon 和 Gemma)创建设备上的 AI 运用程序。

开拓者可依赖 MediaPipe API 为 Android 和 iOS 设备编写 AI Web 运用程序。

MediaPipe API 为我们供应了预先优化的模型,必须携带权重参数才能运行设备上的运用程序。
它同时支持视觉、文本和音频运用程序。
还有一些大措辞模型善于特界说务,API 也供应了选择模型的灵巧性。

开拓者将依赖 MediaPipe API 为 Android 和 iOS 设备编写 AI Web 运用程序。
Chrome 126 处于测试阶段,集成了对低代码 API 的支持,这些 API 将 Web 运用程序连接到 Nano 与开源 LLM。

Google I/O 核心机器学习首席软件工程师Cormac Brick如此说道:

“这统统都完备在浏览器本地运行,而且速率很快。
这是由于它是通过WebGPU在打算机的 GPU 上进行加速的。
这使得它足够快地构建非常引人瞩目的、完备本地化的 Web 运用程序。

TensorFlow Lite

Google 还供应了 TensorFlow Lite 开拓环境,这是 TensorFlow 机器学习框架的轻量级版本。
TFLite 还包括一个工具包,用于将 TensorFlow 模型转换为可在设备上运行的更微型的版本。

“你可以在你选择的框架内找到现成的模型,演习模型也可以,它只需一步即可将你的模型转换为 TensorFlow Lite。
然后,你可以在 Android、Web 和 iOS 上与你的运用程序一起在捆绑到包上运行它们。

芯片制造商高通上周也表示,开拓者将能够利用其生产的最新芯片将他们的大措辞模型移植到智好手机上。

要欢迎的寻衅

运用程序开拓者正在热衷于利用每一点存在的处理能力,来提高其运用程序的效率。

而且新一代设备将拥有更多的人工智能马力,这将增强设备上的人工智能大脑。

我们另一个寻衅是将运用程序与精确的人工智能芯片相匹配。
新一代设备将拥有更多的人工智能马力,这将增强设备上的人工智能大脑。

戴尔产品管理总监扎克·诺斯基(Zach Noskey ) 表示,戴尔推出了配备英特尔 NPU 的新 PC,但一旦开拓者创造干系运用程序,设备上的人工智能就会真正起飞。

开拓者参与英特尔OpenVino等工具的利用,对付推动行业开拓非常主要。
供应商正在与开拓者密切互助,做好运用程序准备事情,办理开拓职员可能不知道从哪里开始的问题。

举个例子,OpenVino 为 Gimp 供应了一个 Intel NPU 插件,可以支持 Stability Diffusion 图像天生提示语。

Zach Noskey这样总结说:

“这样做是为为让开发者和社区中实现的更快。
以前的速率有点慢,就像过去几年运用程序的 CPU 和 GPU 利用率一样”。