Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,679,512字

该文章投稿至Nemo社区资讯板块复制链接

端侧最强开源 AI 模型 Llama 3.2 登场：从 1B 纯文本到 90B 多模态，手机上可运行，挑战 OpenAI 4o mini

发布于 2024/09/26 07:03 117浏览 0回复 1,496字

IT之家 9 月 26 日消息，Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。

Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。

其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。

IT之家附上 4 个版本 AI 模型简介如下：

Llama 3.2 90B Vision（文本 + 图像输入）：Meta 最先进的模型，是企业级应用的理想选择。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能，可以完成图像理解和视觉推理任务。该模型非常适合以下用例：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。
Llama 3.2 11B Vision（文本 + 图像输入）：非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色，并增加了图像推理能力。该模型的用例与 90B 版本类似：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。
Llama 3.2 3B（文本输入）：专为需要低延迟推理和有限计算资源的应用而设计。它擅长文本摘要、分类和语言翻译任务。该模型非常适合以下用例：移动人工智能写作助手和客户服务应用。
Llama 3.2 1B（文本输入）：Llama 3.2 模型系列中最轻量级的模型，非常适合边缘设备和移动应用程序的检索和摘要。该模型非常适合以下用例：个人信息管理和多语言知识检索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度，在边缘本地运行的设备用例（如摘要、指令跟踪和重写任务）中处于领先地位。这些模型在第一天就支持高通和联发科硬件，并针对 Arm 处理器进行了优化。

端侧最强开源 AI 模型 Llama 3.2 登场：从 1B 纯文本到 90B 多模态，手机上可运行，挑战 OpenAI 4o mini

Llama 3.2 11B 和 90B 视觉模型可直接替代相应的文本模型，同时在图像理解任务方面优于 Claude 3 Haiku 等闭源模型。

端侧最强开源 AI 模型 Llama 3.2 登场：从 1B 纯文本到 90B 多模态，手机上可运行，挑战 OpenAI 4o mini

与其他开源多模态模型不同的是，预训练模型和对齐模型都可以使用 torchtune 针对自定义应用进行微调，并使用 torchchat 进行本地部署。开发者还可以使用智能助手 Meta AI 试用这些模型。

Meta 将分享首批 Llama Stack 官方发行版，这将大大简化开发人员在不同环境（包括单节点、内部部署、云和设备）中使用 Llama 模型的方式，实现检索增强生成（RAG）和工具支持型应用的交钥匙部署，并集成安全性。

Meta 一直在与 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作伙伴密切合作，为他们的下游企业客户构建 Llama Stack 发行版。设备分发通过 PyTorch ExecuTorch，单节点分发通过 Ollama。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/798/416.htm]

点了个评