Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,783,908字

标签 > 标签文章：#多模态# (共有6文章)

Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小

感谢IT之家网友Diixx的线索投递！IT之家9月12日消息，科技媒体TechCrunch昨日（9月11日）报道，法国AI初创公司Mistral发布Pixtral12B，是该公司首款能够同时处理图像和文本的多模态AI 大语音模型。Pixtral12B模型拥有120亿参数，大小约为24GB，参数大致对应于模型的解题能力，拥有更多参数的模型通常比参数较少的模型表现更优。Pixtral12B模

120 0 2024-09-12 07:33
云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家8月26日消息，云知声于23日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序IT之家获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相似；支持对话随时打断，用户可在对话中任意插话感知情绪，表达情绪：通过语音文本判断用户情

109 0 2024-08-26 13:57
面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

IT之家8月7日消息，面壁智能昨日开源了MiniCPM-V2.6模型，官方表示将端侧AI多模态能力拉升至全面对标 GPT-4V水平。官方称 MiniCPM-V2.6模型仅8B参数，取得20B以下单图、多图、视频理解 3SOTA成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，单图理解越级比肩多模态王者&

140 0 2024-08-07 10:09
15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

IT之家6月25日消息，最新发表在arXiv的研究论文指出，包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-ModalitySafetyAlignment），提出了一个全新的“安全输入但不安全输出”（SIUO），涉及道德、危险行为、自残、侵犯隐私

139 0 2024-06-25 09:15
港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态大模型在图像编辑，自动驾驶，机器人控制等下游领域的应用。针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——通过区域

138 0 2024-05-27 15:48
年轻人的第一个多模态大模型：1080Ti 轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令：无论中英文，图片中的大段文字都能分分钟提取出来：对一张图做对象检测，还是能给出具体坐标的那种：这项研究由来自旷视、国科大、华中大的

160 0 2024-01-27 18:40

Echo

Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小

云知声推出山海多模态大模型：实时生成文本、音频和图像

面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

年轻人的第一个多模态大模型：1080Ti 轻松运行，已开源在线可玩