-
Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小
感谢IT之家网友Diixx的线索投递!IT之家9月12日消息,科技媒体TechCrunch昨日(9月11日)报道,法国AI初创公司Mistral发布Pixtral12B,是该公司首款能够同时处理图像和文本的多模态AI 大语音模型。Pixtral12B模型拥有120亿参数,大小约为24GB,参数大致对应于模型的解题能力,拥有更多参数的模型通常比参数较少的模型表现更优。Pixtral12B模120 0 2024-09-12 07:33
-
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家8月26日消息,云知声于23日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序IT之家获悉,山海多模态大模型有如下特点:实时秒回,自由插话:与现实对话中人类的响应时间相似;支持对话随时打断,用户可在对话中任意插话感知情绪,表达情绪:通过语音文本判断用户情109 0 2024-08-26 13:57
-
面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V,6G 内存可用
IT之家8月7日消息,面壁智能昨日开源了MiniCPM-V2.6模型,官方表示将端侧AI多模态能力拉升至全面对标 GPT-4V水平。官方称 MiniCPM-V2.6模型仅8B参数,取得20B以下单图、多图、视频理解 3SOTA成绩,有以下特点:“三合一最强”端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,单图理解越级比肩多模态王者&140 0 2024-08-07 10:09
-
15 个 AI 模型只有 3 个得分超 50%,SIUO 跑分被提出:评估多模态 AI 模型的安全性
IT之家6月25日消息,最新发表在arXiv的研究论文指出,包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-ModalitySafetyAlignment),提出了一个全新的“安全输入但不安全输出”(SIUO),涉及道德、危险行为、自残、侵犯隐私139 0 2024-06-25 09:15
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——通过区域138 0 2024-05-27 15:48
-
年轻人的第一个多模态大模型:1080Ti 轻松运行,已开源在线可玩
一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。现在只需一句话命令:无论中英文,图片中的大段文字都能分分钟提取出来:对一张图做对象检测,还是能给出具体坐标的那种:这项研究由来自旷视、国科大、华中大的160 0 2024-01-27 18:40