Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了309,744,939字

标签 > 标签文章:#开源模型# (共有9文章)

  • 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama

    阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama
    感谢IT之家网友西窗旧事的线索投递!IT之家9月19日消息,在今天的2024云栖大会上,阿里云CTO周靖人发布通义千问新一代开源模型Qwen2.5,其中,旗舰模型Qwen2.5-72B号称性能超越Llama405B。Qwen2.5涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架100多个模型。阿里云官方透露,截至2024年9月中旬,通

     118    0    2024-09-19 14:27

  • 零一万物开源 Yi-Coder 系列编程助手模型,支持 52 种编程语言

    零一万物开源 Yi-Coder 系列编程助手模型,支持 52 种编程语言
    IT之家9月5日消息,零一万物今日宣布开源Yi-Coder系列模型,该模型是 Yi系列模型家族中的编程助手。Yi-Coder系列模型专为编码任务而生,提供1.5B和9B两种参数。其中,Yi-Coder-9B的表现号称“优于其他10B参数以下的模型”,如CodeQwen1.57B和CodeGeex49B,甚至能够“与DeepSeek-Coder33B相媲美”。据介绍,Yi-Coder能够处

     114    0    2024-09-05 09:24

  • Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

    Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
    只是换掉Transformer架构,立马性能全方位提升,问鼎同规模开源模型!(注意力机制不存在了)这就是最新FalconMamba7B模型。它采用Mamba状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列,但内存需求不增加。无论上下文多长,生成每个token的时间基本一样。由此,FalconMamba模型性能全方

     70    0    2024-08-13 13:33

  • 小扎自曝砸重金训 Meta Llama 4 模型:24 万块 GPU 齐发力,预计 2025 年发布

    小扎自曝砸重金训 Meta Llama 4 模型:24 万块 GPU 齐发力,预计 2025 年发布
    Llama3.1刚发布不久,Llama4已完全投入训练中。这几天,小扎在二季度财报会上称,Meta将用Llama3的十倍计算量,训练下一代多模态Llama4,预计在2025年发布。这笔账单,老黄又成为最大赢家十倍计算量,是什么概念?要知道,Llama3是在两个拥有24,000块GPU集群完成训练。也就是说,Llama4训练要用24万块GPU。那么,Meta存货还够不够?还记得小扎曾在年初宣布,计划

     102    0    2024-08-05 13:33

  • 阿里云 CTO 周靖人:通义开源模型下载量破 2000 万,坚定拥抱开源

    阿里云 CTO 周靖人:通义开源模型下载量破 2000 万,坚定拥抱开源
    感谢IT之家网友西窗旧事的线索投递!IT之家7月5日消息,在今日的2024上海世界人工智能大会上,阿里云CTO周靖人公布近期通义大模型和阿里云百炼平台的最新进展:近2个月,通义千问开源模型下载量增长2倍,突破2000万次;阿里云百炼服务客户数从9万增长至23万,涨幅超150%。周靖人重申了阿里云拥抱开源开放的坚定立场,“两年前,我们在世界人工智能大会上发布通义大模型系列,当时我们公布,通义核心模型

     105    0    2024-07-05 16:36

  • 腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

    腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型
    IT之家7月4日消息,腾讯混元文生图大模型(混元DiT)今日宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。腾讯混元DiT模型升级腾讯混元DiT模型宣布了三大更新:推出小显存版本与Kohya训练界面,并升级至1

     129    0    2024-07-04 18:54

  • “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

    “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
    IT之家6月3日消息,昆仑万维今日宣布开源2千亿稀疏大模型Skywork-MoE,基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,号称是首个完整将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台RTX 4090服务器(8张RTX4090显卡)推理的开源千亿MoE大模型。据介绍,本次开源的Skywork-MoE模型隶属于天工

     111    0    2024-06-03 18:15

  • IBM 宣布开源其“最先进”Granite 代码模型:116 种编程语言训练,号称优于其他竞品

    IBM 宣布开源其“最先进”Granite 代码模型:116 种编程语言训练,号称优于其他竞品
    IT之家5月21日消息,IBM在年度 THINK 大会上宣布,IBM 现已开源其“最先进”和高性能的 Granite(花岗岩)代码模型。IT之家附开源链接如下:GitHub:点此进入HuggingFace:点此进入Granite 代码模型的参数范围从 3B 到 34B,并且有基础模型和指令跟随模型两种变体,适用于复杂应

     175    0    2024-05-21 17:48

  • 百度李彦宏称开源 AI 模型会越来越落后

    感谢IT之家网友地板轰鸣、雨雪载途的线索投递!IT之家4月16日消息,百度创始人、董事长兼CEO李彦宏今日在Create2024百度AI开发者大会上表示,开源模型会越来越落后。李彦宏介绍,因为基础模型文心4.0可以根据需要,兼顾效果、相应速度、推理成本等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和postpretrain。这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等

     127    0    2024-04-16 11:14

  • 1