Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了300,193,658字

标签 > 标签文章:#mpgemm# (共有1文章)

  • CPU 反超 NPU:LLM 端侧部署新范式 T-MAC 开源,llama.cpp 生成速度翻 5 倍

    CPU 反超 NPU:LLM 端侧部署新范式 T-MAC 开源,llama.cpp 生成速度翻 5 倍
     T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重反量化,支持混合精度矩阵乘法(mpGEMM),显著降低了推理开销并提升了计算速度。为增强设备上的智能性,在边缘设备部署大型语言模型(LLMs)成为了一个趋势,比如微软的Windows11AI+PC。目前部署的大语言模型多会量化到低比特。然而,低比特LLMs在推理过程

     65    0    2024-08-13 23:15

  • 1