Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了300,193,658字

标签 > 标签文章：#mpgemm# (共有1文章)

CPU 反超 NPU：LLM 端侧部署新范式 T-MAC 开源，llama.cpp 生成速度翻 5 倍

T-MAC是一种创新的基于查找表（LUT）的方法，专为在CPU上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。为增强设备上的智能性，在边缘设备部署大型语言模型（LLMs）成为了一个趋势，比如微软的Windows11AI+PC。目前部署的大语言模型多会量化到低比特。然而，低比特LLMs在推理过程

65 0 2024-08-13 23:15