Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了309,783,908字

标签 > 标签文章:#llm# (共有7文章)

  • 大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻 Transformer

    大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻 Transformer
    感谢IT之家网友刺客的线索投递!一觉醒来,超越Transformer和Mamba的新架构诞生了?斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构,用机器学习模型取代RNN的隐藏状态。论文地址:https://arxiv.org/abs/2407.04620这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为“测试时间训练层(Test-Time-Trainingla

     125    0    2024-07-09 14:48

  • 你也喜欢 72?大语言模型最喜欢的随机数揭晓

    你也喜欢 72?大语言模型最喜欢的随机数揭晓
    计算机程序可以生成很像真随机的「伪随机数」,而LLM表示,干脆不装了,我就有自己最喜欢的数。计算机程序中,「随机」是一个常见的概念。由于生成真正的随机数过于昂贵,所以Python、Java等语言都内置了「伪随机数生成算法」。虽然生成的数字序列是完全可预测的,但它看起来就像是真正的随机数。一个好的随机数生成器会以相等的概率选择给定范围内的所有数字。这和人类选择随机数的思维过程完全不同。比如,我们会故

     111    0    2024-06-28 23:15

  • 两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

    两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
    感谢IT之家网友刺客的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难——「爱丽丝有N个兄弟,她还有M个姐妹。爱丽

     130    0    2024-06-10 17:45

  • 面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

    面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机
    感谢IT之家网友Apllo的线索投递!IT之家5月21日消息,面壁智能昨晚推出并开源MiniCPM系列最新的端侧多模态模型MiniCPM-Llama3-V2.5,支持30+种语言,宣称可实现:最强端侧多模态综合性能:超越GeminiPro、GPT-4VOCR能力SOTA(IT之家注:State-of-the-Art):9倍像素更清晰,难图长图长文本精准识别图像编码快150倍:首次端侧系统级多模态加

     163    0    2024-05-21 16:09

  • 面壁智能发布 Eurux-8x22B 开源大模型:代码性能超越 Llama3-70B

    面壁智能发布 Eurux-8x22B 开源大模型:代码性能超越 Llama3-70B
    感谢IT之家网友風見暉一的线索投递!IT之家5月3日消息,面壁智能发布开源大模型Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。官方测试中,Eurux-8x22B在 LeetCode(180道LeetCode编程真题)与 TheoremQA(IT之家注:美国大学水准的STEM题目)测试

     143    0    2024-05-03 23:54

  • Stability AI 推出 Stable LM 3B 语言模型,号称“可为移动平台设备带来高性能体验”

    Stability AI 推出 Stable LM 3B 语言模型,号称“可为移动平台设备带来高性能体验”
    IT之家10月3日消息,StabilityAI昨日发布公告,介绍了旗下一款名为StableLM3B的语言模型,号称适用于移动平台设备,“可为相关设备带来可持续、高性能的体验”。▲图源 StabilityAIIT之家从公告中得知,这款StableLM3B模型包含30亿个参数,主打文本生成,拥有基于变换器解码器架构的自回归体系,并使用了多个开源大规模数据集进行训练。▲图源 Stab

     239    0    2023-10-03 18:17

  • 「多模态 LLM」最新介绍,数据、论文集直接打包带走

    「多模态 LLM」最新介绍,数据、论文集直接打包带走
    全面了解多模态大语言模型,首个跟踪MLLM进展的论文集合发布。进展跟踪链接(Awesome-MLLM,实时更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models近年来,大型语言模型LargeLanguageModels(LLM)的研究取得了显著的进展(例如GPT-3,LLaMa,ChatGPT,GPT-4),这

     468    0    2023-06-11 13:27

  • 1