Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,783,908字

标签 > 标签文章：#llm# (共有7文章)

大模型最强架构 TTT 问世！斯坦福 UCSD 等 5 年磨一剑，一夜推翻 Transformer

感谢IT之家网友刺客的线索投递！一觉醒来，超越Transformer和Mamba的新架构诞生了？斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。论文地址：https://arxiv.org/abs/2407.04620这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为“测试时间训练层（Test-Time-Trainingla

125 0 2024-07-09 14:48
你也喜欢 72？大语言模型最喜欢的随机数揭晓

计算机程序可以生成很像真随机的「伪随机数」，而LLM表示，干脆不装了，我就有自己最喜欢的数。计算机程序中，「随机」是一个常见的概念。由于生成真正的随机数过于昂贵，所以Python、Java等语言都内置了「伪随机数生成算法」。虽然生成的数字序列是完全可预测的，但它看起来就像是真正的随机数。一个好的随机数生成器会以相等的概率选择给定范围内的所有数字。这和人类选择随机数的思维过程完全不同。比如，我们会故

111 0 2024-06-28 23:15
两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构LAION的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了LLM基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的LLM全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难——「爱丽丝有N个兄弟，她还有M个姐妹。爱丽

130 0 2024-06-10 17:45
面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢IT之家网友Apllo的线索投递！IT之家5月21日消息，面壁智能昨晚推出并开源MiniCPM系列最新的端侧多模态模型MiniCPM-Llama3-V2.5，支持30+种语言，宣称可实现：最强端侧多模态综合性能：超越GeminiPro、GPT-4VOCR能力SOTA（IT之家注：State-of-the-Art）：9倍像素更清晰，难图长图长文本精准识别图像编码快150倍：首次端侧系统级多模态加

163 0 2024-05-21 16:09
面壁智能发布 Eurux-8x22B 开源大模型：代码性能超越 Llama3-70B

感谢IT之家网友風見暉一的线索投递！IT之家5月3日消息，面壁智能发布开源大模型Eurux-8x22B，包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO，主打推理能力。官方测试中，Eurux-8x22B在 LeetCode（180道LeetCode编程真题）与 TheoremQA（IT之家注：美国大学水准的STEM题目）测试

143 0 2024-05-03 23:54
Stability AI 推出 Stable LM 3B 语言模型，号称“可为移动平台设备带来高性能体验”

IT之家10月3日消息，StabilityAI昨日发布公告，介绍了旗下一款名为StableLM3B的语言模型，号称适用于移动平台设备，“可为相关设备带来可持续、高性能的体验”。▲图源 StabilityAIIT之家从公告中得知，这款StableLM3B模型包含30亿个参数，主打文本生成，拥有基于变换器解码器架构的自回归体系，并使用了多个开源大规模数据集进行训练。▲图源 Stab

239 0 2023-10-03 18:17
「多模态 LLM」最新介绍，数据、论文集直接打包带走

全面了解多模态大语言模型，首个跟踪MLLM进展的论文集合发布。进展跟踪链接（Awesome-MLLM，实时更新）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models近年来，大型语言模型LargeLanguageModels（LLM）的研究取得了显著的进展（例如GPT-3，LLaMa，ChatGPT，GPT-4），这

468 0 2023-06-11 13:27