Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,686,406字

标签 > 标签文章：#transformer# (共有12文章)

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

只是换掉Transformer架构，立马性能全方位提升，问鼎同规模开源模型！（注意力机制不存在了）这就是最新FalconMamba7B模型。它采用Mamba状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制，有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列，但内存需求不增加。无论上下文多长，生成每个token的时间基本一样。由此，FalconMamba模型性能全方

69 0 2024-08-13 13:33
革命新架构掀翻 Transformer：无限上下文处理，2 万亿 token 碾压 Llama 2

Transformer王座即将被取而代之！Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon，能够处理无限上下文，在2万亿token训练任务中，性能超越Llama2-7B实现了非凡的效率。继Mamba之后，又一敢于挑战Transformer的架构诞生了！来自Meta、南加州大学（USC）、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon（巨齿鲨）。这

134 0 2024-04-17 23:44
谷歌爆改 Transformer：“无限注意力”让 1B 小模型读完 10 部小说，114 倍信息压缩

谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提出的Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现

151 0 2024-04-12 23:49
华为改进 Transformer 架构：盘古-π 解决特征缺陷问题，同规模性能超 LLaMA

华为盘古系列，带来架构层面上新！华为诺亚方舟实验室等联合推出新型大语言模型架构：盘古-π。它通过增强非线性，在传统Transformer架构上做出改进，由此可以显著降低特征塌陷问题。带来的直接效果就是模型输出表达能力更强。在使用相同数据训练的情况下，盘古-π（7B）在多任务上超越LLaMA2等同规模大模型，并能实现10%的推理加速。在1B规模上可达SOTA。同时还基于这一架构炼出了一个金融法律大模

208 0 2024-01-02 13:07
谷歌 10 秒视频生成模型 VideoPoet 破世界记录！LLM 终结扩散模型，效果碾压顶流 Gen-2

谷歌全新视频生成模型VideoPoet再次引领世界！十秒超长视频生成效果碾压Gen-2，还可进行音频生成，风格转化。AI视频生成，或许就是2024年下一个最前沿（juan）的领域。回看过去几个月，RunWay的Gen-2、PikaLab的Pika1.0，国内大厂等大波视频生成模型纷纷涌现，不断迭代升级。这不，RunWay一大早就宣布Gen-2支持文本转语音的功能了，可以为视频创建画外音。当然，谷歌

210 0 2023-12-21 00:55
Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

微软大模型新架构，正式向Transformer发起挑战！论文标题明晃晃地写道：RetentiveNetwork（RetNet）：大模型领域Transformer的继任者。论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话：RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构，成为大语言模型中Tr

289 0 2023-07-18 13:57
Transformer 八子谷歌一个也没留住，最后一名作者已宣布离职创业

Transformer八子现在全部“出逃”了！彭博社消息，Transformer协作者LlionJones将于本月底离开谷歌。目前他本人在谷歌日本任职，提到离开原因，他本人表示：离开谷歌并不是一个容易的决定，但考虑到AI的发展势头，是时候尝试一些不同的东西了。根据报道，他本人计划先休息一段时间，然后创办一家公司。网友听闻直言：像LlionJones这种大牛自己创业太棒了，祝他一切顺利！AWS的初创

134 0 2023-07-12 13:21
Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

原文标题：《Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界》Transformer，6岁了！2017年，AttentionisAllYouNeed奠基之作问世，至今被引数近8万。这个王者架构还能继续打多久？2017年6月12日，AttentionisAllYouNeed，一声炸雷，大名鼎鼎的Transformer横空出世。它的出现，不

212 0 2023-06-15 12:41
Meta 发布 Megabyte AI 模型抗衡 Transformer：解决后者已知问题、速度提升 4 成

IT之家5月30日消息，近日Meta团队开发了一款名为Megabyte的AI模型以抗衡Transformer，据称Megabyte解决了Transformer模型所面临的问题，并且在速度上提升了40%。▲ 图源Arxiv目前Transformer在自然语言处理等领域非常流行，但由于其序列数据的处理方式是逐步进行的，无法并行化处理，因此训练速度较慢；难以处理长序列，因为其在反向传播过程中，

227 0 2023-05-30 18:11
扩散模型和 Transformer 梦幻联动，一举拿下新 SOTA，MILA 博士：U-Net 已死

“U-Net已死，Transformer成为扩散模型新SOTA了！”就在ChatGPT占尽AI圈风头时，纽约大学谢赛宁的图像生成模型新论文横空出世，收获一众同行惊讶的声音。△MILA在读ML博士生EthanCaballero论文创意性地将Transformer与扩散模型融合，在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM，打破了U-Net统治扩散模型的“普遍认知”。网友给这对

216 0 2022-12-24 17:57
注意力机制作用被高估了？苹果等机构新研究：把注意力矩阵替换成常数矩阵后，性能差异不大

要说Transformer的核心亮点，当然是注意力机制了。但现在，一篇新研究却突然提出了带点火药味的观点：注意力机制对于预训练Transformer有多重要，这事儿得打个问号。研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学，他们提出了一种新的方法，用来衡量注意力机制在预训练Transformer模型中的重要性。结果表明，即使去掉注意力机制，一些Transformer的性能也没太大变化

269 0 2022-11-21 22:20
Transformer 作者出走谷歌创业，专攻通用人工智能，已获得 6500 万美元投资

最近，一家AI初创公司引起了不少人的注意。在推特上宣布成立之时，有不少人为其点赞和转发。一上来就要搞通用人工智能，什么来头？我们看了一下它的创始人名单：AshishVaswani和NikiParmar，这不是大名鼎鼎的Transformer论文作者吗？这篇开山之作引用次数已高达4万，浏览新论文时经常会看到“(Vaswanietal.,2017)”的字样，以至于这个名字都快被刻进DNA了。他们这是，

477 0 2022-04-30 07:38