-
Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
只是换掉Transformer架构,立马性能全方位提升,问鼎同规模开源模型!(注意力机制不存在了)这就是最新FalconMamba7B模型。它采用Mamba状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列,但内存需求不增加。无论上下文多长,生成每个token的时间基本一样。由此,FalconMamba模型性能全方69 0 2024-08-13 13:33
-
革命新架构掀翻 Transformer:无限上下文处理,2 万亿 token 碾压 Llama 2
Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon,能够处理无限上下文,在2万亿token训练任务中,性能超越Llama2-7B实现了非凡的效率。继Mamba之后,又一敢于挑战Transformer的架构诞生了!来自Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨)。这134 0 2024-04-17 23:44
-
谷歌爆改 Transformer:“无限注意力”让 1B 小模型读完 10 部小说,114 倍信息压缩
谷歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现151 0 2024-04-12 23:49
-
华为改进 Transformer 架构:盘古-π 解决特征缺陷问题,同规模性能超 LLaMA
华为盘古系列,带来架构层面上新!华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。它通过增强非线性,在传统Transformer架构上做出改进,由此可以显著降低特征塌陷问题。带来的直接效果就是模型输出表达能力更强。在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越LLaMA2等同规模大模型,并能实现10%的推理加速。在1B规模上可达SOTA。同时还基于这一架构炼出了一个金融法律大模208 0 2024-01-02 13:07
-
谷歌 10 秒视频生成模型 VideoPoet 破世界记录!LLM 终结扩散模型,效果碾压顶流 Gen-2
谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2,还可进行音频生成,风格转化。AI视频生成,或许就是2024年下一个最前沿(juan)的领域。回看过去几个月,RunWay的Gen-2、PikaLab的Pika1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。这不,RunWay一大早就宣布Gen-2支持文本转语音的功能了,可以为视频创建画外音。当然,谷歌210 0 2023-12-21 00:55
-
Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70%
微软大模型新架构,正式向Transformer发起挑战!论文标题明晃晃地写道:RetentiveNetwork(RetNet):大模型领域Transformer的继任者。论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构,成为大语言模型中Tr289 0 2023-07-18 13:57
-
Transformer 八子谷歌一个也没留住,最后一名作者已宣布离职创业
Transformer八子现在全部“出逃”了!彭博社消息,Transformer协作者LlionJones将于本月底离开谷歌。目前他本人在谷歌日本任职,提到离开原因,他本人表示:离开谷歌并不是一个容易的决定,但考虑到AI的发展势头,是时候尝试一些不同的东西了。根据报道,他本人计划先休息一段时间,然后创办一家公司。网友听闻直言:像LlionJones这种大牛自己创业太棒了,祝他一切顺利!AWS的初创134 0 2023-07-12 13:21
-
Transformer 全新里程碑,诞生 6 年,开山之作被引近 8 万
原文标题:《Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界》Transformer,6岁了!2017年,AttentionisAllYouNeed奠基之作问世,至今被引数近8万。这个王者架构还能继续打多久?2017年6月12日,AttentionisAllYouNeed,一声炸雷,大名鼎鼎的Transformer横空出世。它的出现,不212 0 2023-06-15 12:41
-
Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升 4 成
IT之家5月30日消息,近日Meta团队开发了一款名为Megabyte的AI模型以抗衡Transformer,据称Megabyte解决了Transformer模型所面临的问题,并且在速度上提升了40%。▲ 图源Arxiv目前Transformer在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢;难以处理长序列,因为其在反向传播过程中,227 0 2023-05-30 18:11
-
扩散模型和 Transformer 梦幻联动,一举拿下新 SOTA,MILA 博士:U-Net 已死
“U-Net已死,Transformer成为扩散模型新SOTA了!”就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。△MILA在读ML博士生EthanCaballero论文创意性地将Transformer与扩散模型融合,在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM,打破了U-Net统治扩散模型的“普遍认知”。网友给这对216 0 2022-12-24 17:57
-
注意力机制作用被高估了?苹果等机构新研究:把注意力矩阵替换成常数矩阵后,性能差异不大
要说Transformer的核心亮点,当然是注意力机制了。但现在,一篇新研究却突然提出了带点火药味的观点:注意力机制对于预训练Transformer有多重要,这事儿得打个问号。研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学,他们提出了一种新的方法,用来衡量注意力机制在预训练Transformer模型中的重要性。结果表明,即使去掉注意力机制,一些Transformer的性能也没太大变化269 0 2022-11-21 22:20
-
Transformer 作者出走谷歌创业,专攻通用人工智能,已获得 6500 万美元投资
最近,一家AI初创公司引起了不少人的注意。在推特上宣布成立之时,有不少人为其点赞和转发。一上来就要搞通用人工智能,什么来头?我们看了一下它的创始人名单:AshishVaswani和NikiParmar,这不是大名鼎鼎的Transformer论文作者吗?这篇开山之作引用次数已高达4万,浏览新论文时经常会看到“(Vaswanietal.,2017)”的字样,以至于这个名字都快被刻进DNA了。他们这是,477 0 2022-04-30 07:38