#gpt4#_标签文章_Nemo社区_LinkNemo_关于分享和探索的好地方

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家4月7日消息，本周早些时候，《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了AI公司处理此问题的一些方法，其中涉及到属于AI版权法模糊灰色区域的内容。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。报道提到，OpenAI

Echo

178

0

2024-04-07 07:03

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

IT之家3月28日消息，根据LMSYSOrg公布的最新基准测试报告，Claude-3 得分以微弱优势超越GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下LMSYSOrg，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出ChatbotArena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，

Echo

154

0

2024-03-28 13:53

OpenAI 的 GPT 商店审核失控：被指充斥侵权和垃圾内容

IT之家3月21日消息，旨在提供从编程辅助到健身建议等各种功能的GPT模型的OpenAIGPT商店正面临质量和合规性问题。据TechCrunch调查，该商店存在大量涉嫌侵犯版权的GPT模型，例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT或“米奇老鼠”GPT。IT之家注意到，尽管OpenAI采用了结合自动检测和人工审查的审核制度，但大量的GPT模型显然逃过了审核。另一个问题是学术诚信，一些G

Echo

144

0

2024-03-21 17:25

OpenAI 官方博客提前泄露 GPT-4.5 Turbo，有望今年夏天发布

IT之家3月13日消息，OpenAI近期可能意外泄露了旗下即将发布的GPT-4.5Turbo大型语言模型信息。网友发现，OpenAI博客上疑似上线了一篇有关GPT-4.5Turbo的文章，但该页面目前已被撤回，搜索引擎也无法再检索到相关信息。泄露的信息显示，GPT-4.5Turbo将在速度、准确性和可扩展性方面全面超越其前代GPT-4Turbo。更关键的是，泄露的描述中提到了该模型的“知识截止日期

Echo

182

0

2024-03-13 21:06

万物皆可《毁灭战士》，专家利用 GPT-4V 模型运行该游戏

IT之家3月13日消息，英国约克大学研究员AdriandeWynter近日发表研究论文《WillGPT-4RunDOOM?》，探讨了如何让GPT-4V模型来玩《毁灭战士》游戏。deWynter为此设计了一个系统，使用GPT-4V（GPT4的多模态衍生版本，可以接收图像作为输入）捕捉游戏引擎的画面截图，并返回游戏状态的结构化描述。他设计了一个Agent模型，根据视觉输入信息，并对比此前历史记录作出决

Echo

209

0

2024-03-13 10:22

Claude 3 成功破解未公开算法？智商测试 101 分碾压 GPT-4

新智元报道编辑：编辑部【新智元导读】网友测试Claude之后惊呼：实测比跑分厉害多了！智商测试中碾压GPT-4，得分高达101。而且能发现量子物理学家还未发表的量子算法。Claude3上线之后，网友开始疯狂测试，实测效果确实惊人。不少网友体感Claude3超大杯确实强，实测已经达到了博士水平：这实在太疯狂了！Claude是唯一理解我的量子物理学博士论

Echo

187

0

2024-03-06 23:19

新王 Claude 3 实测！各项能力给跪，打麻将也会，确实比 GPT-4 好用

OpenAI不可战胜的神话，已经被打破了。随着Claude3（支持中文）一夜登陆，榜单性能跑分全面超越GPT-4，成为首个全面超越GPT-4的产品，也坐上了全球最强大模型新王座。而且多版本发布后，“中杯”（Sonnet）直接免费体验，“大杯”（Opus）充个会员也能即刻享受。各路测评纷至沓来。所以，Claude3的“武力值”究竟如何爆满？究竟比GPT-4如何？（听说都能学会至今没有模型能搞定的打麻

Echo

214

0

2024-03-05 14:25

打脸奥特曼，GPT-4 今年比去年还懒！网友在线实测出炉

GPT-4变懒的问题，又有新进展。就在今天凌晨，奥特曼发推称，GPT-4这个毛病在新的一年应该好多了！关于GPT-4变懒，网友的吐槽已是不计其数，其中最多的就是与代码相关的任务：完成度不高不说，还会被分割成一个一个小块，使用时需要逐一复制。对于最新版本，一位博主体验之后表示，自己尝试给一年级的孩子做了个学习用的小游戏，效果还不错。但也有人不认同，比如这位网友就发现，ChatGPT回复的长度虽然增加

Echo

178

0

2024-02-05 13:36

谷歌 Gemini 大逆转？斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

新智元报道编辑：编辑部【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力，真的比GPT-4弱吗？此前，谷歌憋出的重磅复仇神器GeminiPro，被发现在常识推理任务中落后于OpenAI的GPT模型。之后又有CMU发布的

Echo

189

0

2024-01-02 19:14

GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

新智元报道编辑：Mindy润【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI，还任重道远！GPT-4，可能是目前最强大的通用语言大模型。一经发布，除了感叹它在各种任务上的出色表现之外，大家也纷纷提出疑问：GPT-4是AGI吗？他真的预示了AI取代

Echo

200

0

2024-01-01 23:20

GPT-4 API 曝出重大漏洞：15 个样本微调，一句 prompt 秒生恶意代码供出私人信息

即便是GPT-4API「灰盒」也逃不过安全漏洞。FARAI实验室的团队从微调、函数调用、搜索增强三个方向入手，成功让GPT-4越狱。GPT-4API竟被曝出重大安全漏洞！OpenAI首届开发者大会上全面更新了GPT-4模型，包括微调API，新增函数调用API，以及搜索增强API。如今，来自美国加州实验室FARAI的团队从这三大方向，对GPT-4API开启「红队」攻击测试。没想到，GPT-4竟能成功

Echo

209

0

2023-12-27 23:55

GPT-4 搞科研登 Nature！布洛芬配方轻松拿捏，诺奖得主提出的复杂反应也能完成

AI大模型“化学家”登Nature！能够自制阿司匹林、对乙酰氨基酚、布洛芬的那种。就连复杂的钯催化交叉偶联反应，也能完成！要知道，2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的，这类反应可以高效地构建碳-碳键，生成很多以往很难甚至无法合成的物质。而现在名为Coscientist，基于GPT-4等大模型的AI系统，可快速准确地自主完成检索信息、规划及设计实验、编写程序、远程操控自动化系统做

Echo

177

0

2023-12-21 13:04

谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

谷歌Gemini实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样，用CoT@32对比5-shot了。一句话结果：GeminiPro版本接近但略逊于GPT-3.5Turbo，GPT-4还是遥遥领先。在深入分析中还发现Gemini一些奇怪特性，比如选择题喜欢选D……不少研究者表示，太卷了，

Echo

225

0

2023-12-21 00:55

GPT-4 化身邪恶化学家！中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型

来自中科大等机构的联合团队提出了一种全新的方法——SciGuard，可以保护AIforScience模型，防止生物、化学、药物等领域模型不会被不当使用。与此同时，团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。「我们的实验失控了！这是我们自己创造的末日！」——《后天》（TheDayAfterTomorrow）在科幻电影中，疯狂科学家通常是造成末日灾难的主角，而AI技术

Echo

232

0

2023-12-19 00:07

Mistral 携微软引爆“小语言模型”风潮：代码能力完胜 GPT-4，成本仅有 1/3

小模型的风潮，最近愈来愈盛，Mistral和微软分别有所动作。而网友实测发现，Mistral-medium的代码能力竟然完胜了GPT-4，而所花成本还不到三分之一。最近，「小语言模型」忽然成为热点。本周一，刚刚完成4.15亿美元融资的法国AI初创公司Mistral，发布了Mixtral8x7B模型。这个开源模型尽管尺寸不大，小到足以在一台内存100GB以上的电脑上运行，然而在某些基准测试中却能和G

Echo

209

0

2023-12-18 00:12

UC 伯克利发现 GPT-4 惊人缺陷：儿童从经验中学习因果，LLM 却不行

新智元报道编辑：拉燕【新智元导读】最近，UC伯克利的一项研究揭示了LLM和小孩子们在认知上的一项重要差别——创造新的因果结构的能力。大家有没有想过一个问题，LLM和小朋友们，有什么差别？你可能会说，LLM有那么多训练数据集，经过了那么多次微调，还不全方位秒杀小朋友们？但是，最近UC伯克利的一篇论文却显示，LLM和孩童相比，欠缺了一项很重要的能力。那就

Echo

150

0

2023-12-17 12:53

ChatGPT 变懒原因：正在给自己放寒假！已被网友测出

ChatGPT近期偷懒严重，有了一种听起来很离谱的解释：模仿人类，自己给自己放寒假了～有测试为证，网友@RobLynch用GTP-4turboAPI设置了两个系统提示：一个告诉它现在是5月，另一个告诉它现在是12月。然后使用完全相同的提示词要求GTP-4“完成一个机器学习相关的编码任务”。在这两种不同时间设定下对477个回复进行统计，结果12月的输出平均少了200字符：系统提示为5月，生成的文本平

Echo

183

0

2023-12-13 15:35

首个 GPT-4 驱动的人形机器人！无需编程 + 零样本学习，还可根据口头反馈调整行为

让GPT-4操纵人形机器人，事先不做任何编程or训练，能搞成啥样儿？答案是：太猎奇了！这不，要求机器人表演“在昏暗电影院里狂炫爆米花，却突然发现吃的是隔壁陌生人的😅”。在GPT-4的操纵下，机器人笑容凝固，“尴尬”地摇头扶额后仰：但在尴尬之余，竟然还不忘再抓一把塞嘴里？？？又像是要求机器人“弹吉他”。GPT-4略思考一番，开始操控机器人活动一番手指、随后疯狂甩头，好像是有点摇滚内味儿。但仔细一看

Echo

182

0

2023-12-13 15:16

OpenAI 宣布近期修复 GPT-4“变懒”问题，将在离线评估及 A / B 测试后更新模型

IT之家12月11日消息，OpenAI在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenAI 承认了这一事实，并在声称将彻底、妥当地修复相关问题。OpenAI此前解释称，GPT-4变懒惰的原因是，OpenAI从 11月11日起就未

Echo

221

0

2023-12-11 23:57

一句话解锁 100k + 上下文大模型真实力，27 分涨到 98，GPT-4、Claude2.1 适用

各家大模型纷纷卷起上下文窗口，Llama-1时标配还是2k，现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现，大部分人用法都不对，没发挥出AI应有的实力。AI真的能从几十万字中准确找到关键事实吗？颜色越红代表AI犯的错越多。默认情况下，GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。但Claude团队了解情况后，给出超简单解决办法，增加一句话，直接把成绩从

Echo

172

0

2023-12-11 14:31

标签文章：#gpt4#