#gpt4#_标签文章_Nemo社区_LinkNemo_关于分享和探索的好地方

谷歌 OpenAI 大模型巅峰对决！Gemini 激战 GPT-4，数学代码却惨遭碾压

新智元报道编辑：Aeneas好困【新智元导读】大模型巅峰对决开启，Gemini和GPT-4展开大pk！代码和数学Gemini惨遭GPT-4碾压，但要论讲笑话和写作，它的答案却意外的好笑。被谷歌寄予厚望的复仇杀器Gemini，是否能够如愿单挑ChatGPT？最近几天，外媒记者和网友们纷纷放出实测，比较了GeminiPro加持的新Bard与GPT-3.5

Echo

208

0

2023-12-10 15:31

微软仅凭「提示工程」让 GPT-4 成医学专家！超过一众高度微调模型，专业测试准确率首次超 90%

微软最新研究再次证明了提示工程的威力——无需额外微调，无需专家策划，仅凭提示，GPT-4就能化身“专家”。使用他们提出的最新提示策略Medprompt，在医疗专业领域，GPT-4在MultiMedQA九个测试集中取得最优结果。在MedQA数据集(美国医师执照考试题)上，Medprompt让GPT-4的准确率首次超过90%，超越BioGPT和Med-PaLM等一众微调方法。研究人员还表示Medpro

Echo

161

0

2023-12-04 16:01

文字序顺不响影 GPT-4 阅读理解，别的大模型都不行

研表究明，汉字序顺并不定一影阅响读（对于英文来说，则是每一个单词中的字母顺序）。现在，日本东京大学的一项实验发现，这个“定理”居然也适合GPT-4。比如面对这样一段“鬼画符”，几乎里面每一个单词的每一个字母都被打乱：oJnamRhwnohet2023MeatsrsermtnoTunanoduySantaatgsuAuntaaNloiGflobClu,gnelcinhiishifsrtneregec

Echo

167

0

2023-12-04 15:52

消息称谷歌 CEO 推迟 Gemini 模型发布计划，因无法可靠处理部分非英语查询

IT之家12月3日消息，据TheInformation当地时间周六报道，两位知情人士透露称谷歌已经悄然将自家AI大模型Gemini的公开亮相时间推迟到了明年1月。而在此之前，Gemini的“首秀”和一系列相关活动原计划下周在加州、纽约和华盛顿等地举行。根据其中一名知情人士的说法，推迟的决定是由谷歌CEO桑达尔・皮查伊作出的，因为谷歌发现Gemini无法可靠地处理一些非英语查询指令。报道称，Gemi

Echo

212

0

2023-12-03 16:03

GPT-4 惨遭削弱，偷懒摸鱼绝不多写一行代码，OpenAI 已介入调查

GPT-4再次遭网友“群攻”，原因是“懒”得离谱！有网友想在Android系统开发一个能够与OpenAIAPI实时交互的应用。于是把方法示例链接发给GPT-4，让它参考用Kotlin语言编写代码：没成想，和GPT-4一来二去沟通半天，GPT-4死活给不出一个能正常运行的完整代码。反而解释了一通“应该怎么做”。这让网友着实恼火，发推文吐槽“两周前能写好的代码，现在却不行了”。结果一下子炸出来更多网友

Echo

204

0

2023-11-29 15:09

比尔盖茨：GPT-5 不会比 GPT-4 好多少，生成式 AI 已达到极限

比尔・盖茨一句爆料，成为机器学习社区热议焦点：“GPT-5不会比GPT-4好多少。”虽然他已不再正式参与微软的日常运营，但仍在担任顾问，并且熟悉OpenAI领导团队的想法。消息来自德国《商报》（Handelsblatt）对盖茨的采访。盖茨表示，OpenAI内部包括奥特曼在内的很多人，都相信GPT-5将明显优于GPT-4。但他认为，有很多理由相信，当前生成式人工智能已经达到极限。（不过他也承认自己可

Echo

136

0

2023-11-27 17:33

AI 聊天机器人 Claude 2.1 版本公布，支持输入 20 万个 Token 超 GPT-4 Turbo

IT之家11月23日消息，OpenAI竞争对手Anthropic日前推出了Claude2.1聊天机器人及对应同名AI模型，Claude2.1支持输入多达20万个Token，并改善了准确度，同时新增系统预设提示词（SystemPrompt）功能。官方介绍称，此前 Claude2.0 单次回话只支持10万个Token，而Claude2.1支持输入多达20万个Token，相当于15万

Echo

199

0

2023-11-23 14:04

GPT-4 不会图形推理？“放水”后准确率依然只有 33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。△虚线表示16项任务的平均表现这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。但另一边，不少网友对这个结论也有所质疑，

Echo

247

0

2023-11-20 23:27

ChatGPT 网页版现重大 Bug，修改网址即可一键令 GPT-3.5“升级”为 4.0

IT之家11月17日消息，据X平台多名用户反馈，ChatGPT网页版日前出现了重大漏洞，只需修改网址即可一键令GPT-3.5版本“升级”为4.0。据悉，用户只需进入ChatGPT官网聊天页，在网址后加上“/?model=gpt-4-gizmo”，即可使用GPT-4.0，显然是鉴权系统上出现了严重“临时工”级Bug。不过目前官方似乎已经意识到了这个Bug的存在，正在着手修复中，部分用户依然可以通过简

Echo

214

0

2023-11-17 12:05

比 Siri 更懂 iPhone！GPT-4V 可“操作”手机完成任意指令，无需训练

GPT-4V，就是Siri终结的开始。一项研究发现：无需任何训练，GPT-4V就能直接像人类一样与智能手机进行交互，完成各种指定命令。比如让它在50-100美元的预算内购买一个打奶泡的工具。它就能像下面这样一步一步地完成选择购物程序（亚马逊）并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。根据测试，GPT-4V在iPhone上完成类似任务的成功率

Echo

170

0

2023-11-15 23:22

不到 1 分钟开发一个 GPT 应用！各路大神疯狂整活，网友：ChatGPT 就是新 iPhone

还没正式开放的GPTs，竟然已经有人先“抢跑”了？！这不，各路提前获得内测资格的大神们，脑洞已经刹不住车了。直接做个交互网站设计GPT，分分钟从草图出预览：△图源推特SawyerHood又或是整个图片转GIF的GPT，一下子就能让猫猫动起来。△图源推特NickDobos连Midjourney大神都来围观，要做个写Midjourney提示词的专属GPT（在DALL・E3面前何尝不是一种NTR）没能玩

Echo

192

0

2023-11-08 23:23

大跌眼镜！GPT-4V 错觉挑战实录：该错的没错，不该错的反而错了

GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题，一个没做对：读图片中隐藏信息的也傻傻看不出，怎么问都说“没有啊”：但是呢，这种人类乍一看绝对会错的图，它又成功答对：以及这样的错位图，它对了又没完全对。。（GPT-4V直接看出来头盔是位于男的大腿上的，没有女的，但它还是表示图里有俩人，另一个躲在男的身后戴着那顶头盔==）看完这些，是不是觉得很迷？整个一“该对的不对，

Echo

201

0

2023-11-06 16:09

GPT-4V 学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

GPT-4V学会自动操纵电脑，这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘，它就能根据浏览器界面上网：甚至还能快速摸清楚“播放音乐”的播放器网站和按钮，给自己来一段music：是不是有点细思极恐了？这是一个MIT本科生小哥整出来的新活，名叫GPT-4V-Act。只需要几个简单的工具，GPT-4V就能学会控制你的键盘和鼠标，用浏览器上网发帖、买东西甚至是玩游戏。要是用到的工具出bug了，

Echo

163

0

2023-11-05 21:52

OpenAI 首届开发者大会最新爆料：全新 UI 可定制 GPT，xAI 大模型大范围可用

【新智元导读】OpenAI首届开发者大会开启前，ChatGPT各种爆料已出，全新UI界面，人人可定制GPT，将引领「智能体工程师」新职业诞生。另一边，马斯克自家的xAI大模型也开启了大范围内测。OpenAI首届开发者大会，开启了倒计时！还记得周一，OpenAI悄无声息地解禁了ChatGPT的两大能力：一是上传PDF、数据文档等文件，另一个是无需转换即可使用所有工具。这不，OpenAI开发者论坛上，

Echo

149

0

2023-11-05 16:38

GPT-4 变笨加剧，被曝缓存历史回复：一个笑话讲八百遍，让换新的也不听

有网友找到了GPT-4变“笨”的又一证据。他质疑：OpenAI会缓存历史回复，让GPT-4直接复述以前生成过的答案。最明显的例子就是讲笑话。证据显示，即使他将模型的temperature值调高，GPT-4仍重复同一个“科学家与原子”的回答。就是那个“为什么科学家不信任原子？因为万物都是由它们编造/构造（makeup）出来的”的冷笑话。在此，按理说temperature值越大，模型越容易生成一些意想

Echo

189

0

2023-11-02 15:13

最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench，全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V直接犯了致命的安全错误，竟然认为红灯可

Echo

195

0

2023-10-31 15:24

国外 Java 工程师力证：GPT-4 不能解决逻辑谜题，但确实具备推理能力

【新智元导读】IMGArena的高级软件工程师JohanLAJILI认为在LLM能够理解概念、通过图灵测试时，我们就该承认它具有推理能力了。GPT-4或LLM有推理能力吗？这是个存在已久的争议性问题。有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索，并不具备真正的推理能力。但也有大量的论文研究宣称LLM在多项推理任务中表现优异。现在，来自IMGArena的高级软件工程师JohanLAJ

Echo

189

0

2023-10-30 15:38

GPT-4 不知道自己错了！ LLM 新缺陷曝光，自我纠正成功率仅 1%

【新智元导读】GPT-4根本不知道自己犯错？最新研究发现，LLM在推理任务中，自我纠正后根本无法挽救性能变差，引AI大佬LeCun马库斯围观。大模型又被爆出重大缺陷，引得LeCun和马库斯两位大佬同时转发关注！在推理实验中，声称可以提高准确性的模型自我纠正，把正确率从16%「提高」到了1%！简单来说，就是LLM在推理任务中，无法通过自我纠正的形式来改进输出，除非LLM在自我纠正的过程中已经知道了正

Echo

155

0

2023-10-22 15:22

全都不及格！斯坦福 100 页论文给大模型透明度排名，GPT-4 仅排第三

试问百模大战的当下，谁家大模型的透明度最高？（例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。）现在，这个问题终于有解了。因为斯坦福大学HAI等研究机构最新共同发布了一项研究——专门设计了一个名为基础模型透明度指标（TheFoundationModelTransparencyIndex）的评分系统。它从100个维度对国外10家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。结

Echo

153

0

2023-10-19 14:59

微软报告称 GPT-4 易受“越狱”提示词影响，生成不良内容

IT之家10月18日消息，微软旗下研究团队近日发表论文，详细研究了大型语言模型(LLM)的“可信度”和潜在毒性，特别关注OpenAI的GPT-4及其前代 GPT-3.5。研究团队，GPT-4虽然在标准基准测试中比GPT-3.5更加可靠，但容易受到“越狱”提示（绕过模型安全措施）影响。GPT-4可能会根据这些“越狱”提示，生成有害内容。论文中强调GPT-4更容易受到恶意“越狱”系统或用户提

Echo

369

0

2023-10-18 09:39

标签文章：#gpt4#