标签文章:#gpt4#
-
谷歌 OpenAI 大模型巅峰对决!Gemini 激战 GPT-4,数学代码却惨遭碾压
新智元报道 编辑:Aeneas好困【新智元导读】大模型巅峰对决开启,Gemini和GPT-4展开大pk!代码和数学Gemini惨遭GPT-4碾压,但要论讲笑话和写作,它的答案却意外的好笑。被谷歌寄予厚望的复仇杀器Gemini,是否能够如愿单挑ChatGPT?最近几天,外媒记者和网友们纷纷放出实测,比较了GeminiPro加持的新Bard与GPT-3.5
-
微软仅凭「提示工程」让 GPT-4 成医学专家!超过一众高度微调模型,专业测试准确率首次超 90%
微软最新研究再次证明了提示工程的威力——无需额外微调,无需专家策划,仅凭提示,GPT-4就能化身“专家”。使用他们提出的最新提示策略Medprompt,在医疗专业领域,GPT-4在MultiMedQA九个测试集中取得最优结果。在MedQA数据集(美国医师执照考试题)上,Medprompt让GPT-4的准确率首次超过90%,超越BioGPT和Med-PaLM等一众微调方法。研究人员还表示Medpro
-
文字序顺不响影 GPT-4 阅读理解,别的大模型都不行
研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)。现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱:oJnamRhwnohet2023MeatsrsermtnoTunanoduySantaatgsuAuntaaNloiGflobClu,gnelcinhiishifsrtneregec
-
消息称谷歌 CEO 推迟 Gemini 模型发布计划,因无法可靠处理部分非英语查询
IT之家12月3日消息,据TheInformation当地时间周六报道,两位知情人士透露称谷歌已经悄然将自家AI大模型Gemini的公开亮相时间推迟到了明年1月。而在此之前,Gemini的“首秀”和一系列相关活动原计划下周在加州、纽约和华盛顿等地举行。根据其中一名知情人士的说法,推迟的决定是由谷歌CEO桑达尔・皮查伊作出的,因为谷歌发现Gemini无法可靠地处理一些非英语查询指令。报道称,Gemi
-
GPT-4 惨遭削弱,偷懒摸鱼绝不多写一行代码,OpenAI 已介入调查
GPT-4再次遭网友“群攻”,原因是“懒”得离谱!有网友想在Android系统开发一个能够与OpenAIAPI实时交互的应用。于是把方法示例链接发给GPT-4,让它参考用Kotlin语言编写代码:没成想,和GPT-4一来二去沟通半天,GPT-4死活给不出一个能正常运行的完整代码。反而解释了一通“应该怎么做”。这让网友着实恼火,发推文吐槽“两周前能写好的代码,现在却不行了”。结果一下子炸出来更多网友
-
比尔盖茨:GPT-5 不会比 GPT-4 好多少,生成式 AI 已达到极限
比尔・盖茨一句爆料,成为机器学习社区热议焦点:“GPT-5不会比GPT-4好多少。”虽然他已不再正式参与微软的日常运营,但仍在担任顾问,并且熟悉OpenAI领导团队的想法。消息来自德国《商报》(Handelsblatt)对盖茨的采访。盖茨表示,OpenAI内部包括奥特曼在内的很多人,都相信GPT-5将明显优于GPT-4。但他认为,有很多理由相信,当前生成式人工智能已经达到极限。(不过他也承认自己可
-
AI 聊天机器人 Claude 2.1 版本公布,支持输入 20 万个 Token 超 GPT-4 Turbo
IT之家11月23日消息,OpenAI竞争对手Anthropic日前推出了Claude2.1聊天机器人及对应同名AI模型,Claude2.1支持输入多达20万个Token,并改善了准确度,同时新增系统预设提示词(SystemPrompt)功能。官方介绍称,此前 Claude2.0 单次回话只支持10万个Token,而Claude2.1支持输入多达20万个Token,相当于15万
-
GPT-4 不会图形推理?“放水”后准确率依然只有 33%
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。△虚线表示16项任务的平均表现这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。但另一边,不少网友对这个结论也有所质疑,
-
ChatGPT 网页版现重大 Bug,修改网址即可一键令 GPT-3.5“升级”为 4.0
IT之家11月17日消息,据X平台多名用户反馈,ChatGPT网页版日前出现了重大漏洞,只需修改网址即可一键令GPT-3.5版本“升级”为4.0。据悉,用户只需进入ChatGPT官网聊天页,在网址后加上“/?model=gpt-4-gizmo”,即可使用GPT-4.0,显然是鉴权系统上出现了严重“临时工”级Bug。不过目前官方似乎已经意识到了这个Bug的存在,正在着手修复中,部分用户依然可以通过简
-
比 Siri 更懂 iPhone!GPT-4V 可“操作”手机完成任意指令,无需训练
GPT-4V,就是Siri终结的开始。一项研究发现:无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。比如让它在50-100美元的预算内购买一个打奶泡的工具。它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。根据测试,GPT-4V在iPhone上完成类似任务的成功率
-
不到 1 分钟开发一个 GPT 应用!各路大神疯狂整活,网友:ChatGPT 就是新 iPhone
还没正式开放的GPTs,竟然已经有人先“抢跑”了?!这不,各路提前获得内测资格的大神们,脑洞已经刹不住车了。直接做个交互网站设计GPT,分分钟从草图出预览:△图源推特SawyerHood又或是整个图片转GIF的GPT,一下子就能让猫猫动起来。△图源推特NickDobos连Midjourney大神都来围观,要做个写Midjourney提示词的专属GPT(在DALL・E3面前何尝不是一种NTR)没能玩
-
大跌眼镜!GPT-4V 错觉挑战实录:该错的没错,不该错的反而错了
GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题,一个没做对:读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”:但是呢,这种人类乍一看绝对会错的图,它又成功答对:以及这样的错位图,它对了又没完全对。。(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)看完这些,是不是觉得很迷?整个一“该对的不对,
-
GPT-4V 学会用键鼠上网,人类眼睁睁看着它发帖玩游戏
GPT-4V学会自动操纵电脑,这一天终于还是到来了。只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网:甚至还能快速摸清楚“播放音乐”的播放器网站和按钮,给自己来一段music:是不是有点细思极恐了?这是一个MIT本科生小哥整出来的新活,名叫GPT-4V-Act。只需要几个简单的工具,GPT-4V就能学会控制你的键盘和鼠标,用浏览器上网发帖、买东西甚至是玩游戏。要是用到的工具出bug了,
-
OpenAI 首届开发者大会最新爆料:全新 UI 可定制 GPT,xAI 大模型大范围可用
【新智元导读】OpenAI首届开发者大会开启前,ChatGPT各种爆料已出,全新UI界面,人人可定制GPT,将引领「智能体工程师」新职业诞生。另一边,马斯克自家的xAI大模型也开启了大范围内测。OpenAI首届开发者大会,开启了倒计时!还记得周一,OpenAI悄无声息地解禁了ChatGPT的两大能力:一是上传PDF、数据文档等文件,另一个是无需转换即可使用所有工具。这不,OpenAI开发者论坛上,
-
GPT-4 变笨加剧,被曝缓存历史回复:一个笑话讲八百遍,让换新的也不听
有网友找到了GPT-4变“笨”的又一证据。他质疑:OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。最明显的例子就是讲笑话。证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个“科学家与原子”的回答。就是那个“为什么科学家不信任原子?因为万物都是由它们编造/构造(makeup)出来的”的冷笑话。在此,按理说temperature值越大,模型越容易生成一些意想
-
最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会
【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V直接犯了致命的安全错误,竟然认为红灯可
-
国外 Java 工程师力证:GPT-4 不能解决逻辑谜题,但确实具备推理能力
【新智元导读】IMGArena的高级软件工程师JohanLAJILI认为在LLM能够理解概念、通过图灵测试时,我们就该承认它具有推理能力了。GPT-4或LLM有推理能力吗?这是个存在已久的争议性问题。有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索,并不具备真正的推理能力。但也有大量的论文研究宣称LLM在多项推理任务中表现优异。现在,来自IMGArena的高级软件工程师JohanLAJ
-
GPT-4 不知道自己错了! LLM 新缺陷曝光,自我纠正成功率仅 1%
【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围观。大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!在推理实验中,声称可以提高准确性的模型自我纠正,把正确率从16%「提高」到了1%!简单来说,就是LLM在推理任务中,无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正
-
全都不及格!斯坦福 100 页论文给大模型透明度排名,GPT-4 仅排第三
试问百模大战的当下,谁家大模型的透明度最高?(例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。)现在,这个问题终于有解了。因为斯坦福大学HAI等研究机构最新共同发布了一项研究——专门设计了一个名为基础模型透明度指标(TheFoundationModelTransparencyIndex)的评分系统。它从100个维度对国外10家主流的大模型做了排名,并在透明度这一层面上做了全面的评估。结
-
微软报告称 GPT-4 易受“越狱”提示词影响,生成不良内容
IT之家10月18日消息,微软旗下研究团队近日发表论文,详细研究了大型语言模型(LLM)的“可信度”和潜在毒性,特别关注OpenAI的GPT-4及其前代 GPT-3.5。研究团队,GPT-4虽然在标准基准测试中比GPT-3.5更加可靠,但容易受到“越狱”提示(绕过模型安全措施)影响。GPT-4可能会根据这些“越狱”提示,生成有害内容。论文中强调GPT-4更容易受到恶意“越狱”系统或用户提