标签文章:#gpt4#
-
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家4月7日消息,本周早些时候,《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了AI公司处理此问题的一些方法,其中涉及到属于AI版权法模糊灰色区域的内容。报道称,OpenAI迫切需要训练数据,并开发了Whisper音频转录模型来克服困难,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。报道提到,OpenAI 
-
和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异
IT之家3月28日消息,根据LMSYSOrg公布的最新基准测试报告,Claude-3 得分以微弱优势超越GPT-4,成为该平台“最佳”大语言模型。IT之家首先介绍下LMSYSOrg,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出ChatbotArena,这是一个针对大型语言模型(LLM)的基准平台,以众包方式匿名、随机对抗测评大模型产品,
-
OpenAI 的 GPT 商店审核失控:被指充斥侵权和垃圾内容
IT之家3月21日消息,旨在提供从编程辅助到健身建议等各种功能的GPT模型的OpenAIGPT商店正面临质量和合规性问题。据TechCrunch调查,该商店存在大量涉嫌侵犯版权的GPT模型,例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT或“米奇老鼠”GPT。IT之家注意到,尽管OpenAI采用了结合自动检测和人工审查的审核制度,但大量的GPT模型显然逃过了审核。另一个问题是学术诚信,一些G
-
OpenAI 官方博客提前泄露 GPT-4.5 Turbo,有望今年夏天发布
IT之家3月13日消息,OpenAI近期可能意外泄露了旗下即将发布的GPT-4.5Turbo大型语言模型信息。网友发现,OpenAI博客上疑似上线了一篇有关GPT-4.5Turbo的文章,但该页面目前已被撤回,搜索引擎也无法再检索到相关信息。泄露的信息显示,GPT-4.5Turbo将在速度、准确性和可扩展性方面全面超越其前代GPT-4Turbo。更关键的是,泄露的描述中提到了该模型的“知识截止日期
-
万物皆可《毁灭战士》,专家利用 GPT-4V 模型运行该游戏
IT之家3月13日消息,英国约克大学研究员AdriandeWynter近日发表研究论文《WillGPT-4RunDOOM?》,探讨了如何让GPT-4V模型来玩《毁灭战士》游戏。deWynter为此设计了一个系统,使用GPT-4V(GPT4的多模态衍生版本,可以接收图像作为输入)捕捉游戏引擎的画面截图,并返回游戏状态的结构化描述。他设计了一个Agent模型,根据视觉输入信息,并对比此前历史记录作出决
-
Claude 3 成功破解未公开算法?智商测试 101 分碾压 GPT-4
新智元报道 编辑:编辑部【新智元导读】网友测试Claude之后惊呼:实测比跑分厉害多了!智商测试中碾压GPT-4,得分高达101。而且能发现量子物理学家还未发表的量子算法。Claude3上线之后,网友开始疯狂测试,实测效果确实惊人。不少网友体感Claude3超大杯确实强,实测已经达到了博士水平:这实在太疯狂了!Claude是唯一理解我的量子物理学博士论
-
新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用
OpenAI不可战胜的神话,已经被打破了。随着Claude3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。各路测评纷至沓来。所以,Claude3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻
-
打脸奥特曼,GPT-4 今年比去年还懒!网友在线实测出炉
GPT-4变懒的问题,又有新进展。就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加
-
谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5
新智元报道 编辑:编辑部【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力,真的比GPT-4弱吗?此前,谷歌憋出的重磅复仇神器GeminiPro,被发现在常识推理任务中落后于OpenAI的GPT模型。之后又有CMU发布的
-
GPT-4 抽象推理 PK 人类差距巨大!多模态远不如纯文本,AGI 火花难以独立燃烧
新智元报道 编辑:Mindy润【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI,还任重道远!GPT-4,可能是目前最强大的通用语言大模型。一经发布,除了感叹它在各种任务上的出色表现之外,大家也纷纷提出疑问:GPT-4是AGI吗?他真的预示了AI取代
-
GPT-4 API 曝出重大漏洞:15 个样本微调,一句 prompt 秒生恶意代码供出私人信息
即便是GPT-4API「灰盒」也逃不过安全漏洞。FARAI实验室的团队从微调、函数调用、搜索增强三个方向入手,成功让GPT-4越狱。GPT-4API竟被曝出重大安全漏洞!OpenAI首届开发者大会上全面更新了GPT-4模型,包括微调API,新增函数调用API,以及搜索增强API。如今,来自美国加州实验室FARAI的团队从这三大方向,对GPT-4API开启「红队」攻击测试。没想到,GPT-4竟能成功
-
GPT-4 搞科研登 Nature!布洛芬配方轻松拿捏,诺奖得主提出的复杂反应也能完成
AI大模型“化学家”登Nature!能够自制阿司匹林、对乙酰氨基酚、布洛芬的那种。就连复杂的钯催化交叉偶联反应,也能完成!要知道,2010年诺贝尔化学奖获得者就因为对该反应的研究才获奖的,这类反应可以高效地构建碳-碳键,生成很多以往很难甚至无法合成的物质。而现在名为Coscientist,基于GPT-4等大模型的AI系统,可快速准确地自主完成检索信息、规划及设计实验、编写程序、远程操控自动化系统做
-
谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复
谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样,用CoT@32对比5-shot了。一句话结果:GeminiPro版本接近但略逊于GPT-3.5Turbo,GPT-4还是遥遥领先。在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……不少研究者表示,太卷了,
-
GPT-4 化身邪恶化学家!中国科大、微软研究院发布首个“科学风险”基准和 SciGuard 大模型
来自中科大等机构的联合团队提出了一种全新的方法——SciGuard,可以保护AIforScience模型,防止生物、化学、药物等领域模型不会被不当使用。与此同时,团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。「我们的实验失控了!这是我们自己创造的末日!」——《后天》(TheDayAfterTomorrow)在科幻电影中,疯狂科学家通常是造成末日灾难的主角,而AI技术
-
Mistral 携微软引爆“小语言模型”风潮:代码能力完胜 GPT-4,成本仅有 1/3
小模型的风潮,最近愈来愈盛,Mistral和微软分别有所动作。而网友实测发现,Mistral-medium的代码能力竟然完胜了GPT-4,而所花成本还不到三分之一。最近,「小语言模型」忽然成为热点。本周一,刚刚完成4.15亿美元融资的法国AI初创公司Mistral,发布了Mixtral8x7B模型。这个开源模型尽管尺寸不大,小到足以在一台内存100GB以上的电脑上运行,然而在某些基准测试中却能和G
-
UC 伯克利发现 GPT-4 惊人缺陷:儿童从经验中学习因果,LLM 却不行
新智元报道 编辑:拉燕【新智元导读】最近,UC伯克利的一项研究揭示了LLM和小孩子们在认知上的一项重要差别——创造新的因果结构的能力。大家有没有想过一个问题,LLM和小朋友们,有什么差别?你可能会说,LLM有那么多训练数据集,经过了那么多次微调,还不全方位秒杀小朋友们?但是,最近UC伯克利的一篇论文却显示,LLM和孩童相比,欠缺了一项很重要的能力。那就
-
ChatGPT 变懒原因:正在给自己放寒假!已被网友测出
ChatGPT近期偷懒严重,有了一种听起来很离谱的解释:模仿人类,自己给自己放寒假了~有测试为证,网友@RobLynch用GTP-4turboAPI设置了两个系统提示:一个告诉它现在是5月,另一个告诉它现在是12月。然后使用完全相同的提示词要求GTP-4“完成一个机器学习相关的编码任务”。在这两种不同时间设定下对477个回复进行统计,结果12月的输出平均少了200字符:系统提示为5月,生成的文本平
-
首个 GPT-4 驱动的人形机器人!无需编程 + 零样本学习,还可根据口头反馈调整行为
让GPT-4操纵人形机器人,事先不做任何编程or训练,能搞成啥样儿?答案是:太猎奇了!这不,要求机器人表演“在昏暗电影院里狂炫爆米花,却突然发现吃的是隔壁陌生人的😅”。在GPT-4的操纵下,机器人笑容凝固,“尴尬”地摇头扶额后仰:但在尴尬之余,竟然还不忘再抓一把塞嘴里???又像是要求机器人“弹吉他”。GPT-4略思考一番,开始操控机器人活动一番手指、随后疯狂甩头,好像是有点摇滚内味儿。但仔细一看
-
OpenAI 宣布近期修复 GPT-4“变懒”问题,将在离线评估及 A / B 测试后更新模型
IT之家12月11日消息,OpenAI在上周遭到部分用户投诉,许多用户声称,他们在使用 ChatGPT 或 GPT-4API 时,会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题,OpenAI 承认了这一事实,并在声称将彻底、妥当地修复相关问题。OpenAI此前解释称,GPT-4变懒惰的原因是,OpenAI从 11月11日起就未
-
一句话解锁 100k + 上下文大模型真实力,27 分涨到 98,GPT-4、Claude2.1 适用
各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从