-
全球最大甲骨文“数据集”开源
IT之家7月5日消息,“数字甲骨共创中心”今日正式开源全球最大的甲骨文多模态数据集,共包含一万片甲骨的拓片、摹本,甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。据介绍,所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法,加速甲骨文研究智能化进程。IT之家查询获悉,数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯106 0 2024-07-05 16:54
-
武大等开源大幅面高清卫星影像数据集:涵盖 21 万 + 地理目标,复杂地理空间场景知识精准生成
AI卫星影像知识生成模型数据集稀缺的问题,又有新解了。来自武汉大学、上海AI实验室、西工大等9家机构共同推出了该领域的大型数据集,涵盖了21万个地理目标和40万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景,也都包括在了数据集当中。具体来说,该数据集名为RSG,主要面向卫星影像中的目标检测(OBD)和场景图生成(SGG)任务。SGG有助于促进模型对地理空间场景从感知到认知的智能132 0 2024-06-21 13:30
-
收录 250 亿个 Token,Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia
IT之家2月23日消息,HuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。IT之家注意到,该数据集内容均由Mixtral7b模型汇总生成,其中收录3000万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow教程等内容,共计250亿个Token。据悉,Cosmopedia数据集除了收录上述文本文件135 0 2024-02-23 17:36
-
蚂蚁集团开源首个医疗专科推理数据集,覆盖 97.6% 泌尿就医人群
IT之家12月28日消息,蚂蚁集团今日宣布开源首个医疗专科推理数据集。该数据集由训练、验证、测试三部分组成,包含2132个问答对,每个问答对由医生根据临床经验编写的问题、专家提供的回答以及用于帮助推理的上下文构成,病种覆盖了97.6%以上的泌尿科就医人群,号称能“真实复刻诊疗场景”。在医疗行业,通用型语言模型在应对医疗问诊时,会直接给出答案,而医生则会根据专业知识进行反复的症状探讨,才能给出答案。216 0 2023-12-28 18:22
-
麻省理工学院称第三方 Twitter 机器人检测工具“不准确”:数据集过于简单,泛用性较差
IT之家6月26日消息,美国麻省理工学院(MIT)的研究团队近日发表论文指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。此前有消息称,机器人账户过多是阻止马斯克收购推特的原因之一。推特当时声称其日活跃用户中有5%是机器人账户,但马斯克表示这个数字要比5%高得多。推特有自己的机器人账户识别系统,但并未公开。因此,对于普通公众而言,第三方工具是254 0 2023-06-26 09:14
-
首批支持无线 AI 技术国际标准研究的数据集上线,面向公众开放下载使用
IT之家12月8日消息,据5G推进组消息,为推动无线AI的技术研究、产业发展和商用化推广,中国信息通信研究院联合vivo、OPPO、中信科移动、三星、中兴等企业在移动通信开放数据平台(www.mobileai-dataset.cn)发布首批支持无线AI技术国际标准研究的数据集,面向公众开放下载使用。▲ 移动通信开放数据平台官网据介绍,发布数据集涵盖3GPP5G-AdvancedR18版本245 0 2022-12-08 16:29
-
微软公开发布首个 SimuLand 数据集,以促进安全研究
IT之家8月7日消息 一个月前,微软宣布了开源SimuLand计划,允许安全研究人员部署实验室环境、重现攻击模式和技术,然后测试Microsoft365Defender、AzureDefender和AzureSentinel等工具是否可以检测对抗模式。研究人员还可以从这些实验中捕获遥测数据,以扩展他们自己的研究。现在,微软发布了第一次模拟练习的公共数据集。该模拟是关于攻击者如何从本地AD541 0 2021-08-07 20:50