OpenDataLab 上海人工智能实验室旗下开放数据平台,主办单位上海人工智能实验室。
数据开源
2199 收藏

OpenDataLab 简介

上海人工智能实验室旗下开放数据平台,主办单位上海人工智能实验室。

OpenDataLab浦数 人工智能开放数据平台,是上海人工智能实验室在WAIC 2022科学前沿全体会议上发布“OpenXLab浦源人工智能开源开放体系的核心项目之一。

OpenDataLab作为人工智能数据领域的探路者和开源数据社区的倡导者,围绕大模型数据开展多项前沿技术探索,构建面向大模型研发全流程的数据平台及大模型时代数据管理体系。

全新的OpenDataLab浦数人工智能开放数据平台汇聚了海量的数据资源,包括覆盖800多种任务类型的3,000多个数据集,并提供便捷检索和快速下载服务。OpenDataLab还和OpenXLab的各个开源算法体系紧密衔接,通过一个简单的命令行工具,即可实现一键部署、开箱即用。

202376日,上海人工智能实验室(上海AI实验室)发布全新升级的书生通用大模型体系。在数据环节,通过OpenDataLab开放了包含30多种模态的5,500公开数据集,其中在自然语言方面开放了超过10,000亿token的高质量语料。 上海人工智能实验室(上海AI实验室)于814日宣布开源发布书生·万卷” 1.0多模态预训练语料。据了解,书生·万卷的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。