版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

数据堂
• 阅读 5

近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

大模型预训练数据集

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

319,214册K12课件PPT数据

与专业教师合作PPT数据,数据包括小初高各年级和不同的学科。PPT数据格式为ppt和pptx,图像数据格式为jpg、jpeg等通用格式。每份PPT包括整份PPT数据和PPT拆解成单张图片数据2个部分。本数据可用于PPT生成等任务。

☞点击获取数据样例

10万条英文大模型指令微调文本数据集

包含多种类型问答对,例如提问、提取、计算、分类、摘要等。专为AI模型优化设计的训练数据,可显著提升模型指令理解与执行能力,通过语言学专家和AI工程师双重校验,支持主流预训练模型的微调需求。

☞点击获取数据样例。

多模态大模型数据集

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

2.88亿组3D模型和场景数据

包括2.7亿组3D模型和1800万组3D场景数据,其中3D模型覆盖静态模型、交互模型和物理增强模型等多种类型和室内家居环境的各类物体,3D场景覆盖家居场景和商业空间场景,支持部件结构信息标注、静态模型新增、交互模型升级、模型位置调整等增值项。可用于3D资产生成、仿真训练场构建等任务。

☞点击获取数据样例。

8000万张矢量图图像数据

均为作者发布的正版图像作品。资源类型丰富多样,涵盖海报、花型、卡通、背景、插画、科技、图标、人物、扁平、办公素材等50多种类别。色彩还原度高,细节展现充分,能为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持,助力相关工作高效开展。

☞点击获取数据样例。

20万组多国地标建筑图文数据

每组数据包含一张图片及中英文描述文档。国家分布不少于20个,包括中、美、英、法、俄、德等国家。每个地标对应1~10张图片,包括不同角度、不同距离、不同时间段的地标信息。地标建筑类型多样,包含商业大厦、古老建筑、纪念碑、图书馆、景点等。标注内容包括地标国家、地标城市、地标具体地点、地标分类、地标描述。

☞点击获取数据样例。

多语种&方言语音数据集

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

3000小时全双工普通话自然对话语音数据

约3600名录音人,男女比例均衡,覆盖多个年龄段。 无预制文本,录音人围绕话题以自然方式进行对话,同时录制对话的内容。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,准确性高,为语音识别相关研究及应用提供了丰富的资源。参与项目的录音人员均已签订数据使用授权协议

☞点击获取数据样例。

1300小时古吉拉特语脚本对话语音数据

16kHz,16bit,未压缩wav,单声道。部分数据是基于给定的脚本对话,部分数据是双人轮流按单句/多句来朗读文章。标注内容包含文本转写、说话人标识、性别、噪音。文本转写的词错误率(WER)低于5%。可用于语音识别声学、语言模型训练或算法研究。

☞点击获取数据样例。

10小时全双工瑞典语自然对话手机采集语音数据

均由本土发音人进行录制。录制于相对安静的室内,无回声。给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然,围绕每个话题展开一段对话并录制。标注内容包括文本转写、时间戳、说话人ID、说话人性别。词准确率达98%。

795小时墨西哥西语口语化语音数据

16kHz,16 bit, wav,单声道。人工筛选并二次加工的数据。说话语气自然,涵盖多种日常口语化的表述内容,覆盖对话类、自媒体类等通用领域,反映了真实世界的互动情境。此数据集标注了文本内容、说话人身份、性别等多种属性,词错误率(WER)低于2%,准确性高,易用性强,为语音识别相关研究及应用提供了丰富的资源。

☞点击获取数据样例。

4人中文高表现力旁白平均音色合成库

专业声优参与录制。给定书籍,发音人以具有高表现力旁白的风格朗读。同一个录音人的数据,录音环境和设备自始至终保持不变。根据发音人实际发音对音频进行文本转写、韵律层级标注、情感标注及副语言标注。字准确率不低于99.9%

☞点击获取数据样例。

5小时武汉方言男声合成库

由武汉当地专业男声声优参与录制。录音内容包含发音人自由发挥、指定文本的多种话题、语气词、中英混及英文单词。录音棚符合专业音库录制标准,噪音小于30db,混响时间小于0.1s。标注内容包括普通话标注、方言标注、方言拼音标注。专业语音学家参与标注,精准匹配语音合成的研发需求。

☞点击获取数据样例。

5小时长沙方言女声合成库

长沙本土专业声优在专业录影棚环境下使用专业录音设备及软件进行录制。录音人员使用长沙方言、普通话、中英混和英文进行录制。录音内容包含无文本自由发挥(dialect)、指定文本的多话题(dialect)、语气词(dialect)、中英混及英语单词。文字标注字准确率不低于99.9%,副语言标注句准确率不低于98%

☞点击获取数据样例。

计算机视觉训练数据集

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

500,000张21国自然场景&文档拍照场景&电子场景OCR标注数据

数据包含德语、法语、葡萄牙语、意大利语、西班牙语、印尼语、俄语、日语、韩语、越南语、波兰语、捷克语、土耳其语、菲律宾语、荷兰语、印地语等21个语种,每个语种数量20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。

☞点击获取数据样例。

30,000张东南亚小语种自然场景OCR数据

包括高棉语(柬埔寨)、老挝语和缅甸语3种语言。采集环境涵盖标语、小票、海报、警示语、路标、食品包装、广告牌、站牌和招牌等多种自然场景、仰视、俯视、平视等多种拍摄角度。标注行(列)级四边形标注、行(列)级内容转写、多边形标注、内容转写。检测框精度不低于95%,文本转写精度不低于95%

☞点击获取数据样例。

19,634段表情视频采集数据

数据涵盖男性女性共1800余人,每人采集表情视频数量为1-12段。年龄分布为少年到老人,以中青年为主。表情种类包括正常、微笑、大笑、露齿笑、伤心、恐惧、兴奋、生气、吐舌头、眨眼、张大嘴和眼珠转动翻白眼。标注采集人的性别和年龄标签,标注视频对应的表情ID标签。可用于人脸表情识别等任务。

☞点击获取数据样例。

52对双胞胎人脸采集数据

采集对象包括双胞胎男性19对,双胞胎女性33对,一对双胞胎每人分别采集40张照片。年龄涵盖18岁以下、18岁至60岁以上。数据均采集于室内场景,涵盖抬头、转头、正脸、低头等多种人脸角度、包含眼镜、帽子等多种佩戴物、暗光、正常光等多种光照条件。数据可用于双胞胎人脸识别等任务。

☞点击获取数据样例。

点赞
收藏
评论区
推荐文章
浅谈生成式人工智能
生成式人工智能是指:利用机器学习技术让计算机自动生成不同模态(比如文本,图片,语音等)高质量数据的方法。尽管过去几十年的人工智能研究迭代出了无数的生成模型,但生成式人工智能被当成一种新的算力来讨论还要从以GPT3为代表的大预训练语言模型算起。
数据堂 数据堂
1年前
大模型数据集:构建、挑战与未来趋势
一、引言随着深度学习技术的快速发展,大型预训练模型如GPT4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型数据集的构建、面临的挑战以及未来发展趋势。二、大模型数据集的构建收集数
数据堂 数据堂
1年前
大模型数据集:突破边界,探索未来
一、引言随着人工智能技术的快速发展,大型预训练模型如GPT4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型数据集的突破边界以及未来发展趋势。二、大模型数据集的突破边界数
数据堂 数据堂
1年前
大模型数据集:探索新维度,引领AI变革
一、引言在人工智能(AI)的快速发展中,大型预训练模型如GPT、BERT等已经取得了令人瞩目的成果。这些大模型的背后,离不开规模庞大、质量优良的数据集的支撑。本文将从不同的角度来探讨大模型数据集的新维度,以及它们如何引领AI的变革。二、大模型数据集的新维度
数据堂 数据堂
1年前
语音数据集:AI语音技术的基石
一、引言在人工智能领域,语音技术正逐渐成为研究的热点之一。语音数据集作为AI语音技术的基石,对于模型的训练和应用至关重要。本文将深入探讨语音数据集的重要性、构建方法、挑战以及未来的发展趋势。二、语音数据集的重要性语音识别:语音数据集是实现语音识别的关键。通
数据堂 数据堂
1年前
语音数据集:智能语音技术的基石与挑战
随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语言处理等技术的性能具有至关重要的作用。本文将对语音数据集的发展历程、应用领域及面临的挑战进行探讨。一、语音数据集的发
“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。
近屿智能 近屿智能
5个月前
昆仑万维开源SkyReels-V2,近屿智能紧跟AI技术趋势
昆仑万维SkyReels团队正式发布并开源全球首个采用扩散强迫框架的无限时长电影生成模型SkyReelsV2,其通过融合多模态大语言模型、多阶段预训练、强化学习与扩散强迫框架实现协同优化,推动视频生成技术进入新阶段。该模型聚焦解决现有技术在提示词遵循、视觉
数据堂 数据堂
3个月前
数据上新 | 全新高质量训练数据集重磅发布
数据堂全新发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集,全面助力企业打造更高精度、更强泛化能力的AI模型,轻松应对全球用户多样化的语言与应用场景需求,为智能升级提供坚实数据支撑。
数据堂
数据堂
Lv1
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。 数据堂自主研发的基于“Human-in-the-loop人在回路”人机交互参与的人工智能数据加工平台,在实际的数据处理过程中,极大提高了数据生产效率,已实现人工智能数据的规模化生产,摒弃以往的纯手工作业模式。
文章
179
粉丝
1
获赞
2