资源 从图像处理到语音识别25款数据科学家必知的深度学习开放数据集

2025-10-09 22:08:00
aiadmin
原创
105

原题目:资源 从图像执掌到语音识别,25款数据科学家必知的深度练习盛开数据集 选自Analyti

本文先容了 25 个深度练习盛开数据集,包含图像执掌、自然发言执掌、语音识别和现实题目数据集。

深度练习(或生涯中大个人范围)的环节正在于实习。你必要实习处理各样题目,包含图像执掌、语音识别等。每个题目都有其奇异的细小分歧和处理手段。

不过,从哪里得回数据呢?现正在很众论文都操纵专罕有据集,这些数据集往往并错误公家盛开。假设你思练习并使用本领,那么无法获取合意数据集是个题目。

假设你面对着这个题目,本文可认为你供应处理计划。本文先容了一系列公然可用的高质料数据集,每个深度练习酷爱者都应当尝尝这些数据集从而晋升自身的才能。正在这些数据集前进行处事将让你成为一名更好的数据科学家,你正在个中学到的常识将成为你职业生活中的价值连城。咱们同样先容了具备现在最优结果的论文,供读者阅读,改革自身的模子。

起初,你得认识这些数据集的界限出格大!以是,请确保你的收集毗邻顺畅,不才载时数据量没有或简直没有节制。

操纵这些数据集的手段众种众样,你可能使用各样深度练习技艺。你可能用它们琢磨本领、领悟怎样识别和构修各个题目、思量奇异的操纵案例,也可能将你的涌现公然给专家!

MNIST 是最流通的深度练习数据集之一。这是一个手写数字数据集,包罗一个有着 60000 样本的磨练集和一个有着 10000 样本的测试集。对付正在实际宇宙数据上实验练习技艺和深度识别形式而言,这是一个出格好的数据库,且无需花费过众年华和元气心灵实行数据预执掌。

学界 Facebook 新论文提出通用目的瓜分框架 Mask R-CNN:更浅易更矫健展现更好

Open Images 是一个包罗近 900 万个图像 URL 的数据集。这些图像操纵包罗数千个种别的图像级标签边境框实行了标注。该数据集的磨练集包罗 9,011,219 张图像,验证集包罗 41,260 张图像,测试集包罗 125,436 张图像。

VQA 是一个包罗图像盛开式题目的数据集。这些题目的解答必要视觉和发言的懂得。该数据集具有下列兴趣的特点:

这是一个实际宇宙数据集,用于拓荒目的检测算法。它必要起码的数据预执掌经过。它与 MNIST 数据集有些雷同,不过有着更众的标注数据(超越 600,000 张图像)。这些数据是从谷歌街景中的衡宇门字号中收罗而来的。

这篇论文中,日本京都大学提出结局部漫衍式腻滑度(LDS),一个合于统计模子腻滑度的新理念。它可被用作正则化从而晋升模子漫衍的腻滑度。该手段不单正在 MNIST 数据集上处理有监视和半监视练习做事时展现优异,并且正在 SVHN 和 NORB 数据上,Test Error 折柳博得了 24.63 和 9.88 的分值。以上注明了该手段正在半监视练习做事上的展现清楚优于现在最佳结果。

该数据集也用于图像分类。它由 10 个种别共计 60,000 张图像构成(每个类正在上图中显示为一行)。该数据集共有 50,000 张磨练集图像和 10,000 个测试集图像。数据集分为 6 个个人——5 个磨练批和 1 个测试批。每批含有 10,000 张图像。

Fashion-MNIST 包罗 60,000 个磨练集图像和 10,000 个测试集图像。它是一个雷同 MNIST 的时尚产物数据库。拓荒职员以为 MNIST 的操纵次数太众了,以是他们把这个数据集用作 MNIST 的直接取代品。每张图像都以灰度显示,并具备一个标签(10 个种别之一)。

该数据集对付影戏酷爱者而言出格赞。它用于二元心情分类,目前所含数据超越该范围其他数据集。除了磨练集评论样本和测试集评论样本之外,尚有极少未标注数据可供操纵。另外,该数据集还包含原始文本和预执掌词袋体例。

顾名思义,该数据集涵盖信息组合连音信,包罗从 20 个分别信息组获取的 20000 篇信息组文档汇编(每个信息组采取 1000 篇)。这些著作有着外率的特点,比方题目、导语。

Sentiment140 是一个用于心情剖析的数据集。这个流通的数据集能让你圆满地开启自然发言执掌之旅。数据中的心绪仍旧被预先清空。最终的数据集具备以下六个特点:

上文先容 ImageNet 数据集时提到,WordNet 是一个大型英语 synset 数据库。Synset 也即是同义词组,每组描画的观点分别。WordNet 的布局让它成为 NLP 中出格有效的东西。

这是 Yelp 出于练习主意而公布的盛开数据集。它包罗数百万个用户评论、贸易属性(businesses attribute)和来自众个大城市地域的超越 20 万张照片。该数据集是环球周围内出格常用的 NLP 挑拨赛数据集。

该数据集是维基百科全文的会集,包罗来自超越 400 万篇著作的快要 19 亿单词。你能逐单词、逐短语、逐段地对其实行检索,这使它成为健壮的 NLP 数据集。

该数据集包罗从数千名博主那里收罗到的博客著作,这些数据从中收罗而来。每篇博客都以一个孤独的文献步地供应。每篇博客起码浮现 200 个常用的英语单词。

这是本文又一个受 MNIST 数据集策动而创修的数据集!该数据集旨正在处理识别音频样本中口述数字的做事。这是一个公然数据集,因而盼望跟着人们持续供应数据,它会继续成长。目前,它具备以下特征:

FMA 是音乐剖析数据集,由整首 HQ 音频、估计算的特点,以及音轨和用户级元数据构成。它是一个公然数据集,用于评估 MIR 中的众项做事。以下是该数据集包罗的 csv 文献及其内容:

tracks.csv:记实每首歌每个音轨的元数据,比方 ID、歌名、演唱者、派别、标签和播放次数,共计 106,574 首歌。

genres.csv:记实统统 163 种派别的 ID 与名称及上层气魄名(用于臆度派别主意和上层派别)。

该数据集包罗舞厅的舞曲音频文献。它以确实音频体例供应了很众舞蹈气魄的极少特点片断。以下是该数据集的极少特征:

Million Song 数据集包罗一百万首今世流通音乐的音频特点和元数据,可免费获取。其主意是:

数据集的中央是一百万首歌曲的特点剖析和元数据。该数据集不包罗任何音频,只包罗导出因素。示例音频可通过哥伦比亚大学供应的代码()从 7digital 等任职中获取。

该数据集是一个包罗约 1000 小时英语语音的大型语料库。数据开头为 LibriVox 项主意音频册本。该数据集仍旧取得了合理地瓜分和对齐。假设你还正在寻找开始点,那么点击 查看正在该数据集上磨练好的声学模子,点击 查看适合评估的发言模子。

VoxCeleb 是一个大型人声识别数据集。它包罗来自 YouTube 视频的 1251 位名士的约 10 万段语音。数据根本上是性别平均的(男性占 55%)。这些名士有分别的口音、职业和春秋。拓荒集和测试集之间没有重叠。对大明星所说的话实行分类并识别——这是一项兴趣的处事。

为了助助你实习,咱们还供应了极少确实生涯题目和数据集,供读者上手操作。这一个人,咱们陈列了 DataHack 平台上合于深度练习的题目。

涉及种族主义和性别渺视的过火言讲已成为 Twitter 的困难,以是将这类推文与其它推文分裂已极端主要。正在这个现实题目中,咱们供应的 Twitter 数据包罗广泛言讲和过火言讲。动作数据科学家,你的做事是确定哪些推文是过火型推文,哪些不是。

对付深度练习酷爱者来说,这是一个令人浸迷的挑拨。该数据集包罗数千名印度艺员的图像,你的做事是确定他们的春秋。统统图像都由人工从视频帧中挑选和剪切而来,这导致界限、容貌、心情、亮度、春秋、分袂率、遮挡和妆容具有高度可变性。

该数据集包罗超越 8000 个来自 10 个种别的都邑音响片断。这个现实题目旨正在向你先容常睹分类场景中的音频执掌。

数目:来自 10 个种别的 8732 个标注都邑音响片断(单个片断音频时长 = 4s)

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号