机器学习数据集！CV、NLP 一应俱全

本文介绍一个机器学习大型数据集的汇总网站，网站目前提供约 70 个最新数据集，涵盖了计算机视觉、自然语言理解和音频三大领域。

还在愁到哪里找到需要的机器学习数据集吗？

每年都有很多大型、高质量的数据集发布，其中大多数数据集都发布在各自的网站上，通过谷歌搜索很难找到所有这些数据集。

现在，一位名叫 Nikola Pleša 的开发人员做了一个项目，将所有机器学习的大型数据集收集在一个网站上，方便大家取用。

网站一经发布，好评如潮。网站目前提供约 70 个数据集，涵盖了计算机视觉、自然语言理解和音频三大领域，包括每个数据集的链接、简介、许可类型、论文等，并且作者表示将继续增加数据集数量。

数据集网站：https://www.datasetlist.com/

下面，简要介绍一部分 CV、NLP 的数据集信息。

计算机视觉数据

1. IBM 人脸多样性数据集

IBM 的人脸多样性 (DiF) 数据集是一个庞大而多样化的数据集，旨在促进人脸识别技术中公平性和准确性的研究。DiF 是第一个此类数据集，包含 100 万张带注释的人脸图像。

2. GQA

GQA 数据集包含 2200 万个关于各种日常图像的问题。每个图像都与图像的对象、属性和关系的场景图相关联，这是一个基于 Visual Genome 的新的清晰版本数据集。

3. NVIDIA Flickr-Faces-HQ 数据集

该数据集由 70000 张分辨率为 1024×1024 的高质量 PNG 图像组成，并且在人物的年龄、种族和图像背景方面差异很大。数据集也很好地覆盖了人脸的附件，如眼镜，太阳镜，帽子等。

4. Google Open Images V4

Open Images 是一个包含约 900 万个 URL 图像的数据集，这些图像具有包含数千个类别的图像级标签和边界框注释。

5. Youtube-8M 2018

YouTube- 8M 是一个大型的带标签的视频数据集，由数百万个 YouTube 视频 ID 和来自4700 多个视觉实体的不同词汇表的相关标签组成，包含大量的视频画面信息、音频信息、标签信息。

6. Berkeley Deep Drive (BDD100K)

该数据集包含超过 100k 个驾驶体验视频，每个视频长度为 40 秒，帧数为每秒 30 帧。总图像数比百度 ApolloScape(2018 年 3 月发布) 大 800 倍，比 Mapillary 大 4800倍，比 KITTI 大 8000 倍。

7. ApolloScape

ApolloScape 是一个此前的类似数据集如 KITTI 和 CityScapes 更大、更复杂的数据集。ApolloScape 提供了高分辨率高 10 倍以上的图像，并逐像素标注，包括 26 种不同的可识别对象，如汽车、自行车、行人和建筑物。随着行人和车辆数量的增加，数据集提供了多个级别的场景复杂性，在给定场景中最多多达 100 辆车辆，以及更广泛的具有挑战性的环境，如恶劣天气或极端光照条件。

8. Tencent ML - Images

腾讯发布的 Tencent ML - Images 是目前最大的开源多标签图像数据集，包括17,609,752 个训练图像和 88739 个验证图像 URL，注释多达 11,166 个类别。

9. Fashion MNIST

Fashion-MNIST 是 Zalando 文章图像的一个数据集，包括 60,000 个示例的训练集和10,000 个示例的测试集。每个示例都是一个 28x28 的灰度图像，与 10 个类别的标签相关联。

10. MegaFace

MF2 训练数据集是身份数量上最大的公开可用的面部识别数据集，有 470 万张面部图像，672K 个身份，以及各自的边界框。所有图片均来自 Flickr，并在知识共享协议下许可。

自自然语言数据

1. 斯坦福问答数据集 (SQuAD)

斯坦福问答数据集 (Stanford Question answer Dataset, SQuAD) 是一个全新的阅读理解数据集，由众包工作者根据维基百科文章提出的问题组成，其中每个问题的答案都对应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万对以上的问答对，因此规模明显大于之前的阅读理解数据集。 SQuAD2.0 将 SQuAD1.1 中的 10 万个问题与 5 万多个新的、无法回答的问题 (由众包工作者提出) 结合起来，使之看起来与可回答的问题相似。

2. MultiNLI

多体裁自然语言推理语料库 (Multi-Genre Natural Language Inference, MultiNLI) 是一个由 433k 个句子对组成的源文本集合语料库，这些句子对都带有文本蕴涵信息。MultiNLI 语料库是在 SNLI 语料库的基础上建立的，但不同之处在于它涵盖了一系列口语和书面文本的体裁，并支持独特的跨体裁评估。

3. CoQA

CoQA 是一个用于构建会话问答系统的大型数据集。CoQA 包含 127k 个问题和答案，来自 7 个不同领域的 8k 个文本段落的对话。

4. Spider 1.0

Spider 是一个大型复杂的跨域语义分析和 text-to-SQL 的数据集。Spider 由 10181 个问题和 5693 个独特的复杂 SQL 查询组成，这些查询来自 200 个数据库，覆盖 138 个不同的域。

5. HotpotQA

HotpotQA 是一个以自然的、 multi-hop 的问题为特征的问答数据集，具有强大的支持事实的监督，以实现更易于解释的问答系统。该数据集由 113,000 对基于 Wikipedia 的QA 对组成。

6. Question Pairs (Quora)

包含超过 400,000 行潜在的问题对。

7. Yelp open dataset

Yelp 数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可在 JSON和 SQL 文件中使用。

8. Facebook bAbI

一个用于自动文本理解和推理的数据集。

9. MS MARCO

微软机器阅读理解数据集 (MS MARCO) 是一个用于阅读理解和问题回答的新型大型数据集。在 MS MARCO 中，所有问题都是从真实的匿名用户查询中提取的。数据集中的答案来自上下文段落，这些段落使用 Bing 搜索引擎从真实的 web 文档中提取。如果他们能够总结出答案，那么查询的答案就是人工生成的。

10. NewsQA

NewsQA 数据集的目的是帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。该数据集包含来自众包的 120K 阅读理解 Q&A 对。

音频数据

1. Mozilla Common Voice

Mozilla 拥有可供使用的最大的人类语音数据集，包括 18 种不同的语言，从 4.2 万多名贡献者那里收集了近 1400 小时的录音语音数据。

2. NSynth

这是一个大规模、高质量的注释音符数据集。NSynth 数据集是一个音频数据集，包含~300k 个音符，每个音符都有一个独特的音调、音色和包络。

3. Google Audioset

AudioSet 由 632 个音频事件类的扩展本体和来自 YouTube 视频的 2084320 个带有人类标记的 10 秒声音片段组成。本体被指定为事件类别的层次图，涵盖广泛的人类和动物声音、乐器和流派，以及常见的日常环境声音。

4. LibriSpeech

LibriSpeech 是一个有声图书数据集，包含文本和语音。数据集包含多位讲者朗读的各类有声读物，时长近 500 小时。

感兴趣的小伙伴可以登录网站进行了解学习~

关注公众号，发送关键字：Java车牌识别，获取项目源码。

框架

计算机视觉数据

自自然语言数据

音频数据