tensorflow最出色的30个机器学习数据集 | 雷峰网-米乐m6平台

tensorflow

2020/08/11 15:20

字幕组双语原文：

英语原文：

翻译：雷锋字幕组（）

tensorflow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台，适合完全没有经验的初学者和有经验的数据科学家。tensorflow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据，本文将简单介绍一些tensorflow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。

tensorflow图像数据集

1. celeba：明星脸属性数据集（celeba）是最大的公开可用的人脸图像数据集，其中包含200,000多个名人图像。

每个图像包括5个面部标注和40个二进制属性标注。

2. downsampling imagenet：该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格：32×32和64×64。

3. lsun—lsun是一个大规模的图像数据集，创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像，按场景类别划分，如卧室、教室和餐厅。

4. bigearthnet—bigearthnet是另一个大规模数据集，它包含来自sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。

5. places 365—顾名思义，places 365包含180多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。places 365是用于场景识别任务的最大数据集之一。

6. quickdraw位图—quickdraw数据集是由quickdraw玩家社区绘制的图像集合。它包含500万张图纸，跨越345个类别。这个版本的quickdraw数据集包括28×28的灰度图像。

7. svhn cropped—街景房号（svhn）是为训练数字识别算法，由斯坦福大学建立的tensorflow数据集。它包含60万个真实世界的、被裁剪成32×32像素的图像数据实例。

8. vggface2—最大的人脸图像数据集之一，vggface2包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有362张图像。

9. coco—由谷歌、fair、加州理工学院等合作者制作，是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。

通过cocodataset.org

数据集包含330,000张图像，其中20万张有标签。在所有图像中，共包含了80个类别的150万个对象实例。

10. open images challenge 2019—包含约900万张图像，该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码，以及他们之间的视觉关系。

11. open images v4—这个数据集是上述open images数据集的另一个迭代。v4版本中包含了600个不同物体类别的1460万个边界框。这些边界框是由人类标注者手动绘制的。

12. aflw2k3d—该数据集包含2000张面部图像，均有3d面部真实标注。它的创建是为了评估3d面部标注检测模型。

视频数据集

13. ucf101—来自中央佛罗里达大学，ucf101是为训练动作识别模型而建立的视频数据集。该数据集有101个动作类别的13320个视频，。

14. bair robot pushing—来自伯克利人工智能研究，bair robot pushing包含44000个机器人推的动作的示例视频。

15. moving mnist—这个数据集是mnist基准数据集的一个变体。moving mnist包含10,000个视频。

每个视频都显示了在64×64大小的帧内2个手写数字的移动过程。

16. emnist—扩展的mnist数据集，包含了原始mnist数据集转换成28 x 28像素大小的图片。

tensorflow音频数据集

17. crema-d—为情感识别任务而创建，crema-d由语音情感表达组成。该数据集包含由年龄，种族和性别不同的91位演员表达的7,442个音频剪辑。

18. librispeech—librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自librivox项目的有声读物。它被用于训练声学模型和语言模型。

19. libritts—这个数据集包含约585小时的英语语音，是在google brain团队成员的协助下准备的。libritts最初是为text-to-speech（tts）研究设计的，但可以用于各种语音识别任务。

20. ted-lium—ted-lium是一个包含110多个小时的英语ted演讲的数据集。所有的演讲内容都已被转录。

21. voxceleb—voxceleb是为演讲者识别任务而建立的大型音频数据集，包含来自1,251位演讲者的150,000多个音频样本。

文本数据集

22. c4(common crawl's web crawl corpus)—common crawl是一个开放源码的网页数据库。它包含了超过40种语言、跨越7年的数据。

23. civil comments—这个数据集是由来自50个英文新闻网站的180多万条公众评论构成的。

24. irc disentanglement—这个tensorflow数据集包括来自ubuntu irc频道的77000多条评论。每个样本的元数据包括消息id和时间戳。

25. lm1b—被称为语言模型基准，这个数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展。

26. snli—斯坦福自然语言推理数据集是一个包含57万个人类写作句子对的语料库。所有的句对都经过人工标注，类别是均衡的。

27.e-snli—这个数据集是上面提到的snli的扩展，它包含了原始数据集的57万个句子对，分类为：包含、矛盾和中性。

28. multinli—仿照snli数据集，multinli包含433,000个句子对，都有尾部信息注释。

29. wiki40b—这个大规模的数据集包括40种不同语言的维基百科文章。这些数据已经被清理，其中的非内容部分以及结构化对象已经被去掉。

30. yelp极性评论—这个数据集包含598,000条高度极性的yelp评论。它们是从2015年yelp数据集挑战赛中的数据提取出来的。

虽然上述数据集是机器学习中最大、最广泛使用的一些tensorflow数据集，但tensorflow库是庞大的，并在不断扩展。请访问tensorflow网站，了解更多关于该平台如何帮助您构建自己的模型的信息。

雷锋字幕组是由ai爱好者组成的志愿者翻译团队；团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、it咨询人、在校师生；志愿者们来自ibm、avl、adobe、阿里、百度等知名企业，北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

了解字幕组请联系微信：tlacttlact

转载请联系字幕组微信并注明出处：雷锋字幕组

雷锋网雷锋网