这里介绍一些常见的数据集,用作研究或者学习的一些东西.
Kaggle竞赛
- 书籍推荐数据集(goodreads/上万图书/百万评价): Kaggle地址
- 带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016): Kaggle地址
- HackerNews数据集(2006年以来约1/4文章): Kaggle地址
- 酒店评价数据集: Kaggle地址
- 1950年以来NBA球员状态&表现数据集: Kaggle地址
- 开普勒太空望远镜深空星球光强时序数据集: Kaggle地址
- 巴基斯坦无人机袭击数据集(2004-2016): Kaggle地址
- 墨尔本房屋市场数据集[Kaggle地址]: (https://www.kaggle.com/anthonypino/melbourne-housing-market)
- 1789-2016历任美国总统签署行政命令数据集: Kaggle地址
- 来自Stack Overflow平台的Python语言问答数据集: Kaggle地址
- 来自Stack Overflow品台的R语言问答数据集: Kaggle地址
- 每日海冰范围数据集: Kaggle地址
- NIPS(1987-2016)论文数据集: Kaggle地址
- 赛马赔率数据集Kaggle地址
大学公开数据集
- (Stanford)69G大规模无人机(校园)图像数据集: Stanford地址
- 人脸素描数据集: CUHK地址
- 自然语言推理(文本蕴含标记)数据集: NYU地址
- Berkeley图像分割数据集BSDS500: Berkeley地址
- 宠物图片(分割)数据集: Oxford地址
- 发布ADE20K场景感知/解析/分割/多目标识别数据集: MIT地址
- 多模态二元行为数据集: GaTech地址
计算机视觉/图像/视频数据集:
- Fashion-MNIST风格服饰图像数据集: 肖涵地址
- 大型(50万)LOGO标志数据集: 地址
- 4D扫描(60fps移动非刚性物体3D扫描)数据集: D-FAUST地址
- 基于MNIST的视觉计数合成数据集: Counting MNIST地址
- YouTube MV视频数据集: Keunwoo Choi地址
- 计算机视觉合成数据集/工具大列表: unrealcv地址
- 动物属性标记数据集: ChristophH. Lampert/Daniel Pucher/JohannesDostal地址
- 日本漫画数据集: Manga109 地址
- 俯拍舞蹈视频数据集: 地址
- Pixiv(着色)图片数据集: Jerry Li地址
- e-VDS视频数据集: 地址
- Quick, Draw!简笔画涂鸦数据集: 地址
- 简笔画涂鸦数据集: hardmaru地址
- 服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler地址
- COCO像素级标注数据集: 地址
- 大规模街道级图片(分割)数据集: Peter Kontschieder地址
- 大规模日语图片描述数据集: 地址
- Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)地址
- (街头)时尚服饰数据集(2000+标注图片)地址
- PyTorch实现的VOC2012数据集Pixel-wise目标分割: BodoKaiser地址
- Twenty Billion Neurons对象复杂运动与交互视频数据集: Nikita Johnson地址
文本/评价/问答/自然语言数据集
- (20万)英文笑话数据集: TaivoPungas地址
- 机器学习保险行业问答开放数据集: HainWang地址
- 保险行业问答(QA)数据集: Minwei Feng 地址
- Stanford NLP发布新的多轮、跨域、任务导向对话数据集: Mihail Eric地址
- 实体/名词语义关系标记数据集: David S. Batista地址
- NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理): 地址
- 2.8万文章/10万问题大规模(英语考试)阅读理解数据集: 地址
- 错误拼写数据集: 地址
- 文本简化数据集: 地址
- 英语词/句/语义框架框架标注数据集FrameNet: FrameNet地址
- (又一个)自然语言处理(NLP)数据集列表: Nicolas Iderhoff地址
- 跨语种/多样式/多粒度文本相似性检测数据集: 地址
- Quora数据集:400000行潜在重复问题: 地址
- 文本分类数据集: 地址
- Frames:Maluuba对话数据集: 地址
- 跨域(Amazon商品评论)情感数据集: 地址
- 语义网机器学习系统评价/基准数据集集合: 地址
其他数据集
- 数据科学/机器学习数据集汇总地址
- CORe50:连续目标识别数据集VincenzoLomonaco&DavideMaltoni地址
- (Matlab)数据集统计分布自动发现Isabel Valera地址
- (建筑物)损害评估数据集tsunami地址
- IndieWeb社交图谱数据集IndieWeb地址
- DeepMind开源环境/数据集/代码集合DeepMind地址
- 鸟叫声数据集xeno-canto地址
- Wolfram数据集仓库地址
- 大型音乐分析数据集FMA地址
- (300万)Instacart在线杂货购物数据集Jeremy Stanley地址
- 用于欺诈检测的合成财务数据集TESTIMON地址
- NSynth:大规模高质量音符标记音频数据集地址
- LIBSVM格式分类/回归/多标签/字符串数据集地址
- 笔记本电脑用logistic回归拟合100G数据集DmitriySelivanov地址
- StackExchange近似/重复问题数据集地址
- 2010-2017最全KDD CUP赛题回顾及数据集地址
- 食谱数据集:带有评级、营养及类别信息的超过2万种食谱HugoDarwood地址
- 奥斯卡数据集Academy of Motion Picture Arts and Sciences地址
- 计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模AkshayBhat地址
- 聚类数据集地址
- 官方开放气候数据集地址
- 全球恐怖袭击事件数据集START Consortium地址
- 七个机器学习时序数据集地址
- 新的YELP数据集:包含470万评论和15.6万商家地址
- JMIR数据集专刊《JMIR Data》地址
- 用于评价监督机器学习算法的基准数据集地址
- 人口普查收入数据集分类地址
- 日文木版印刷文字识别数据集地址
- 多模态二元行为数据集地址
- NLP数据集加载工具集: 地址
- 日语相似词数据集:地址
- 大规模人本完形填空(多选阅读理解)数据集: 地址
- 高质量免费数据集列表
- 《数据之美》自然语言数据集/代码地址
- 微软数据集MS MARCO,阅读理解领域的”ImageNet”: Microsoft 地址
- AI2科学问答数据集(多选): Kaggle地址
文档信息
- 本文作者:MobtgZhang
- 本文链接:https://mobtgzhang.github.io/2021/04/27/Machine-Learning-Datasets/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)