数据集

开放数据集

20 项

发现 Kaggle 和 HuggingFace 上的开放数据集,涵盖 NLP、计算机视觉、表格数据、音频等 AI/ML 训练数据

共 20 个结果
数据集自然语言处理
95.5

FineWeb

HuggingFaceFW

2024年最重要的开源 LLM 预训练数据集

320.0K下载
5.8K投票
+18.37天
预训练LLM网页数据+1
数据集自然语言处理
89.5

Cosmopedia

HuggingFaceTB

最大的合成教育文本数据集,用于 SmolLM 训练

280.0K下载
3.5K投票
+12.57天
合成数据教育预训练+1
数据集自然语言处理
85.5

Stanford Alpaca

tatsu-lab

大语言模型指令微调的标志性数据集

1.9M下载
4.5K投票
+8.57天
指令微调LLM对齐+1
数据集多模态
85.0

LAION-5B

LAION

Stable Diffusion 等图像生成模型的核心训练数据

420.0K下载
3.2K投票
+10.27天
图文配对多模态CLIP+1
数据集计算机视觉
82.5

ImageNet

Stanford Vision Lab

计算机视觉领域最重要的基准数据集之一,推动了深度学习革命

2.9M下载
4.5K投票
+3.57天
图像分类深度学习基准测试+1
数据集音频与语音
82.0

Common Voice

mozilla-foundation

全球最大的开源多语言语音数据集

750.0K下载
2.1K投票
+7.27天
语音识别多语言ASR+1
数据集自然语言处理
82.0

OpenAssistant Conversations

OpenAssistant

开源社区最大的人类标注对话数据集

680.0K下载
2.8K投票
+6.57天
对话RLHF人类反馈+1
数据集自然语言处理
81.5

UltraChat 200k

HuggingFaceH4

高质量对话微调数据集,Zephyr 模型的核心训练数据

520.0K下载
1.8K投票
+5.87天
对话SFT微调+1
数据集计算机视觉
80.2

COCO Dataset

cocodataset

目标检测和图像分割领域的核心基准数据集

2.1M下载
3.9K投票
+4.27天
目标检测图像分割字幕生成+1
数据集自然语言处理
78.8

OpenWebText2

EleutherAI

GPT 系列模型训练数据的开源复现版本

980.0K下载
1.3K投票
+5.87天
语言模型预训练文本语料+1
数据集自然语言处理
76.5

SQuAD 2.0

rajpurkar

NLP 阅读理解领域的标准基准数据集

1.6M下载
890投票
+2.17天
问答阅读理解NLP+1
数据集音频与语音
72.5

LibriSpeech

openslr

语音识别领域最常用的基准数据集之一

890.0K下载
780投票
+2.37天
语音识别ASR英语+1
数据集计算机视觉
68.5

Chest X-Ray Images

paultimothymooney

医学影像AI诊断的入门级数据集

3.1M下载
2.8K投票
+2.57天
医学影像肺炎检测X光+1
数据集自然语言处理
67.0

WikiText-103

Salesforce

语言模型评估的标准基准数据集

620.0K下载
450投票
+1.57天
语言模型基准测试维基百科+1
数据集表格数据
67.0

Credit Card Fraud Detection

mlg-ulb

异常检测和不平衡分类的经典数据集

4.8M下载
4.1K投票
+1.87天
欺诈检测异常检测不平衡分类+1
数据集计算机视觉
66.5

CIFAR-10

Alex Krizhevsky

深度学习入门和快速实验的经典小型数据集

3.2M下载
2.1K投票
+1.27天
图像分类入门基准测试+1
数据集推荐系统
66.5

MovieLens 25M

grouplens

推荐系统领域最经典的基准数据集

2.8M下载
2.2K投票
+1.37天
推荐系统协同过滤电影+1
数据集表格数据
58.5

House Prices

Kaggle

回归分析和特征工程的经典练习数据集

5.2M下载
3.8K投票
+17天
回归特征工程竞赛+1
数据集表格数据
56.8

Titanic Dataset

Kaggle

数据科学入门的标志性竞赛数据集

8.5M下载
5.2K投票
+0.87天
分类入门竞赛+1
数据集计算机视觉
55.5

MNIST

Yann LeCun

机器学习入门的标志性数据集

9.5M下载
3.5K投票
+0.57天
手写识别入门分类+1