开放数据集
20 项发现 Kaggle 和 HuggingFace 上的开放数据集,涵盖 NLP、计算机视觉、表格数据、音频等 AI/ML 训练数据
FineWeb
HuggingFaceFW
2024年最重要的开源 LLM 预训练数据集
Cosmopedia
HuggingFaceTB
最大的合成教育文本数据集,用于 SmolLM 训练
Stanford Alpaca
tatsu-lab
大语言模型指令微调的标志性数据集
LAION-5B
LAION
Stable Diffusion 等图像生成模型的核心训练数据
ImageNet
Stanford Vision Lab
计算机视觉领域最重要的基准数据集之一,推动了深度学习革命
Common Voice
mozilla-foundation
全球最大的开源多语言语音数据集
OpenAssistant Conversations
OpenAssistant
开源社区最大的人类标注对话数据集
UltraChat 200k
HuggingFaceH4
高质量对话微调数据集,Zephyr 模型的核心训练数据
COCO Dataset
cocodataset
目标检测和图像分割领域的核心基准数据集
OpenWebText2
EleutherAI
GPT 系列模型训练数据的开源复现版本
SQuAD 2.0
rajpurkar
NLP 阅读理解领域的标准基准数据集
LibriSpeech
openslr
语音识别领域最常用的基准数据集之一
Chest X-Ray Images
paultimothymooney
医学影像AI诊断的入门级数据集
WikiText-103
Salesforce
语言模型评估的标准基准数据集
Credit Card Fraud Detection
mlg-ulb
异常检测和不平衡分类的经典数据集
CIFAR-10
Alex Krizhevsky
深度学习入门和快速实验的经典小型数据集
MovieLens 25M
grouplens
推荐系统领域最经典的基准数据集
House Prices
Kaggle
回归分析和特征工程的经典练习数据集
Titanic Dataset
Kaggle
数据科学入门的标志性竞赛数据集
MNIST
Yann LeCun
机器学习入门的标志性数据集
开放数据集 关联网站
访问开放数据集平台,发现更多 AI/ML 训练数据、基准数据集和研究资源
全球最大的数据科学竞赛平台,拥有海量开放数据集
www.kaggle.com/datasetsAI/ML 数据集社区,提供数万个开源训练数据集
huggingface.co/datasets将学术论文与基准数据集关联的平台
paperswithcode.com/datasets谷歌数据集搜索引擎,索引全球数据集
datasetsearch.research.google.com经典机器学习数据集库,学术研究的重要资源
archive.ics.uci.eduAWS 开放数据注册表,提供大规模公共数据集
registry.opendata.aws