Reddit聚类P2P数据集

Name: Reddit聚类P2P数据集
Creator: maas

该数据集是一个文本模态的社交媒体聚类数据集，包含从Reddit平台收集的约45.9万条标题和帖子文本，覆盖440个不同的子版块话题，主要用于评估文本嵌入模型在段落级文本聚类任务中的性能，是自然语言处理领域文本表示学习和聚类算法研究的重要基准数据。

maas

魔搭社区

2025-11-12 更新

社交媒体分析聚类算法

创建时间2024-09-06

更新时间2025-11-12

原始链接

https://modelscope.cn/datasets/MTEB/reddit-clustering-p2p

访问原始数据

官方服务

如需原始数据获取支持或标注服务，请联系我们。

帮我联系

资源简介

该数据集是MTEB（大规模文本嵌入基准）中的一个文本聚类任务数据集，专门用于评估文本嵌入模型的聚类性能。数据集包含从Reddit社交媒体平台收集的标题和帖子文本，总计约45.9万条样本，涵盖440个不同的Reddit子版块（如teenagers、relationship_advice、GME等）。数据以段落形式组织，包含10组5万条段落和40组1万条段落的聚类任务。该数据集主要应用于自然语言处理领域的文本表示学习、聚类算法评估和社交媒体内容分析等研究方向。

提供机构：maas

精度瓶颈？数据缺失？

当前公开数据无法满足您的算法精度？千方提供针对泌乳素瘤的高质量、多模态真实临床数据定制解决方案。

获取专属数据定制方案