Reddit聚类P2P数据集

该数据集是一个文本模态的社交媒体聚类数据集,包含从Reddit平台收集的约45.9万条标题和帖子文本,覆盖440个不同的子版块话题,主要用于评估文本嵌入模型在段落级文本聚类任务中的性能,是自然语言处理领域文本表示学习和聚类算法研究的重要基准数据。

maas
魔搭社区
2025-11-12 更新
社交媒体分析聚类算法
创建时间2024-09-06
更新时间2025-11-12
原始链接

https://modelscope.cn/datasets/MTEB/reddit-clustering-p2p

访问原始数据
官方服务

如需原始数据获取支持或标注服务,请联系我们。

帮我联系

资源简介

该数据集是MTEB(大规模文本嵌入基准)中的一个文本聚类任务数据集,专门用于评估文本嵌入模型的聚类性能。数据集包含从Reddit社交媒体平台收集的标题和帖子文本,总计约45.9万条样本,涵盖440个不同的Reddit子版块(如teenagers、relationship_advice、GME等)。数据以段落形式组织,包含10组5万条段落和40组1万条段落的聚类任务。该数据集主要应用于自然语言处理领域的文本表示学习、聚类算法评估和社交媒体内容分析等研究方向。

提供机构:maas

精度瓶颈?数据缺失?

当前公开数据无法满足您的算法精度?千方提供针对 泌乳素瘤 的高质量、多模态真实临床数据定制解决方案。

获取专属数据定制方案
影像RedditClusteringP2P.v2