-
Touché23_Based_人类价值观论证识别数据集2023
2026年1月28日 30 53 16
数据集概述 本数据集为Touché/SemEval 2023 Task 4(ValueEval)任务专用,用于识别论证背后的人类价值观。基于Webis-ArgValues-22数据集构建,包含训练、验证、测试阶段的论证文本与对应标签数据,共27个文件,支持自然语言处理领域的价值观识别研究。 文件详解 数据文件(.tsv格式,共25个)...
-
Webis_Based_Wikipedia科技创新历史数据_2023
2026年1月23日 30 132 23
数据集概述 本数据集包含从2022年1月1日维基媒体数据转储中提取的维基百科科学和技术类文章的历史部分,通过维基百科分类网络检索文章,结合基于章节标题的启发式方法和分类器提取历史章节,形成一个JSON文件。 文件详解 文件名称:webis-WikiSciTech-23.json 文件格式:JSON...
-
Webis_ArgRank_17_Based_英文论证相关性研究基准数据集_2017
2026年1月18日 30 157 81
数据集概述 本数据集是用于研究论证相关性的英文基准数据集,包含32个排名、超过3万个论证单元的真实论证图,以及可复现排名实验的源代码。数据集以压缩包形式提供,无目录层级划分,可支持论证相关性领域的模型训练与评估。 文件详解 文件名称:webis-argrank-17.zip 文件格式:ZIP...
-
Webis_Editorial_Quality_新闻社论双视角质量评估标注数据集2018
2026年1月13日 30 40 23
数据集概述 本数据集为Webis-Editorial-Quality-18语料库,包含1000篇新闻社论的质量评估数据。每篇社论由3名自由派和3名保守派标注者分别进行质量评分,并附带标注者针对观察效果的自由文本理由,旨在支持新闻社论质量新维度的研究。 文件详解 文件名称:corpus-webis-editorial-quality-18.zip...
-
Webis_Query_Segmentation_Corpus_2010网络查询分割众包标注数据
2026年1月11日 30 198 165
数据集概述 本数据集为Webis Query Segmentation Corpus 2010(Webis-QSeC-10),包含53,437条网络查询的分割标注结果,标注由Mechanical...
-
Webis标题党破解语料库2022
2025年12月9日 30 2 1
数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...



