找到180个数据集

标签: 语义理解

过滤结果
  • SemEval_2020任务3_语境中分级词相似度数据集

    2025年12月21日 30 100 76

    数据集概述 该数据集为SemEval-2020任务3的研究资料,核心内容是探究语境对人类感知词相似度的影响,重点关注语境带来的连续(分级)语义变化,而非仅多义词的离散义项差异。数据集包含标注者对段落语境中词对相似度的评分数据,支持分析语境导致的相似度变化。 文件详解 文档文件:...
    packageimg
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日 30 87 66

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • LaTeX数学公式图像匹配数据集230k

    2025年12月12日 30 18 0

    数据集概述 该数据集包含超过二十三万组LaTeX数学公式及其对应的PNG格式图像,图像分辨率为72dpi且尺寸各异。数据来源于arXiv的LaTeX源文件,经解析生成,是版本3更新后的数据集,规模从十八万扩展至二十三万。 文件详解 文件夹与文件: generated_png_images文件夹:包含所有PNG格式的数学公式图像文件...
    packageimg
  • GerMedIQ德语医疗问诊问答语料库

    2025年12月12日 30 124 69

    数据集概述 该数据集包含四千五百二十四条德语医疗领域的模拟问答对,源自一百一十六个标准化问诊问题,由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具,同时包含十八个大中小型语言模型生成的零样本合成回答。 文件详解 根目录文件:Jhofenbitzer/GerMedIQ-...
    packageimg
  • 德国交通标志识别基准概念补充标签与本体数据集

    2025年12月10日 30 84 39

    数据集概述 本数据集为德国交通标志识别基准(GTSRB)的子集提供补充标签,基于1968年《道路标志与信号公约》定义的兴趣概念,通过视觉特征描述数据集中的各类交通标志。 文件详解 文件名称:gtsrb_concepts.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • Reddit_Based_实体链接数据集_多标注文本语义分析完整数据

    2025年12月10日 30 116 23

    数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
    packageimg
  • 英语短语单位的词汇语义特征研究文档

    2025年12月9日 30 100 65

    数据集概述 本数据集包含一份关于英语短语单位词汇语义特征的研究文档,聚焦于英语短语的词汇与语义特性分析,为相关语言研究提供参考资料。 文件详解 文件名称: Otakulova Zarifa Husan qizi.pdf 文件格式: PDF (.pdf) 文件内容: 该文档围绕英语短语单位的词汇语义特征展开研究,具体内容需通过阅读PDF文档获取。...
    packageimg
  • Webis标题党破解语料库2022

    2025年12月9日 30 202 84

    数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...
    packageimg
  • Stack_Overflow代码片段生成问题标题论文数据集

    2025年12月7日 30 158 97

    数据集概述 该数据集是论文《Generating Question Titles for Stack Overflow from Mined Code Snippets》的配套数据,内容为从Stack Overflow数据转储中提取的代码片段及相关信息,用于支持代码片段生成问题标题的研究。 文件详解 文件名称: Code2Que-data.zip...
    packageimg
  • 代码仓库聊天机器人弱监督方法数据集

    2025年12月7日 30 102 3

    数据集概述 本数据集为论文《A Weak Supervision-Based Approach to Improve Chatbots for Code Repositories》的配套数据与脚本,包含用于改进代码仓库聊天机器人的弱监督方法相关文件,支持相关研究的复现与验证。 文件详解 AlphaBot.zip:...
    packageimg
  • 短语动词的解读问题数据集

    2025年12月5日 30 186 122

    数据集概述 本数据集围绕短语动词的解读问题展开,核心内容为相关主题的文档资料,为理解短语动词解读难点提供支持。 文件详解 文件名称: Shahlo Kamalova.pdf 文件格式: PDF (.pdf) 文件内容: 包含关于短语动词解读问题的文档资料 适用场景 语言学研究: 分析短语动词的语义特征与解读障碍 英语教学应用:...
    packageimg
  • 伊斯兰圣训文本及音频数据集

    2025年10月31日 30 144 0

    伊斯兰圣训文本及音频数据集_Islamic_Hadith_Text_and_Audio_Dataset 数据来源:互联网公开数据 标签:伊斯兰教, 圣训, 文本分析, 音频分析, 宗教研究, 语言学, 语义理解, 机器翻译 数据概述: 该数据集包含来自互联网的伊斯兰圣训文本及其对应的音频文件,旨在为研究和应用提供多模态数据。主要特征如下:...
    packageimg
  • 文本相关性预测模型预测结果数据集

    2025年9月12日 30 97 43

    文本相关性预测模型预测结果数据集_Text_Relevance_Prediction_Model_Prediction_Results 数据来源:互联网公开数据 标签:文本匹配, 自然语言处理, 机器翻译, 语义理解, 深度学习, 模型预测结果, 跨语言, 数据分析 数据概述:...
    packageimg
  • 法律文本分类与嵌入数据集

    2025年9月7日 30 41 39

    法律文本分类与嵌入数据集_Legal_Text_Classification_and_Embedding_Dataset 数据来源:互联网公开数据 标签:法律文本, 文本分类, 嵌入模型, 自然语言处理, 机器学习, 法律案例, 文本分析, 语义理解 数据概述:...
    packageimg
  • 商品描述文本信息分析数据集

    2025年9月2日 30 69 47

    商品描述文本信息分析数据集_Product_Description_Text_Information_Analysis_Dataset 数据来源:互联网公开数据 标签:商品描述, 文本分析, 语义理解, 商品推荐, 文本摘要, 数据挖掘, 自然语言处理, 机器学习 数据概述:...
    packageimg
  • 越南语堤坝安全问答数据集

    2025年8月13日 30 1 0

    越南语堤坝安全问答数据集_Vietnamese_Dam_Safety_Question_Answering_Dataset 数据来源:互联网公开数据 标签:问答系统, 自然语言处理, 堤坝安全, 文本处理, 越南语, 信息检索, 灾害管理, 语义理解 数据概述:...
    packageimg
  • 多语言蕴含关系推理数据集_Multilingual_Natural_Language_Inference_Dataset

    2025年6月24日 60 21 3

    多语言蕴含关系推理数据集_Multilingual_Natural_Language_Inference_Dataset 数据来源:互联网公开数据 标签:自然语言处理, 文本推理, 语义理解, 多语言, 情感分析, 机器学习, 语言模型, 语料库 数据概述:...
    packageimg
  • 语言流畅度评估多维度数据集

    2025年7月19日 60 29 20

    语言流畅度评估多维度数据集_Language_Fluency_Evaluation_Multi_dimensional_Dataset 数据来源:互联网公开数据 标签:文本评估, 语言学, 写作质量, 自然语言处理, 机器学习, 语言模型, 文本分析, 语义理解 数据概述:...
    packageimg
  • 用户提问与答案匹配数据集

    2025年7月25日 30 56 27

    用户提问与答案匹配数据集_User_Question_and_Answer_Matching 数据来源:互联网公开数据 标签:问答系统, 自然语言处理, 文本匹配, 信息检索, 对话分析, 语义理解, 机器学习, 数据标注 数据概述: 该数据集包含用户提问与对应答案的数据,记录了用户在特定场景下提出的问题及其相应的解答。主要特征如下:...
    packageimg
  • 考试题目文本分析数据集

    2025年7月2日 30 204 184

    考试题目文本分析数据集_Examination_Questions_Text_Analysis 数据来源:互联网公开数据 标签:考试题目, 文本分析, 自然语言处理, 问答系统, 文本分类, 语义理解, 数据挖掘, 信息检索 数据概述: 该数据集包含考试题目文本数据,记录了用于学术研究和应用开发的考试题目内容。主要特征如下:...
    packageimg