找到5个数据集

标签: 语料

过滤结果
  • 斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集

    2025年4月14日 30 28 1

    斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,语料库,斯洛文尼亚语,网络文本,文本类型识别,机器学习,GINCO 1.0,语料 数据概述: 本数据集是基于斯洛文尼亚网络文本类型识别语料库GINCO 1.0构建的训练集和测试集,按照80:20的比例划分。GINCO...
    packageimg
  • MultiWOZ (Multi-domain Wizard-of-Oz)

    2024年11月10日 90 11 5

    Multi-Domain Wizard-of-Oz 数据集 (MultiWOZ),一个完全标记的人类与人类书面对话的集合,跨越多个领域和主题。在 10k 个对话的大小上,它至少比以前所有带注释的面向任务的语料库大一个数量级。
    packageimg
  • SST (Stanford Sentiment Treebank)

    2024年11月10日 90 17 1

    斯坦福情感库是一个带有完全标记的解析树的语料库,可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集,由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语由 3...
    packageimg
  • 综合性食谱语料库

    2024年11月10日 30 12 7

    完整的食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符,最小长度为10个字符。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。
    packageimg
  • Douban Conversation Corpus豆瓣会话语料库

    2024年11月10日 90 19 2

    豆瓣会话语料库,这是第一个用于基于检索的聊天机器人的人工标记测试集。
    packageimg