找到380个数据集

标签: 多语言

过滤结果
  • AI4Privacy个人身份信息PII掩蔽数据集-200K样本

    2025年4月17日   

    AI4Privacy个人身份信息PII掩蔽数据集-200K样本 数据来源:互联网公开数据 标签:AI4Privacy, PII, 个人身份信息, 数据掩蔽, 隐私保护, 自然语言处理, 人工智能, 合成数据, 多语言, Hugging Face 数据概述: 本数据集由 AI4Privacy 开发,是隐私保护与人工智能领域的一项开创性工作。该数据集托管于...
    packageimg
  • 日本报纸新闻数据集

    2025年4月16日   

    日本报纸新闻数据集 数据来源:互联网公开数据 标签:日本媒体,新闻文本,时间序列,多语言 corpus,新闻分析,文本挖掘,语言研究 数据概述: 本数据集收录了2005年7月至2021年10月期间日本主流报纸网站及历史报纸 dataset...
    packageimg
  • Jigsaw多语言恶意评论翻译测试数据集-多语言-英语

    2025年4月16日   

    Jigsaw多语言恶意评论翻译测试数据集-多语言-英语 数据来源:互联网公开数据 标签:恶意评论,文本分类,多语言,翻译,Jigsaw,自然语言处理,机器学习,文本分析 数据概述:...
    packageimg
  • 多语言毒性评论检测数据集

    2025年4月15日   

    多语言毒性评论检测数据集 数据来源:互联网公开数据 标签:毒性评论,多语言,自然语言处理,机器学习,文本分类,跨语言学习 数据概述:...
    packageimg
  • 领英行业列表数据集

    2025年4月15日   

    领英行业列表数据集 数据来源:互联网公开数据 标签:领英,行业列表,多语言,职业数据,市场研究 数据概述: 本数据集包含了领英平台上所有可用的行业分类列表,覆盖了多种语言。数据集不仅适用于英语,还收录了其他多种语言的行业描述,为跨语言的职业分析和市场研究提供了全面的参考。 数据用途概述:...
    packageimg
  • 维基百科关于谷歌的页面浏览量统计数据集-2023

    2025年4月15日   

    维基百科关于谷歌的页面浏览量统计数据集-2023 数据来源:互联网公开数据 标签:维基百科,谷歌,页面浏览量,搜索,互联网,信息检索,数据分析,多语言 数据概述:...
    packageimg
  • 多语言软件缺陷报告及其翻译数据集1963-2025

    2025年4月15日   

    多语言软件缺陷报告及其翻译数据集1963-2025 数据来源:互联网公开数据 标签:多语言,软件缺陷报告,翻译,自然语言处理,机器翻译,跨语言分析 数据概述:...
    packageimg
  • 多语言仇恨言论分析数据集1963-2021

    2025年4月15日   

    多语言仇恨言论分析数据集1963-2021 数据来源:互联网公开数据 标签:仇恨言论,多语言,法语,意大利语,西班牙语,俄语,土耳其语,英语,葡萄牙语,文本分析,自然语言处理 数据概述:...
    packageimg
  • 维基百科多语言文本识别数据集-2018

    2025年4月15日   

    维基百科多语言文本识别数据集-2018 数据来源:互联网公开数据 标签:文本识别,多语言,维基百科,自然语言处理,机器学习,语言学,文本分类,数据集 数据概述: WiLI-2018数据集是一个用于评估多语言文本识别任务的基准数据集,包含了来自维基百科的235种语言的235,000个文本段落。该数据集经过精心平衡,并提供了训练集和测试集划分。...
    packageimg
  • 开放获取图书数据集

    2025年4月15日   

    开放获取图书数据集 数据来源:互联网公开数据 标签:开放获取,图书,人文社会科学,科学技术与数学,多语言,地域性,出版实践 数据概述:...
    packageimg
  • 欧洲歌唱大赛YouTube评论数据集-比利时歌曲2013

    2025年4月15日   

    欧洲歌唱大赛YouTube评论数据集-比利时歌曲2013 数据来源:互联网公开数据 标签:欧洲歌唱大赛,YouTube评论,语言学研究,多语言,用户评论,语言态度,文化分析 数据概述:...
    packageimg
  • 多语言平行语料库释义数据集-73种语言

    2025年4月15日   

    多语言平行语料库释义数据集-73种语言 数据来源:互联网公开数据 标签:平行语料库,释义,自然语言处理,机器翻译,多语言,文本数据,语言学,文本分析 数据概述: 本数据集收录了73种语言的句子释义语料库,名为TaPaCo。该语料库由Yves...
    packageimg
  • 维基百科数据集

    2025年4月15日   

    维基百科数据集 数据来源:互联网公开数据 标签:维基百科,开放数据,知识库,多语言,历史数据,内容分析,用户贡献 数据概述:...
    packageimg
  • 多语言有声书内容与市场分析数据集

    2025年4月15日   

    多语言有声书内容与市场分析数据集 数据来源:互联网公开数据 标签:有声书,多语言,内容分析,市场研究,语言分布,用户偏好,出版趋势 数据概述: 本数据集收录了82,517本多语言有声书的详细信息,涵盖28种语言,包括英语、...
    packageimg
  • 印度移动与非移动技术文章及推文数据集2023

    2025年4月15日   

    印度移动与非移动技术文章及推文数据集2023 数据来源:互联网公开数据 标签:移动技术,非移动技术,文章,推文,文本分类,文本预处理,翻译,音译,印度,多语言 数据概述:...
    packageimg
  • 喀拉拉邦政治观点YouTube评论多语言数据集

    2025年4月15日   

    喀拉拉邦政治观点YouTube评论多语言数据集 数据来源:互联网公开数据 标签:政治观点,YouTube评论,喀拉拉邦,多语言,英语,马拉雅拉姆语,Manglish,社交媒体分析,舆情分析 数据概述:...
    packageimg
  • 恐慌与忧虑情感语料库

    2025年4月15日   

    恐慌与忧虑情感语料库 数据来源:互联网公开数据 标签:情感分析,多语言,panic,worry,文本分类,情绪识别,跨语言研究 数据概述:...
    packageimg
  • 多语言大型语言模型生成文本数据集1963-2021

    2025年4月15日   

    多语言大型语言模型生成文本数据集1963-2021 数据来源:互联网公开数据 标签:大型语言模型,多语言,文本生成,机器学习,自然语言处理,人工智能,深度学习,神经网络,数据科学,文本分类,语言理解,文本挖掘 数据概述:...
    packageimg
  • 多语言医学问答数据集MedQA-4K数据集

    2025年4月15日   

    多语言医学问答数据集MedQA-4K数据集 数据来源:互联网公开数据 标签:医学,问答,多语言,自然语言处理,机器学习,英语,中文,韩语,医疗,数据集 数据概述: 本数据集源于MedQA数据集,并精心挑选了多选题形式的医学问题。该数据集专为多语言自然语言处理和微调语言模型而设计。 关键特征: 语言分布:...
    packageimg
  • 多任务学习社交媒体情感分析多语言数据集

    2025年4月15日   

    多任务学习社交媒体情感分析多语言数据集 数据来源:互联网公开数据 标签:多任务学习,情感分析,多语言,自然语言处理,社交媒体,CSV数据 数据概述:...
    packageimg