-
问答对及文本嵌入数据集QuestionAnsweringandTextEmbeddingDataset-nahushlele
问答对及文本嵌入数据集QuestionAnsweringandTextEmbeddingDataset-nahushlele 数据来源:互联网公开数据 标签:问答系统, 文本嵌入, 知识检索, 自然语言处理, 语义理解, 信息抽取, 数据集构建, 机器学习 数据概述: 该数据集包含来自nahushlele-... -
推特名人推文嵌入数据集
推特名人推文嵌入数据集 数据来源:互联网公开数据 标签:推特,名人,自然语言处理,文本嵌入,社交媒体分析,机器学习,数据科学 数据概述: 本数据集包含了推特平台上排名前1000位知名名人账户的推文及其对应的文本嵌入向量。数据集共包含915位名人用户的推文,推文内容通过tweepy(Python语言的Twitter... -
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92 数据来源:互联网公开数据 标签:自然语言处理,预训练,数据集,文本嵌入,深度学习,语言模型,机器翻译,文本生成 数据概述: 该数据集是EEDI项目用于预训练的最终混合数据集,包含了多种来源的文本数据,旨在提升语言模型的性能。主要特征如下:... -
圣经与摩门教经典数据集
圣经与摩门教经典数据集 数据来源:互联网公开数据 标签:圣经,摩门教经典,文本嵌入,宗教研究,自然语言处理,文本挖掘,机器学习 数据概述: 本数据集包含了《圣经》(KJV版本)、《摩尔门经》、《教义和圣约》以及《珍珠经》的书籍、章节和经文内容。数据集近期更新,加入了基于Google genai嵌入模型(models/text-... -
标签化辩论比赛嵌入数据集LabeledTabbieEmbeddingsDataset-orcldsapp129833
标签化辩论比赛嵌入数据集LabeledTabbieEmbeddingsDataset-orcldsapp129833 数据来源:互联网公开数据 标签:辩论比赛,数据集,文本嵌入,自然语言处理,机器学习,文本分析,教育,人工智能 数据概述:... -
越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac
越南法律文本嵌入数据集VietnamLawTextEmbeddingDataset-trungmac 数据来源:互联网公开数据 标签:法律文本,数据集,自然语言处理,文本嵌入,越南法律,机器学习,文本分析,人工智能 数据概述: 该数据集包含来自越南法律体系的文本数据,记录了越南相关法律法规的文本内容及其对应的嵌入向量。主要特征如下:... -
StackExchange园艺与景观问答社区主题数据集-2023年12月
StackExchange园艺与景观问答社区主题数据集-2023年12月 数据来源:互联网公开数据 标签:园艺,景观,问答,Stack Exchange,社区,问题,答案,标签,文本嵌入,自然语言处理 数据概述: 本数据集收录了截至2023年12月31日,来自Stack... -
印度法律咨询数据集
印度法律咨询数据集 数据来源:互联网公开数据 标签:法律咨询,印度法律,宪法,法律格式,律师专业,向量数据库,文本嵌入 数据概述: 本数据集结合了多个公开数据源,旨在为印度法律咨询领域提供全面的文本和结构化信息。数据集由以下部分组成: 法律文本数据:来源于Hugging Face平台上的两个数据集:...