蛋白质RNA文本数据集

该数据集包含从 Wikipedia API 中提取的科学文本,重点关注与 RNA 和蛋白质相关的主题。它有两个 CSV 文件:一个是葡萄牙语,另一个是英语。该项目的目标是探索使用语言模型 (LLM) 和快速工程技术来识别与可能成为药物或疫苗开发潜在候选物的蛋白质相关的关键词。此外,该数据集可用于机器学习方法,使用 LDA(潜在狄利克雷分配)、LSA(潜在语义分析)等算法或聚类技术,包括 PCA(主成分分析)和 t-SNE(t 分布随机邻域嵌入)。 该数据集为开发支持生物医学发现和协助候选蛋白质的初步筛选的模型提供了丰富的基础。 🇧🇷描述 Este 数据集包含维基百科 API 之外的科学文本,主要涉及蛋白质和 RNA 的主题。这是在 CSV 中显示的:以葡萄牙语结尾,以英语结尾。我们旨在探索语言模型 (LLM) 的使用和快速识别技术的工程技术,并与药物或疫苗的开发中的蛋白质成分潜力相关联。这些数据集是机器学习中常用的算法,包括 LDA(潜在狄利克雷分配)、LSA(潜在语义分析)或集体技术,包括 PCA(主成分分析)和 t-SNE(t-分布式随机分析)邻居嵌入)。 这与生物医学研究和候选蛋白质初步分类的模型开发相结合。

packageimg

数据与资源

附加信息

字段
数据集大小 74.61 MiB
最后更新 2024年11月9日
创建于 2024年11月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。