数据集

蛋白质序列酶活性预测数据集ProteinSequenceEnzymeActivityPrediction-belkina

数据来源：互联网公开数据

标签：蛋白质序列，酶活性，机器学习，生物信息学，序列分析，pH值，数据挖掘，蛋白质工程

数据概述：该数据集包含来自Novozymes公司的数据，记录了蛋白质序列及其对应的酶活性相关信息，用于预测蛋白质在不同pH值条件下的活性。主要特征如下：时间跨度：数据未明确具体时间，可视为静态蛋白质序列数据集。地理范围：数据来源可能为Novozymes公司的相关研究，未明确具体地理位置。数据维度：数据集包括以下字段： seq_id：蛋白质序列的唯一标识符； protein_sequence：蛋白质的氨基酸序列； pH：实验测定的pH值； data_source：数据来源，例如Novozymes。数据格式：CSV格式，包含train.csv、test.csv和sample_submission.csv三个文件，便于数据分析和模型训练。来源信息：数据来源于Novozymes公司，具体来源信息未知。该数据集已进行标准化处理，方便进行分析。该数据集适合用于生物信息学和机器学习领域的研究，特别是蛋白质结构与功能预测、酶活性预测等方向。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于生物信息学、蛋白质工程等领域的学术研究，如蛋白质结构与功能关系研究、酶活性预测模型构建等。行业应用：可以为生物制药、酶工程等行业提供数据支持，特别是在酶的筛选、优化和工业应用方面。决策支持：支持蛋白质工程领域的决策制定和实验设计，加速新酶的开发和应用。教育和培训：作为生物信息学、机器学习相关课程的辅助材料，帮助学生和研究人员深入理解蛋白质序列分析和酶活性预测。此数据集特别适合用于探索蛋白质序列与酶活性之间的内在联系，帮助用户构建预测模型、优化蛋白质设计。

数据与资源

versions_20250407113800.zipZIP
6.99 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	6.99 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

蛋白质序列酶活性预测数据集ProteinSequenceEnzymeActivityPrediction-belkina

数据与资源

附加信息

注册成功！