数据集概述
该数据集包含Graph2VR用例2的数据创建过程相关文件,涵盖原始数据提取、格式转换、脚本工具等内容,支持VIP工具的数据集生成与处理,适用于生物医学领域的数据分析与处理场景。
文件详解
- 文档与许可文件:
- README.md:Markdown格式,说明Graph2VR用例2数据集创建步骤、依赖工具及处理日志
- LICENSES.md:Markdown格式,数据集相关许可信息
- GraphDB SPARQL queries.pdf:PDF格式,GraphDB的SPARQL查询语句文档
- 压缩包文件:
- sparql_queries_output.zip:压缩格式,SPARQL查询输出结果
- vep_output_edited.zip:压缩格式,编辑后的VEP输出数据
- samplesheets.zip:压缩格式,样本表文件
- vip_input.zip:压缩格式,VIP工具输入数据
- vip_output_vcf.zip:压缩格式,VIP工具输出的VCF文件
- vip2rdf_output.zip:压缩格式,VIP转RDF的输出结果
- 脚本文件:
- add_sample.py:Python格式,添加样本的脚本
- convert_data_extract.py:Python格式,数据提取转换脚本
- samplesheet_generator.py:Python格式,样本表生成脚本
- 文本与数据表文件:
- converted_data_extract.tsv:TSV格式,包含LOVD patient ID、VEP input、HPO IDs等字段的转换后数据
- data_extract.tsv:TSV格式,包含LOVD patient ID、Geographic Region、Sex等字段的原始数据
- enhancement_header.txt:TXT格式,增强文件头信息
- enhancement_subset_cleaned.txt:TXT格式,清理后的增强子集数据
适用场景
- 生物医学数据分析:支持基因、样本相关数据的提取与格式转换
- 数据处理流程复现:基于脚本文件复现Graph2VR用例2的数据集创建过程
- 生物信息工具集成:配合VIP工具进行数据集生成与验证
- 医学数据标准化:实现临床相关数据的结构化处理与格式转换