数据集概述
本数据集包含用于评估KOnPoTe(从文本中填充知识图谱/本体)方法的11个文件,覆盖法语房产销售领域。内容分为输入数据、黄金标准和输出结果三类,支持分析不同词形还原工具与方法对知识图谱构建的影响。
文件详解
- 输入文件(Inputs)
- 文件名称:biens_immobiliers.owl
- 文件格式:OWL
- 字段映射介绍:描述法语房产销售领域的知识图谱本体文件
- 文件名称:corpus_78_annonces.xml
- 文件格式:XML
- 字段映射介绍:包含78条法语房产销售分类广告的语料库文件
- 黄金标准文件(Gold Standard)
- 文件名称:gold_standard.owl
- 文件格式:OWL
- 字段映射介绍:基于语料库广告填充后的本体黄金标准知识图谱文件
- 输出文件(Outputs)
- 文件名称:output_Aker_baseline.owl、output_Aker_baseline_and_next.owl、output_TT_Konpote.owl、output_Aker_text_based_analysis.owl、output_TT_baseline_and_next.owl等8个输出文件
- 文件格式:OWL
- 字段映射介绍:使用Aker和TreeTagger两种词形还原工具,结合KOnPoTe、文本分析、Baseline+next、Baseline四种方法生成的知识图谱输出文件
适用场景
- 知识图谱构建方法评估: 对比不同词形还原工具(Aker、TreeTagger)与构建方法对房产领域知识图谱填充效果的影响
- 自然语言处理研究: 分析法语房产广告文本的语义提取与本体填充技术
- 本体工程应用: 以房产销售领域为案例,研究领域本体的构建与优化流程
- 文本知识转换分析: 探索从非结构化文本到结构化知识图谱的转换效率与准确性