医学对话语料库(100k+):医学应用的生成语言模型

这个全面的开源数据集包含 10 万多个对话和说明,其中包括医学术语,非常适合训练用于各种医疗应用的生成语言模型。通过从人类对话中收集的样本,这个数据集包含各种选项和建议,可帮助创建有用的语言模型。从处方药到家庭疗法,如瑜伽练习、呼吸练习和自然疗法——这个集合应有尽有!只有当您信任使用正确数据构建的语言模型时,您才能使用它来做出现实生活中的重要决策。这些数据一定会为您的项目提供所需的推动力,每个样本都包含合法信息! 如何使用数据集 下载数据集。点击本页顶部的“下载”按钮,按照提示即可下载数据集。 解压缩并将文件保存到您的计算机或设备上您选择的位置。 打开“训练”或“测试”CSV 文件,具体取决于您是想将其用于训练还是测试目的。两者都包含使用医学术语的对话和说明,可用于训练用于医学应用的生成语言模型。 仔细阅读数据框中标有“对话”的列中每一行提供的每个对话/说明。这些对话提供了医生、患者、药剂师等之间的交易示例,讨论的主题包括健康建议、天然家庭疗法和处方等,以及涉及诊断、症状、药物副作用和与某些医疗状况有关的健康问题的对话等。 请注意,所有对话都是根据不同复杂程度编写的,强调在医疗保健环境中直接与患者沟通或在同事之间通过使用医学术语通过口头/书面交流讨论病例时的有效性。 6 利用自然语言处理 (NLP) 技术,如 BERT 嵌入或与不同医学领域相对应的词嵌入,可能有助于关联和分类这些对话,以便根据领域专家确定的特定感兴趣类别进行进一步的研究,无论是数学还是统计学上的,还是为了更广泛的理解不同语言的背景,如中文、西班牙语、葡萄牙语和法语等

研究思路 自然语言处理应用,例如自动医疗转录。 提取和检测与健康相关的关键词,用于医疗保健应用中的预测分析。 自动诊断利用在此数据集上训练的语言模型,根据用户输入(通过症状或其他风险因素(例如年龄、生活方式等))识别疾病和病痛

packageimg

数据与资源

附加信息

字段
数据集大小 2.21 MiB
最后更新 2025年2月12日
创建于 2025年2月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。