大模型

本草[华驼(HuaTuo)]

哈尔滨工业大学的研究团队训练出中文医学大模型,命名为“华驼”,后来改为“本草”

标签:
值得注意的是,“本草“是中文医学大模型,而非中医大模型。模型训练使用的数据主要是中文医学知识图谱(CMeKG),并没有中医数据。
“本草”团队主要利用了中文医学知识图谱CMeKG和2023年关于肝癌疾病的中文医学文献,借助OpenAI API,分别构造了8000条问答数据和1000条多轮对话训练数据。
然后,基于LLaMA-7B基座模型,进行有监督的微调,构建了“本草”中文医学大模型。
基座模型
“本草”团队采用的基座模型为LLaMA-7B。同时也发布了在Alpaca-Chinese-7B、Bloom-7B等基座模型上进行指令微调生成的模型。
最近,“本草”团队在的活字通用大模型上进行的微调,据称效果提升较为显著。“活字”是由哈尔滨工业大学SCIR实验室基于Bloom-7B做了指令微调和RLHF后发布的通用大模型。

活字项目地址:https://github.com/HIT-SCIR/huozi
中文医学知识图谱
“本草”中文LLM模型的构建,最重要的数据来源是中文医学知识图谱CMeKG (Chinese Medical Knowledge Graph)。

CMeKG是北京大学、郑州大学等机构科研人员利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱。

CMeKG包含1万余种疾病、近2万种药物、1万余个症状、3千种诊疗技术的结构化知识描述,实现了疾病、症状、药物、诊疗技术之间广泛的知识关联,描述医学知识的概念关系及属性三元组达156万。

此外,在工具层面,CMeKG还开发了医学文本分词,医学实体识别和医学关系抽取等工具,可以对多种类型的医学文本进行自动分析与知识提取。

CMeKG工具项目地址:https://github.com/king-yyf/CMeKG_tools
问答数据的生成
那么,中文医学知识图谱里的知识如何应用呢?答案是构建问答数据,用于指令微调。

“本草”团队采取的方式是,根据任务的特定知识从知识图谱中采样实例,并利用OpenAI API (GPT 3.5) 围绕医学知识库构建问答数据,设置了多种Prompt形式来充分利用知识。

团队最终获得超过8000条问答数据,用于有监督微调。

“本草”团队还收集了2023年关于肝癌疾病的中文医学文献,利用OpenAI API,针对医学文献中的“结论”,构建了1000条多轮问答数据。目前还只是针对”肝癌”单个疾病训练,未来团队计划针对“肝胆胰”相关16种疾病训练模型。

构建“本草”的步骤
基于知识图谱构建问答数据。从中文医学知识图谱CMeKG采集样例数据,借助ChatGPT API,通过多种Prompt形式生成多样化的问答数据,超过8000条。
基于文献构建多轮对话训练样例。将2023年关于肝癌疾病的中文医学文献中的“结论“作为外部信息,基于文献资料向ChatGPT API提问,生成1000条多轮对话训练样例。
指令微调训练“本草”中文LLM。基于Bloom-7B或“活字”基座大模型,进行指令微调。可在一张A100-SXM-80GB显卡上进行训练,训练总轮次10轮,耗时约2h17m。
构建“本草”的启示
“本草”中文医学大模型的构建有非常好的数据基础。

如果在行业垂直领域,已经存在可用的知识图谱、知识库,那么将非常有助于训练垂直领域大模型。

但是,更多的情况是没有现成的知识图谱,那么就需要投入人力物力,采集和梳理相关的语料、知识库、数据集。当然,可以借助通用大模型的文本抽取和推理能力,构建行业知识图谱。

此外,用于指令微调的数据需要足够多。“本草”目前使用的8000条问答数据和1000条多轮对话训练数据,看来还是很不够的。“本草”大模型距离实际应用还有很长的路要走。

Views: 0

数据统计

相关导航

暂无评论

暂无评论...