本草[华驼(HuaTuo)]

值得注意的是，“本草“是中文医学大模型，而非中医大模型。模型训练使用的数据主要是中文医学知识图谱（CMeKG），并没有中医数据。
“本草”团队主要利用了中文医学知识图谱CMeKG和2023年关于肝癌疾病的中文医学文献，借助OpenAI API，分别构造了8000条问答数据和1000条多轮对话训练数据。
然后，基于LLaMA-7B基座模型，进行有监督的微调，构建了“本草”中文医学大模型。
基座模型
“本草”团队采用的基座模型为LLaMA-7B。同时也发布了在Alpaca-Chinese-7B、Bloom-7B等基座模型上进行指令微调生成的模型。
最近，“本草”团队在的活字通用大模型上进行的微调，据称效果提升较为显著。“活字”是由哈尔滨工业大学SCIR实验室基于Bloom-7B做了指令微调和RLHF后发布的通用大模型。

活字项目地址：https://github.com/HIT-SCIR/huozi
中文医学知识图谱
“本草”中文LLM模型的构建，最重要的数据来源是中文医学知识图谱CMeKG (Chinese Medical Knowledge Graph)。

CMeKG是北京大学、郑州大学等机构科研人员利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。

CMeKG包含1万余种疾病、近2万种药物、1万余个症状、3千种诊疗技术的结构化知识描述，实现了疾病、症状、药物、诊疗技术之间广泛的知识关联，描述医学知识的概念关系及属性三元组达156万。

此外，在工具层面，CMeKG还开发了医学文本分词，医学实体识别和医学关系抽取等工具，可以对多种类型的医学文本进行自动分析与知识提取。

CMeKG工具项目地址：https://github.com/king-yyf/CMeKG_tools
问答数据的生成
那么，中文医学知识图谱里的知识如何应用呢？答案是构建问答数据，用于指令微调。

“本草”团队采取的方式是，根据任务的特定知识从知识图谱中采样实例，并利用OpenAI API (GPT 3.5) 围绕医学知识库构建问答数据，设置了多种Prompt形式来充分利用知识。

团队最终获得超过8000条问答数据，用于有监督微调。

“本草”团队还收集了2023年关于肝癌疾病的中文医学文献，利用OpenAI API，针对医学文献中的“结论”，构建了1000条多轮问答数据。目前还只是针对”肝癌”单个疾病训练，未来团队计划针对“肝胆胰”相关16种疾病训练模型。

构建“本草”的步骤
基于知识图谱构建问答数据。从中文医学知识图谱CMeKG采集样例数据，借助ChatGPT API，通过多种Prompt形式生成多样化的问答数据，超过8000条。
基于文献构建多轮对话训练样例。将2023年关于肝癌疾病的中文医学文献中的“结论“作为外部信息，基于文献资料向ChatGPT API提问，生成1000条多轮对话训练样例。
指令微调训练“本草”中文LLM。基于Bloom-7B或“活字”基座大模型，进行指令微调。可在一张A100-SXM-80GB显卡上进行训练，训练总轮次10轮，耗时约2h17m。
构建“本草”的启示
“本草”中文医学大模型的构建有非常好的数据基础。

如果在行业垂直领域，已经存在可用的知识图谱、知识库，那么将非常有助于训练垂直领域大模型。

但是，更多的情况是没有现成的知识图谱，那么就需要投入人力物力，采集和梳理相关的语料、知识库、数据集。当然，可以借助通用大模型的文本抽取和推理能力，构建行业知识图谱。

此外，用于指令微调的数据需要足够多。“本草”目前使用的8000条问答数据和1000条多轮对话训练数据，看来还是很不够的。“本草”大模型距离实际应用还有很长的路要走。