国产大模型在医学术语翻译中的准确性对比：Qwen-Max vs GLM-4

2026年2月10日 | 分类: 模型评估

摘要： 为了评估国产大模型在医学垂直领域的落地潜力，本实验选取了500个高频医学术语及50段临床病历摘要，分别测试了通义千问（Qwen-Max）与智谱GLM-4的翻译准确率与幻觉率。结果显示，两者在通用术语上表现接近，但在罕见病及新药名称解析上，Qwen-Max 表现略优。

实验数据集包含：

评价指标包括：准确率 (Accuracy), BLEU分数, 以及 幻觉率 (Hallucination Rate)。

模型	准确率 (Accuracy)	BLEU Score	幻觉率 (Hallucination)
Qwen-Max	92.4%	0.85	3.2%
GLM-4	89.8%	0.82	4.5%

在翻译 "Paroxysmal nocturnal hemoglobinuria" (阵发性睡眠性血红蛋白尿) 时，两个模型均能准确给出中文名称。但在处理 "Ofatumumab" (奥法木单抗) 等较新药物时，GLM-4 偶尔会出现音译不规范的情况。

当前国产大模型在医学术语翻译任务上已具备较高的实用价值。未来工作将集中在利用 RAG 技术引入外部知识库，进一步降低幻觉率。