技术笔记

国产大模型在医学术语翻译中的准确性对比:Qwen-Max vs GLM-4

摘要: 为了评估国产大模型在医学垂直领域的落地潜力,本实验选取了500个高频医学术语及50段临床病历摘要,分别测试了通义千问(Qwen-Max)与智谱GLM-4的翻译准确率与幻觉率。结果显示,两者在通用术语上表现接近,但在罕见病及新药名称解析上,Qwen-Max 表现略优。

1. 实验设置

实验数据集包含:

评价指标包括:准确率 (Accuracy), BLEU分数, 以及 幻觉率 (Hallucination Rate)

2. 实验结果

模型 准确率 (Accuracy) BLEU Score 幻觉率 (Hallucination)
Qwen-Max 92.4% 0.85 3.2%
GLM-4 89.8% 0.82 4.5%

3. 案例分析

在翻译 "Paroxysmal nocturnal hemoglobinuria" (阵发性睡眠性血红蛋白尿) 时,两个模型均能准确给出中文名称。但在处理 "Ofatumumab" (奥法木单抗) 等较新药物时,GLM-4 偶尔会出现音译不规范的情况。

4. 结论与展望

当前国产大模型在医学术语翻译任务上已具备较高的实用价值。未来工作将集中在利用 RAG 技术引入外部知识库,进一步降低幻觉率。

← 返回列表