国产大模型在医学术语翻译中的准确性对比:Qwen-Max vs GLM-4
摘要: 为了评估国产大模型在医学垂直领域的落地潜力,本实验选取了500个高频医学术语及50段临床病历摘要,分别测试了通义千问(Qwen-Max)与智谱GLM-4的翻译准确率与幻觉率。结果显示,两者在通用术语上表现接近,但在罕见病及新药名称解析上,Qwen-Max 表现略优。
1. 实验设置
实验数据集包含:
- ICD-10 疾病名称 (200条)
- SNOMED CT 临床术语 (200条)
- 最新 FDA 批准药物名称 (100条)
评价指标包括:准确率 (Accuracy), BLEU分数, 以及 幻觉率 (Hallucination Rate)。
2. 实验结果
| 模型 | 准确率 (Accuracy) | BLEU Score | 幻觉率 (Hallucination) |
|---|---|---|---|
| Qwen-Max | 92.4% | 0.85 | 3.2% |
| GLM-4 | 89.8% | 0.82 | 4.5% |
3. 案例分析
在翻译 "Paroxysmal nocturnal hemoglobinuria" (阵发性睡眠性血红蛋白尿) 时,两个模型均能准确给出中文名称。但在处理 "Ofatumumab" (奥法木单抗) 等较新药物时,GLM-4 偶尔会出现音译不规范的情况。
4. 结论与展望
当前国产大模型在医学术语翻译任务上已具备较高的实用价值。未来工作将集中在利用 RAG 技术引入外部知识库,进一步降低幻觉率。