2025年11月5日上午,中国科学院大学人工智能学院有幸邀请到中央民族大学毕晓君教授,在玉泉路校区为同学们带来科学前沿讲座——《多民族古籍文献智能分析与机器翻译研究》。随着人工智能技术的快速发展,如何利用先进智能技术对多民族古籍文献进行有效保护和传承已成为重要课题。本报告系统探讨了民族古籍智能分析的关键技术,并分享了在该领域的创新研究成果。

毕教授首先从研究背景切入,指出我国拥有丰富的民族古籍文献资源,如东巴文、古彝文、水书、满文等,这些珍贵的文化遗产正面临传承困境。由于古籍文献具有文字特殊、结构复杂、保存状况差异大等特点,传统研究方法效率有限。毕教授强调,将人工智能技术应用于民族古籍研究,不仅能够提高研究效率,更能为文化遗产保护提供新的技术路径。
在研究体系构建方面,毕教授提出了民族古籍智能分析的三个核心层次:图像层面的修复与识别、文字层面的分析与理解、语言层面的翻译与阐释。她特别指出,民族古籍研究具有数据稀缺、知识密集、跨学科等特点,需要建立专门的技术路线和研究方法。

针对民族古籍研究的特殊需求,毕教授团队创新性地提出了一系列解决方案。在图像处理层面,针对古籍文献常见的残缺、模糊等问题,研发了基于字典指导的大比例残缺文字修复方法;在文字识别层面,针对民族文字中普遍存在的高相似度字符识别难题,设计了强化细节特征提取的识别模型,显著提升了识别准确率。
毕教授重点介绍了在东巴文研究中取得的突破性进展。通过构建大规模单字数据集和平行语料库,研究团队在东巴文中发现了157个词组,包括126个二字词组、29个三字词组和2个四字词组。这一发现为证明东巴文是成熟的文字系统提供了重要证据。
在机器翻译研究方面,毕教授团队针对民族古籍语言特点,创新性地提出了段落级上下文语义增强策略。通过随机段落重组和句子分隔符添加等方法,有效解决了古籍文献中常见的省略、语序灵活等翻译难题。该方法在东巴文机器翻译任务中取得了显著效果,BLEU值达到23.58,为民族古籍的智能化解读提供了有效工具。

最后,毕教授总结指出,民族古籍智能分析是一个充满机遇的研究领域,需要计算机科学、语言学、文献学等多学科的深度交叉融合。她强调,人工智能技术不是要替代传统研究方法,而是要为专家学者提供更强大的研究工具,共同推动中华优秀传统文化的保护与传承。在交流环节,毕教授与在场师生就技术细节、应用前景等问题进行了深入探讨,大家纷纷表示在这次讲座中获益良多。
更多专家信息:
毕晓君,博士,二级教授,博士生导师,“民族语言智能分析与安全治理”教育部重点实验室主任、第八届教育部科技委信息学部委员、中国生物医学工程学会常务理事、中国人工智能学会会刊《智能系统学报》编委。长期致力于人工智能技术与民族语言文化的交又融合研究,特别是在东巴文、水书、古彝文、满文等代表性濒危民族语言文字的智能信息处理领域取得突破性进展。作为项目负责人,承担了国家社科重大项目“基于人工智能技术的东巴文机器释读研究”国家自然科学基金重点项目“少数民族象形文字古籍的智能分析与机器翻译”、国家民委委托项目“基于大模型技术的民族语文AI翻译系统研究”等多项国家级重大科研项目。目前,获得省部级科学技术进步一等奖1项、省部级二等奖6项;在国内外学术刊物发表论文200余篇;出版学术专著及教材2部;以主要发明人授权发明专利10余项。