Post tagged: 文言文

基于 Moses 的文言文统计机器翻译系统

Note

这是一份参加学校办的科技竞赛写的论文。既然没得奖,就直接放出来供大家参考吧。本文内容参见之前发布的 《文言文机器翻译》。点击使用 在线演示

为了更清楚地列出所采用的资源和工具,在发布时另外标注了链接和符号角标。

摘要:本项目制作了一种文言文机器翻译系统,使用了基于词组的统计翻译模型。通过收集整理大量平行语料、训练针对文言文的分词系统并应用统计机器翻译中的先进技术,在控制了模型大小和内存占用的情况下,使本系统的翻译结果质量超过了现有系统的水平。本系统拥有较为友好的用户交互界面,能根据文本特征自动确定翻译方向并在结果中显示原文和译文中词语的对应关系,最终本系统可以为用户提供了一个新的文言文辅助阅读方法。

关键词:文言文,统计机器翻译,自然语言处理

A statistical machine translation system for Classical Chinese based on Moses

Abstract: This project presents a statistical machine translation system that can translate text between Classical …

文言文机器翻译

在线文言文机器翻译即日起开始试运行。这个本来去年年末就可以上线,但由于各种各样问题,只好在2015年第一天上线。现在系统还在各种微调、提高性能,会经常更新,统计模型也会不时更新。由于资源限制,翻译速度可能略,也可能出现各种错误。

这个项目从2014年5月起开始试验,使用了Moses统计机器翻译系统,逐渐完善了各种配套工具,例如文言文分词(基于结巴分词)、简繁转换、分句等。主要使用维基文库、维基百科数据建立了三元文言文、现代文语言模型。平行语料采集于几个文言文翻译网站,使用机器翻译辅助句对齐,目前共有约五十万句。

经测试, 这个翻译系统总体优于百度,特别是现代文翻译文言文;更优于简单查找替换翻译系统。但由于词库等原因,人名地名可能处理不好。总之,能用。