书香小说网

手机浏览器扫描二维码访问

第67章 你们能比我更懂机器翻译5k(第2页)

这个完全可以根据前词判断是光还是世界。”

沃森弱弱提醒道:“教授,你还会俄语啊?”

林燃一副理所当然的样子:“当然,我都和科罗廖夫见了两面,我不会俄语怎么和他交流的?

我同时会俄语、德语、英语和汉语。”

多语言大师的身份,给林燃的理论增添了几分可信度。

在这个时代,科学家们会几门语言并不奇怪。

当然一些敏感部门会提高对你的怀疑。

以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。

“另外翻译过程,应该是模块化设计,而不是简单的映射关系。

它应该分成预处理、翻译、后处理三部分。

预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。

这样来降低单次计算的复杂度,提高规则的复用率!”

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用,但有路总比之前没有好。

再者,如果你不好好记下来,到时候被开除只是教授一句话的事。

“好了刚才我们讲了一些简单的内容,现在才是最难的。

因为IBM的机器不是那么强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。

俄语句子Мыговоримомире

英语翻译:“Wespeakaboutpeace

对齐结果:“мы”对应“we”

“говорим”对应“speak”

“о”对应“about”

“мире”对应“peace”

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如,在语料中,“говорим”在80%的句子中翻译为“speak”,20%翻译为“talk”。

这样对于我们就可以构建概率表了。

将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

热门小说推荐
龙符

龙符

苍茫大地,未来变革,混乱之中,龙蛇并起,谁是真龙,谁又是蟒蛇?或是天地众生,皆可成龙?朝廷,江湖门派,世外仙道,千年世家,蛮族,魔神,妖族,上古巫道,千百势力,相互纠缠,因缘际会。...

妖夏

妖夏

盛夏不老不死了上千年,看尽了想到想不到的各种热闹。没想到,她却也成了别人眼里的热闹,在一群不靠谱参谋的参谋下,屡战屡败,屡败屡战本闲初心不改,这本立志要写回言情了!...

少帅你老婆又跑了

少帅你老婆又跑了

少帅说我家夫人是乡下女子,不懂时髦,你们不要欺负她!那些被少帅夫人抢尽了风头的名媛贵妇们欲哭无泪到底谁欺负谁啊?少帅又说我家夫人娴静温柔,什么中医...

费先生,借个孕

费先生,借个孕

沈于归从小就特别倒霉,衰神附体。她拼尽了此生所有的运气,遇到了他只要跟费南城在一起,所有霉运通通退散。于是,她就赖上了他。boss,借个运!费南城纠结了一下,开始认真的脱衣服。沈于归惊恐你,你,你要干什么?费南城欺身而上不是要借个孕?沈于归此运非彼孕啊喂!!我拼尽了此生所有的运气...

财运天降

财运天降

陆原语录作为一个超级富二代装穷是一种什么体验?别拦着我,没有人比我更有资格回答这个问题!...

我是都市医剑仙

我是都市医剑仙

医者无不活命,剑出血洒长空。从来没想到,学习这么多年治病救人的同时,竟然也将传说中剑仙传承给修炼了,原本以为只是故事的一切,却在自己身上逐渐发生...