调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什

代码 代码 1649 人阅读 | 0 人回复

<
梦朝 萧箫 收自 凸非寺
量子位 报导 | 公家号 QbitAI


传闻微硬弄了个AI翻译白话文?

赶快去尝尝,先去一段《曹刿论争》的开首:

145341thd8h33hz63bpmh3.png

我震动了,竟然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。

难道AI除进修白话文辞汇战语法,借生读了《左传》?

换成诗表示又将如何?

145342qbxmnm4455zxqnqb.png

当然翻译出去没有是很有文教性,但AI准确大白到了“视着统一个玉轮”那层意义。

嚯,那个翻译极年夜天惹起了我的爱好。

假如百度战微硬一同上考场

既然翻译出准确词意没有是太易,那白话文中的特别语法AI可否把握?

为了更好天评价微硬翻译的才能,那里请出老牌选脚百度翻译,让它们比试一下。

第一题:秦时明月汉时闭

那里考面是互文的建辞办法,该当大白成秦汉期间的明月、秦汉期间的关隘。

百度的谜底是:

145342qn7fx68s8b3zix3u.png

看去百度出大白到位,再看看微硬的谜底:

145342bbh8tjqy13qj5346.png

微硬准确大白了互文,领先拿下1分。

第两题:春风又绿江北岸

那句的考面是词类活用,绿原来是个描述词,正在那里用做动词。

依旧百度先去:

145343u7ebnf9ylfzg9gb8.png

出成绩,接下去是微硬:

145343ae6oucgc6q6rrq00.png

等一下,当然绿用做动词翻译对了,但是前面怎样多了一个“但是”?

难道……把后半句诗也输出来尝尝:

145343wwop0ifr8p2pmod7.png

公然云云,看去微硬翻译正在用整句停止锻炼的时分把握了句取句之间的迁移转变干系,厥后没有知怎样又算到前半句里了。

145344ahtzmuje6jzsi60j.gif

此次百度扳回一局,1:1仄。

最初一题锤炼一下白话文中的另外一个常睹语法征象——倒拆

好比《邹忌讽齐王纳谏》中的“我孰取乡北缓公好?”

按老例百度先:

145344vmq44hu3149q3rmx.png

然后是微硬:

145345bltbfdntt6upb33t.png

看去两个AI皆教会了倒拆句的用法,终极成果2:2仄,各有所长。

微硬翻译当然多教会了一个互文,但究竟结果依旧年青选脚,对句子之间干系的处置需求再操练。

接下去搬弄一下微硬白话文翻译的极限。

好比维基百科实在便有个白话文版叫维基年夜典,内里恰好有微硬的词条。

145345v49u900tj4zjloo0.png

去尝尝让微硬AI翻译一下本人公司的引见:

145346vleeufatgatuefkk.png

看起去当代的真白话文关于那个刚诞生的小AI来讲依旧太刻薄了。

当然也出格锻炼了“微硬”战“电脑”这类当代才呈现的名词,但碰到“一九七五年”这类现代不消的表达便不可了,前老板比我盖茨的名字也出认出去。

“坐之者”那里借按古文的语境脑补出一个“国君”,能够那便是过拟开吧。

道到当代的表达方法,实在那个翻译东西借能够倒过去用,把文言文译成白话文。

好比诸葛丞相那句“我从已睹过有云云寡廉鲜耻之人!”如果用白话文道出去是否是便更对味了?

145346ztub3nnhh7bzuczu.png

那末,如许的模型是怎样“炼成”的呢?

Transformer减成,专攻锻炼数据

用AI弄白话文翻译,的确没有是头一回睹。

百度是最早用机械进修做白话文翻译的,借申请过相关专利:「一种正在文言文取白话文之间停止体裁转换的办法战装备」。

相关白话文翻译的模型也很多,从机械进修、RNN到Transformer皆有,像微硬此次采取的,便是Transformer模型:

145346ij2kf4r24eattf2f.png

图源:微硬研讨院AI头条


不外,白话文翻译中的锻炼数据,却不断是个易面。

比拟于其他支流言语(中文当代文、英文等),白话文能够道是锻炼数据少少,同时借存正在句式变更、繁简混合等成绩,形成翻译的僵硬。

此次微硬的白话文翻译,次要便处理了四个圆里的数据成绩:



  • 其一,针对数据量不够,操纵不异字词停止数据分解战加强。白话文战当代文有一些不异含义的字词,假如对那些词语停止召回、对齐,再扩大到短词短句,就可以分解大批可用的锻炼数据。

  • 其两,针对句式变更没有灵活,对数据格局停止变形,提拔鲁棒性。白话文断句战当代文没有太一样,为此研讨职员经由过程数据格局变形,去扩展锻炼数据量,让模型也教会翻译相同语句。

  • 其三,针对字体辨认没有力,用简繁混合数据锻炼,提拔模型辨认才能。为了让机械进修能同时辨认简繁混合的白话文,研讨职员正在锻炼模型时会将简体中文战繁体中文数据混合正在一同停止锻炼,确保翻译模型没有堕落。

  • 其四,针对当代文的“新词”,特地成立相关数据散战辨认模型,确保没有“治翻译”。为了避免模型正在碰到当代文中的“下铁、电脑、互联网”这类词时呈现紊乱(例如将下铁翻译成下处的铁块),研讨职员建了一个模型,特地用去辨认那些新词。除新词,也针对专客、论坛、微专等新体裁停止锻炼。

145347exoxj95xt9x2qe2h.png

但是那皆借只是白话文战中文之间的互译,整面英文尝尝?

英译中,bug躲没有住了

此次微硬的白话文翻译是间接整开到了Bing翻译里,难道借能够把白话文翻译成中语?

先搬弄一下单个的英词句子:

  Never gonna give you up
145347qc2jmpruw22sus4t.png

145347ekkio2umfkw1wifi.gif

看去简朴句出有易倒AI,我们提拔一下易度,用一尾比力出名的英文诗「当您老了」尝尝:

145348ivwwp84xv1u0nx0e.png

等等,“昏暗”、“阳景深”、“直下腰正在酒边”……那皆是甚么鬼?

145348kijztdedw31sdld0.png

简朴的句子仿佛借好,但是一到少句子,怎样便翻译成如许了?

不外,微硬也道过,此次次要完成的是白话文战当代文互译,阐明其他言语正在翻译成白话文之前,该当也需求先翻译成当代文。

那去看看微硬的英译中结果怎样:

145349t650n50999axi6nh.png

破案了,微硬的英译中的确没有太止……能够也是招致英文翻译成白话文呈现得误的缘故原由。

比拟之下,从白话文翻译当代文、再翻译到中文的结果要略微好一面。

145349kewak0dh0pdnsnz6.png

逆带一提,当然端庄的英翰墨句翻译得没有太止,不外正在这类字词的翻译上……居然另有面文艺?

145349vm96fgglzh2z6g3q.png

看去当前能够战翻译模型进修如何文雅天骂人了。(脚动狗头)

假如各人借调戏出了甚么好玩的翻译,欢送留行~

微硬白话文翻译地点:
https://cn.bing.com/translator

参考链接:
[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811
[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q


免责声明:假如进犯了您的权益,请联络站少,我们会实时删除侵权内乱容,感谢协作!
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明,如果原文没有版权声明,按照目前互联网开放的原则,我们将在不通知作者的情况下,转载文章;如果原文明确注明“禁止转载”,我们一定不会转载。如果我们转载的文章不符合作者的版权声明或者作者不想让我们转载您的文章的话,请您发送邮箱:Cdnjson@163.com提供相关证明,我们将积极配合您!
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并自负版权等法律责任。
回复 关闭延时

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则