機器翻譯是怎么脫胎換骨的?梅宏院士為你獨家揭秘!

                           十年前,網民們還在吐槽機器翻譯軟件還沒有小學生翻譯得好。當時,一個廣為流傳的段子是:

                  “How are you(你好嗎)?會被翻譯成怎么是你?”,

                  How old are you(你多大了)?會被翻譯成怎么老是你?

                  一笑之余,機器翻譯似乎被等同成了不靠譜的翻譯。

                  2018年,機器漢英翻譯已經能夠達到6級水平。10年間,機器翻譯技術的背后到底有著怎樣翻天覆地的變化呢?

                  來看我們的獨家揭秘吧!

                  中國科學院院士、全國信息技術標準化委員會大數據標準工作組組長、知名戰略科學家梅宏,走進《中國經濟大講堂》,用通俗易懂的語言帶你領略機器翻譯技術的前世今生: 

                  QQ圖片20180315173950.jpg

                  梅宏:大家知道,機器翻譯是很難的一件事情,我們人工翻譯都不是那么容易。過去我們做機器翻譯都是怎么做的呢?

                  手工編寫規則的時代

                  我們先搞文法,基于規則的機器翻譯,通過人總結編寫規則,然后構造一個文法。原始的語言輸入之后,通過雙語詞典的查詢、調整,最后輸出一個結果。但是由于我們自然語言天生的二義性,翻譯的規則是非常復雜的,手工編寫規根本做不到,所以這個翻譯質量一直上不去。

                  文法規則要覆蓋20%以上的真實語句就要數萬條規則,而語義規則,自然語言是“上下文相關文法”,較之文法規則,語義規則更要復雜得多,如果沒有這個關聯,你怎么理解?

                  大家可以看這個例子,這個是我們最典型的:

                  QQ圖片20180315174021.jpg

                  一堆的意思”,這個“意思”到底是哪個“意思”?我們看到這些“意思”,大都是能理解的,但你讓機器去理解,整個就瘋掉了,根本就不可能做到。

                  基于統計的機器翻譯時代

                  后來在70年代的時候,統計語言學就出現了,不再是人去產生規則,而通過機器統計,把現有的語料庫拿出來,完成這件事情。

                   QQ圖片20180315174038.jpg

                  1988年,IBM提出了統計機器翻譯,就是用數據驅動的機器翻譯的新篇章,靠計算能力,靠大的語料庫完成,機器從數據中間自己去學規則。谷歌就走了這條路,當時它把聯合國的各種語言,形成語料庫。因為機器并不知道那個翻譯的好壞,翻譯的結果是人覺得還不錯。一個中文的字串和英文的字串,比如說中文“我吃飯”,翻譯成英文是什么樣子,大體上主流的翻譯是什么,機器進行一比對,一搜索就打出來了,并不是通過規則驅動出來的。

                   

                  QQ圖片20180315173616.jpg

                  本文編輯:王洵

                  相關推薦

                  精品精品国产自在久久_精品久久久艹视频_精品久久久久久