close
X

以翻譯為跳板,網易有道將推出語音助手及智慧音箱


有道在外界的印象往往是「詞典」與「翻譯」,但在3月30日下午深圳的網易有道技術開放日上,這家公司出人意料的透露,已經在開發語音助手,今年5月會有產品釋出。

這次以AI為主題的開放日上,有道介紹了神經網路翻譯技術,OCR技術,以及有道智雲的相關進展及解決方案。有道的AI翻譯解決方案分於基於視覺互動和語音互動的解決方案兩類,而語音助手就被「藏」在了語音解決方案之中。

有道詞典產品技術負責人林會傑告訴雷鋒網,之所以做語音助手,是發現有使用者在使用有道翻譯官這一產品時,會將它當作一個可以理解自己表達的助手,而非僅僅是一個翻譯工具。有道翻譯官APP可以識別語音並即時翻譯。

比如,面對一個翻譯工具,你會說一句話讓其全部翻譯出來,而面對一個助手,你會說「翻譯一下XXXX這句話」,並且只想要部分內容被翻譯出來。


根據有道工作人員的介紹,與其它同類產品一樣,有道的語音助手也會有智慧問答、生活查詢、智慧翻譯、日常閒聊、多語言理解,以及自然語言指令控制等功能。不過在現場的演示中,有道的語音助手還不是一個成型的產品,只是顯示了一個簡單的互動介面。

林會傑表示,今年5月會發布關於語音助手的更多詳細情況,並且還會推出一款硬體。他也向確認,這款硬體會是音箱

網易語音音箱並不奇怪,與阿里、騰訊一樣,網易雲音樂與網易新聞讓其並不缺少內容,更何況在今年2、3月,網易雲音樂還分別與騰訊音樂及阿里音樂達成版權互相轉授權合作,內容庫更為豐富。但由有道來做確實挺令人意外,至少與外界對它一直以來的形象不相符。


除了語音助手外,網易也公佈了其在神經網路翻譯,OCR技術,有道智雲方面的進展。

有道翻譯在2008年上線,2017年更新為神經網路模型,並在同年更新為有道智雲,向外輸出翻譯技術解決方案。有道的神經網路翻譯在過去一段時間的主要進展有下面幾個方面:

  • 語言支持:目前有道已經支持10多種語言翻譯,最近新上線了越南語,還將上線泰語、印尼語等小語種。

  • 服務效能:採用CPU+GPU方案服務7.5億線上使用者,單次請求的平均翻譯時間僅為40ms,系統穩定性達到99.95%。

  • 離線能力:隨著手機效能的提升,有道還同步開發了離線版的神經翻譯系統,主要使用CPU解決方案,單語種模型檔案小於100M,翻譯品質接近線上翻譯,目前支持中英日韓法西葡7種語言。

  • 海外拓展:除了圍繞中文的翻譯,有道還在海外進行了擴充套件,為國外的開發者提供以英語為中心的翻譯能力,比如英語與印地語、法語、西班牙語的互譯。

有道智雲還整合了OCR技術,其在拍照翻譯這樣的應用中十分重要。有道表示,目前其OCR技術已經識別超過72億張圖片,支持17種語言,並支持離線識別,其中線上識別可以達成99%的請求耗時650ms,而離線模型在20M內,平均1.2秒即可識別出結果。

另外,有道對文字的方向、角度,以及文件結果都做了諸多優化,並能做到無需指定語言即可識別,而且支持多語言混合識別。未來,有道的OCR技術還將支持公式識別,面向教育場景(比如選擇題、填空題和數學推理等)進行優化,還會針對手寫板提供智慧批改、錯題整理等服務。

將上面的兩項技術打包在一起,有道提供有基於視覺互動和基於語音互動的兩種翻譯解決方案。視覺互動方案主要包括:

  • 拍照翻譯:即輸入圖片後識別圖中文字並給出翻譯結果

  • 原圖翻譯:在拍照翻譯的結果上,將原圖文字無縫替換為翻譯內容,看起來就和原圖一樣。

  • AR翻譯:也就是用攝像頭拍攝目標,視訊中的文字會實時翻譯。裡面涉及到識別、翻譯、追蹤、背景分割等多種技術,有道表示可以做到全離線的AR翻譯。

語音翻譯則可以做到實時識別與翻譯,並對中式英語進行了特別的優化。

有道一位工作人員告訴雷鋒網,現在其已經有1000多名員工,而且是網易內部AI能力最強的團隊,其AI業務的重點還是以翻譯為基礎,逐步擴充套件在教育領網域的應用和解決方案


分享是一種美德,喜歡就幫我們讚一下支持吧~

為你推薦