摘要翻譯、抄襲檢測……人工智能延伸科學交流觸角

2019-08-26 10:18:12??來源：科技日報責任編輯：周冬我來說兩句

近日，一款看起來挺有文化的寫稿機器人上線了。它叫小柯，由中國科學報社和北京大學科研團隊共同研發。

小柯寫的不是普通的稿子，而是中文科學新聞。據介紹，運用自然語言處理技術，小柯以英文論文摘要為基礎，能夠快速寫出中文科學新聞底稿，然后由專業人士和報社的編輯進行把關和信息完善，幫助科學家以中文方式快速獲取全球高水平英文論文中的最新科研進展。

目前小柯的作品已經上線。人工智能的觸角，也在伸向各個領域。

小柯：一個盡職的摘要翻譯轉寫者

科技日報記者發現，7月5日，小柯機器人發出第一篇稿子，截至8月22日記者統計時，小柯機器人共發稿415篇。初期更新時間距論文發表時間間隔一個月左右，現在可以做到當天或隔天更新，每天更新幾篇到二十幾篇不等。所選論文來自生命科學等領域，涉及《自然》《細胞》《新英格蘭醫學雜志》等期刊。

記者對照分析了小柯作品《單細胞測序揭示冠狀動脈疾病保護機制》及其英文原文。新聞中，小柯先對論文主題、研究單位以及發表期刊進行簡單介紹，后接英文原文摘要的翻譯，大致反映原文內容；翻譯時會對原文進行適當的語句簡化，同時在對專業詞語的翻譯上也使用了如“血管平滑肌細胞”“保護性纖維帽”等專業表述。

不過，這也不全是小柯的功勞，因為稿件發出前，還有人工審校這一步驟。北京大學計算機科學技術研究所研究員萬小軍團隊負責小柯的系統總體設計與聯合技術攻關。他告訴科技日報記者，目前機器翻譯系統的性能很大程度上依賴于其所使用的訓練數據，即平行語料。目前的平行語料多為新聞語料，因此訓練得到的機器翻譯模型對于日常新聞的翻譯效果較好。但學術文獻（比如生物學術論文）與日常新聞在用詞造句等方面都有較大差別，機器翻譯系統對于學術文獻翻譯的效果并不理想。

這一次，他們通過融合領域知識進行語句智能篩選，選擇適合大眾理解的語句，并基于語句簡化提升語句翻譯質量。“英文學術論文摘要適合專業科研人員閱讀，但摘要中的語句并不都適合寫到科學新聞中面向大眾傳播，因此需要結合編輯提供的先驗知識，采用計算機算法對語句進行篩選，保留適合進行大眾新聞傳播的語句。”萬小軍說。

自然語言處理技術不只能讓機器人寫稿

研發小柯用了半年時間，萬小軍表示，和一般寫稿機器人相比，一個好的跨語言科技新聞寫稿機器人需要進行兩次重要的信息轉換過程：一次是不同語言的轉換，將英文文本轉換為中文文本；另一次是語言風格的轉換，將學術型文字表達轉換為大眾能夠接受的通俗文字表達。“這兩次轉換都具有較大的挑戰性，目前并沒有完全解決。后續還需要進一步積累數據，調整算法模型，才能取得更好的效果。”萬小軍說。

接下來，團隊還將繼續優化小柯，讓它寫出的科學新聞內容更豐富，表達更生動。

當然，翻譯撰寫科技新聞稿件，只是自然語言處理等人工智能技術在學術交流中所能大顯身手的領域之一。

“基本上，只要人類交流和工作過程中涉及到語言和文字的地方，自然語言處理技術都有可能發揮作用。”萬小軍說，在科研論文寫作過程中，可以借助自然語言處理技術幫助推薦參考文獻，并自動生成related work等章節的文字；業界也有基于自然語言處理技術自動編撰圖書的嘗試。“我個人也接觸到很多很有意思也很有挑戰的應用需求，但可惜的是不少需求都無法基于目前的自然語言處理技術進行實現。自然語言處理技術還需要進一步地發展和突破，我相信在未來將有更多的用武之地。”

中國知網常務副總經理張宏偉長期關注自然語言處理，大數據和人工智能方面的應用研究。他告訴科技日報記者，在數字出版和知識服務的全鏈條中，你都能看到人工智能和機器學習技術的身影。

人工智能可以對數字出版的選題策劃、協同撰稿、內容編審進行賦能。大數據標注機器人則能對海量文獻信息資源進行OCR文字識別，智能版面分析，知識元抽取，自動分類，自動標引主題，自動生成摘要，自動翻譯，自動標注引用和參考文獻。

人們熟悉的論文抄襲檢測，同樣需要智能技術。它不是簡單的語句重復檢測，而是要對文本內容（包括圖片、公式、表格等）進行語義索引，“看你在思想上有沒有抄襲別人”。如果存在不同語言之間的互抄，還需要動用“機器翻譯”。張宏偉表示，初級的語義抄襲可以由機器揪出來，不過，如果足夠有“心機”，完全用自己的語言“洗”了別人的思想，對人工智能的技術要求一下就提高了許多。目前已有利用神經網絡模型對文本內容構建高維度語義索引等新技術出現，不管是中文還是英文，一律映射到一個統一的語義空間，實現真正基于內容理解的語義級全文比對檢索。

知識庫是智慧社會的基礎設施

至于在學術研究中必不可少的資料索引，看似簡單，也仍然具有技術含量。

張宏偉說，數字出版和數字圖書館的資源類型非常豐富，有大量文本、圖像和音視頻數據，且數據是非結構化的，若想對其進行深度的挖掘利用，難度不小。

就拿常見的信息檢索來說，首先得做到結果要全，相關度要高；再進階一步，能不能用自然語言交互的方式檢索；升級一下難度，用智能問答的方式查找信息，能否直接給出答案？“要讓檢索功能變得更貼心，計算機要‘學會’閱讀資料，總結、推理然后回答。它需要把海量的數據資源變成自己可以理解的知識庫。”張宏偉說。

深度學習等統計方法嚴重依賴于大樣本數據，然而，現實世界中，很多實際問題僅僅依靠統計方法是無法解決的，這就需要建立專門的計算機能理解的知識庫，實現真正的人工智能。但構建知識庫，本身是一項極其艱難且耗時漫長的工作。畢竟，機器和人對知識的理解方式大相徑庭。

張宏偉說，像知網這樣的機構正在致力于深度整合全球知識信息資源，建設世界知識大數據。也在讓文本文獻碎片化、網絡化，依據知識使用的場景，采用半自動知識抽取算法來構建面向垂直領域的知識圖譜。2019年知網陸續推出了一些基于知識圖譜的行業智慧應用產品，如醫療領域的臨床智能診斷，法律領域的智能量刑判案等。

“不過，我們在這些領域剛剛起步。我個人覺得，還是要少一點浮躁，踏踏實實做一些基礎性的工作。沒有知識的支撐，就談不上‘智慧’。” 在張宏偉看來，知識庫和人工智能，本身就是互相促進、相互賦能的關系。構建知識庫需要人工智能，而人工智能的發展，也離不開知識庫。怎么將人類的知識庫轉換成計算機能理解的知識庫是人工智能的核心問題，面臨許多困難，需要學術界和產業界共同努力。

相關閱讀:

打印 | 收藏 | 發給好友【字號大中小】

今日熱詞

持續深化拓展"三爭"行動
AI看福建
傳承長征精神
福岸
提振消費信心
葉問
福州南站想說愛你不容易
山海人家

更多>>福建今日重點

更多>>國際國內熱點

中國醫療隊“移動藥房”深入緬甸震中災區
低碳祭掃生態安葬成為文明新風尚
原來5000年前“流行”對稱美
“甲亢哥”直播中國之旅燃爆全球！
那條刻有你名字的路，現在已繁花似錦
邊境小城成為中外民眾增進友誼的熱土
關稅大棒揮向全球，真的有用嗎？

新聞圖片

永遠銘記珍愛和平——緬懷菲律賓華僑抗日先烈

贊比亞首都盧薩卡掠影

AI海報丨跟著古詩詞“解鎖”福建清明傳統習俗

AI海報 | 讓清明更“清明”

國際一周熱圖

欣欣，你在哪

更多>>娛樂

點擊排行
三天
一周
一月

原創
熱詞
政務
福建
臺海
國內
國際
直通屏山
視頻
評論
娛樂
體育
財經
專題
大學城
網事

關于我們 | 廣告服務 | 網站地圖 | 網站公告 |

國新辦發函[2001]232號閩ICP備案號(閩ICP備05022042號) 互聯網新聞信息服務許可證編號：35120170001 網絡文化經營許可證閩網文〔2019〕3630-217號
信息網絡傳播視聽節目許可（互聯網視聽節目服務/移動互聯網視聽節目服務）證號：1310572 廣播電視節目制作經營許可證（閩）字第085號
網絡出版服務許可證（署）網出證（閩）字第018號增值電信業務經營許可證閩B2-20100029 互聯網藥品信息服務（閩）-經營性-2015-0001
福建日報報業集團擁有東南網采編人員所創作作品之版權，未經報業集團書面授權，不得轉載、摘編或以其他方式使用和傳播
職業道德監督、違法和不良信息舉報電話：0591-87095403（工作日9:00-12:00、15:00-18:00） 舉報郵箱：jubao@fjsen.com 福建省新聞道德委舉報電話：0591-87275327

制服丝袜在线视频香蕉,五月开心六月伊人色婷婷,在线激情爱性视频,欧美性xxxbbb