近日,教育部、國家語委、中央網信辦共同印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(簡稱《意見》),對加快推進以信息化促進語言文字事業高質量發展,以數字化賦能語言文字更好服務現代化建設等作出了全面部署。
當敦煌藏經洞的千年文書在數字世界中蘇醒,甲骨文的刻痕以數據躍動永駐云端……數字中文,正以代碼為筆、算法為墨,在虛實交織中聯結過去與未來。
數智賦能語言文字高質量發展
語言文字“日學而不察、日用而不覺”,廣泛存在于社會生產各個方面。
如今,中國已建成世界最大的規模語言資源庫和中國語言資源知識圖譜,集成120多種語言和方言資源。今年,全國語言文字使用情況調查將首次實施,打造集數據采集、傳輸、存儲、加工一體的集成化調查平臺,為深化教育綜合改革和綜合國力分析提供大數據支撐。
為加快推進語言文字信息化,《意見》提出,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字信息化發展的突出重點,著力推進中文數字化與數據中文化,完善新型中文服務體系構建與語言文字治理體系。
教育部語言文字信息管理司司長劉培俊介紹,中國已發布100多項國家通用語言文字和民族語言文字信息化規范標準,為自然語言處理技術在人工智能、數字產品和信息產業領域的應用創新奠定規范基礎。
語言文字智慧化學習的廣泛開展,有力服務了教育改革創新。比如,高水平開展普通話水平測試,全面實現從人工到智能的普通話測試方式轉變,制發電子證書9000多萬份。在廣東,已建成全國首個普通話水平測試智慧考場,考場首創“隨到隨考”測試模式,大幅提升了普通話測試效率。
語言文明智能化傳播聯通世界,也有力服務了國際交流互鑒。通過數字賦能,書寫在古籍里的文字實現“活化”,建成中華思想文化術語數據庫,面向國際傳播1200多條反映中華民族話語體系中最核心最本質的思想文化術語,并與40多個國家和地區開展多語種數字版權合作。
“中國已建成集成化、智能化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區,深度合作建立聯盟,中文學習聯盟云服務平臺提供3萬門在線課程,與中外1600多家機構合作,推動實現中文人人、時時、處處可學可用、易學易用。”劉培俊說。
建設新型國家語料庫
今年,教育部啟動布局了新型國家語料庫的建設工作。《意見》明確,到2027年,初步建成國家關鍵語料庫和國家戰略語言資源信息庫。
新型國家語料庫為什么如此重要?又將在語言文字信息化工作中發揮何種作用?
“當前以深度求索(DeepSeek)等為代表的人工智能技術創新不斷取得突破性進展,在這個大背景下,國家提出這樣一個戰略部署,建設新型國家語料庫,凸顯了其重要性、必要性和緊要性。”教育部語言文字應用管理司副司長王暉如是說。
現階段,語言教育教學和研究領域存在多個語料庫,但很多語料庫還處于單一文本模式和領域應用階段。這些語料庫在建設的理念、技術和方法、規模,以及數據多樣性、時效性尤其是與人工智能相結合的大規模應用方面尚存在不足,難以滿足多元化、動態化尤其是智能化的語言數據需求。
找準這一難點,王暉介紹,建設新型國家語料庫立足人工智能時代大背景,突破傳統語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態、多模態、多語言、大規模、全域性為突出特性,為通用領域和細分領域多場景應用及創新發展提供規范、可信、高質量的語言文化語料資源。
“主要包括兩方面:一是規范引領,主要是加強制度的供給,研制語料庫建設規范,突出價值導向、應用導向、創新導向,統籌質量和安全,為語料庫建設提供基礎原則和方法指引。二是示范引導,成熟先上,開發建設‘中華文脈新型語料庫’‘中華大閱讀體系語料庫’,以這兩個示范庫建設整體打造出標桿,‘中華文脈新型語料庫’也可以簡單理解瞄準的是智慧教師,‘中華大閱讀體系語料庫’瞄準的是智慧學伴。”王暉說。
數字中文推動產業升級
20世紀80年代,北京大學王選團隊發明激光照排技術,并結合漢字編碼標準,突破了中文數字化的空間限制,讓承載中華文化的中文在全球互聯網空間獲得新生。那是一場從“鉛與火”到“光與電”的變革,而如今,大語言模型技術對大規模高質量語料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務。
歷史階段不同,但機遇和挑戰相似。
北京大學王選計算機研究所所長湯幟認為,當前,中文信息處理技術的發展從以往解決漢字輸入輸出的基礎性問題,進階到當先釋放語言文字數據要素價值的全方位突破。
《意見》提出,實施數字中文推動產業升級行動。支持語言文字信息技術新產品、新職業和新業態發展,鼓勵傳統語言產業數字化轉型升級,培育基于數字中文的新型語言產業。推動語言資源、語言翻譯、智能機器人、中文內容服務等軟硬件產品研發應用,支持圍繞語音、語料、語言應用生態形成產業聚集,鼓勵創建語言產業應用示范品牌。
“新形勢下,語言文字將從實現‘靜態符號’向‘動態數字資產’,從‘信息載體’向‘生產要素’的轉型,要重點推動語料庫、數據標注與評價等標準的研制,支持文本生成與理解、語言翻譯、情感分析等各種任務。”湯幟表示,人工智能發展迅速,語言文字信息處理技術創新應用正經歷從“GB2312字符集”到“萬億參數大語言模型”的范式變革,語言文字未來將實現與信息技術的深度融合,形成“技術突破—場景落地—生態繁榮”的良性循環。(記者 孫亞慧)
1月28日晚,中央廣播電視總臺2025春節聯歡晚會上,40名來自全國林草基層的代表共同獻唱《我的家》,用歌聲傳達對綠水青山的熱愛,深情歌頌美麗中 ...
12月28日晚,文化惠民演出——“南臺有戲閩韻頌福”閩劇專場演出在福建省福州倉前公園上演,由福州閩劇藝術傳承發展中心選送的民樂合奏、閩劇折子戲等 ...
2024年閩臺藝術青年音樂會開幕,本次音樂會由省文旅廳主辦,是第九屆福建藝術節和兩岸藝術青年歡樂匯的重要配套活動。
在9日進行的英超足球聯賽中,利物浦在先丟兩球的情況下以2:2逼平阿森納,延緩了“領頭羊”的前進速度。水晶宮憑借奧利塞的助攻“帽子戲法”,以5:1 ...
2022-2023賽季法甲足球聯賽9日結束了第30輪的全部比賽,積分榜排名第三的馬賽在客場被洛里昂以0:0逼平,錯失了追趕聯賽“領頭羊”的機會。 ...
葡萄牙體育隊9日晚在葡超足球聯賽第27輪比賽中客場以4:3險勝“升班馬”卡薩皮亞隊,繼續排名聯賽第四,距離歐冠區還有5分的差距。
2022-2023賽季中國男子籃球職業聯賽(CBA)季后賽12進8附加賽10日晚繼續進行,北京和廣廈分別在主場輕松獲勝,在三場兩勝的賽制中占得先 ...
當日,中國女足在西班牙伊維薩島進行賽前訓練。作為備戰今年女足世界杯的熱身賽之一,中國女足與西班牙女足的熱身賽將于11日舉行。
這位不滿26歲的年輕人是否還能更進一步?對于這一疑問,無論王嘉男的中方主管教練還是田徑界專家都顯示出信心,認為他還有不小的上升空間。
世界乒乓球職業大聯盟(WTT)冠軍賽布達佩斯站18日在布達佩斯奧林匹克中心拉開戰幕,中國選手馬龍輕松晉級,陳夢逆轉勝出。
2023女足世界杯是該賽事第一次擴大為32支球隊參加,由澳大利亞和新西蘭聯合舉辦。根據賽程,揭幕戰將于7月20日在奧克蘭上演,決賽將于8月20日 ...
國家體育總局排球運動管理中心10日發布了《體育總局排球中心關于選聘國家女排主教練的公告》,中國女排新任主帥的選聘工作正式啟動。
根據賽程,四個小項的短節目和韻律舞比賽將于14日展開,15日進入自由滑和自由舞比拼,16日則將按照國際賽事慣例進行表演滑。
智庫邀請權威學者和知名醫師加入,以公益、醫療和科研為三個抓手,旨在充分發揮專家的社會影響力和專業權威性,倡導科學的健身理念,以體育促進大眾身心全 ...
“看人,要找人防守,上來阻擋一下。”在廣西天等縣小山鄉中心小學的運動場上,體育老師張世強盯著隊員們訓練時的跑動情況,不時提醒。
第18屆建橋杯中國女子圍棋公開賽本賽27日在浙江長興大唐貢茶院揭開戰幕。不久前剛獲得全運會混雙冠軍的老將芮乃偉九段首輪爆冷不敵趙貫汝,被淘汰出局 ...
哈薩克斯坦奧林匹克委員會國際司司長阿利姆然·阿卡耶夫24日表示,針對北京2022年冬奧會和冬殘奧會的備戰工作正在哈薩克斯坦全面展開,希望哈國運動 ...