來自搜狗輸入法的統計數據顯示,其輸入法語料庫容量已超過1TB,是傳統輸入法約40GB的30倍,而相對于日文、韓文等全世界其他語系的輸入法語料規 模,更是處于遠遠領先地位。據了解,語料庫是輸入法所有信息的來源,是輸入法智能性,甚至是中文處理能力的根本決定因素。搜狗語料庫的強大,也代表搜狗輸 入法的技術積累已引領中文輸入達到一個全新高度。據技術專家介紹,語料庫與詞庫為輸入法研發中的兩個重要指標,其中詞庫為輸入法提供了組詞造句的基本單位,而語料庫為輸入法提供了詞庫中的詞語組合的方法 和規則,同時通過自動挖掘的手段,語料庫還可以為詞庫詞源的重要補充。在目前以統計作為根基的輸入法世界里,語料庫的作用極為重要。比如,“建國大業”這 一詞匯如果不在語料庫中出現,那么輸入法是無法憑空把這個詞創造出來的。 一般來說,語料庫的容量越大,詞庫容量越大,則輸入效率、準確性越高。搜狗輸入法語料庫中包含了大量新聞語料和網頁語料,涵蓋口語、書面語、古文、現代文等不同文體,以及政治、經濟、體育、娛樂等不同領域。而在詞庫方面,搜狗輸入法的詞庫容量已超過2000萬。在如此海量的語料庫和詞庫情況下,為了加快數據處理能力,搜狗輸入法部署了龐大的機群和分布式存儲系統,確保了語料規模暴增時的運行瓶頸。 數據顯示,在中國上網的計算機中,超過80%安裝了搜狗輸入法,其活躍用戶超過3億,如此海量的用戶群每天的文字書寫量是個天文數字,可以說搜狗已經承載了互聯網時代中文輸入的重任。搜狗輸入法在語料庫、詞庫等指標上對于同類工具的遙遙領先,也代表著搜狗輸入法在輸入準確率,輸入效率上的一枝獨秀。搜狗輸入法不僅大大降低了中文信息流通的門檻,同時提升了國人的書寫效率,為每個人節省了20%的輸入時間。因此不僅具有巨大的社會文化價值,也潛在的創造了巨大的社會經濟價值。 |