ROST中文詞頻統計工具是一款非常不錯的字頻統計和分析軟件,幫助用戶進行中文字頻統計、中文詞頻統計、英文單詞拼讀、英文詞組統計等統計分析的操作,當然可以直接對文章中的詞語進行提取和刪除,支持批量統計;當軟件完成統計后會生成一個統計結果的網頁文檔,直觀清晰可見。通過ROST中文詞頻統計工具可以輕松的幫助你萬仇詞組統計。
ROST中文詞頻統計工具 特點
1、使用簡單,無需安裝;
2、批量執行,速度快;
3、結果生成網頁,查看方便。
ROST中文詞頻統計工具功能
1.統計一個文檔中出現過的所有漢字及非漢字頻度;
2.統計一個文檔中和另外一個字表對比之后超綱的詞及詞頻數,對字頻統計結果進行詞頻升序、詞頻降序、字母升序、字母降序排列;
3.字典工具有超級功能:提取一定長度的單詞,刪除第一個字符串中某個字符串的單詞,刪除最后一個字符串中某個字符串的單詞,提取第一個字符串中某個字符串的單詞,字符串中每個單詞的unicode值或ASC值,提取重復結束的字符串,對短語進行排序,刪除重復的字符串,刪除某個字符串的單詞,將文本拆分成一個單詞一行,提取包含某個單詞串的單詞,附加ASC碼表,刪除連續空格,任意提取單空格短語或多空格短語,刪除單詞中包含的某些字符,剔除包含某些漢字或其他字符的行,提取某個字符串之前的所有單詞。對于普通文件,可以拆分操作。這個字典工具的處理速度目前還沒有優化,所以計劃在下一個版本中單獨拿出字典工具進行優化,以便處理非常大的文檔。
4.這個軟件的一個主要特點是批處理。用戶可以批量選擇一系列文本文件,批量生成Fre頻率文件。頻率文件是一種用戶定義的數據文件,包含單詞或單詞和頻率,是ROST的專有格式。通過Fre的定義,可以有效提高處理速度。頻率文件fre可以通過計算集合和交集來處理。設置獲取所有頻率文件的總和。交集產生包含在所有頻率文件中的單詞。這在實踐中有什么作用?通過交集提取出一系列文檔,就可以得到某類文檔(如旅游、計算機)中的共同特征詞。但是,集合可以快速處理大型文檔。鑒于這個軟件的高速,也可以進行1000億字的統計。
5.自定義過濾詞表,可以使用菜單右鍵查看過濾詞表,添加自己需要的過濾詞。目前使用的過濾詞表為空,用戶可以自行增加。使用菜單保存詞表之后將該文本文件覆蓋軟件目錄下的dict目錄下的compare.txt即可,使用過濾詞可以非常方便的獲得超綱的字有哪些。
6.從剪貼板統計文字。注意如果先點擊了剪貼板統計文字,則非中文統計顯示的是剪貼板里面的非中文,而不是文件里面的非中文
以上便是kk下載小編給大家介紹的ROST中文詞頻統計工具!