1.
打开在线字符统计工具网址:
或者
2.
进入之后,会看到一个可以分析文本的对话框。把需要统计的文段粘贴过来。
3.
点击Word Frequency, 就可以得到左端统计分析的结果,
包括单词列表、出现次数、所占比例。结果是从高到低排序.
4.
向下滑,点击 Select All 就可以选择全部单词,复制导出了。
5.
或者复制全部的单词表、出现次数、所占比例,
得到需要的高频词
以下是当复制的是pdf格式英文文献时候,
内容会有很多数字和非字母的字符, 在统计分析之前将内容粘贴到text1.txt
, 并运行这一段代码, 则可以得到过滤后的文档.
#include
using namespace
std;
int
main(){
FILE *txt_file =
fopen("text1.txt","r");
FILE *txt_file2 =
fopen("text2.txt","w+");
char ch=' ';
char c=' ';
while((fread(&ch,1,sizeof(char),txt_file)
))
{
if(ch =='1'||ch =='2'||ch =='3'||ch =='4'||ch =='5'||ch =='6'||ch
=='7'||ch =='8'||ch =='9'||ch =='0')
continue;
if(ch ==','||ch =='.'||ch =='-'||ch =='_'||ch =='('||ch ==')'||ch
=='['||ch ==']'||ch =='?'||ch =='~') continue;
else
fwrite(&ch,1,1,txt_file2);
}
return
0;
}
此外还可以修改以上代码,过滤掉 the, of, only
和 单个字母 的高频词.
其他:
textmechanic的主页打开后,会看到这个在线工具功能种类非常多,比如可以增加前缀、增加或移除短线、查找或替换,或者移除多余空格等等。