matlab两篇英文词频,统计一篇英文文章的词频并导出

来源：化拓教育网

打开在线字符统计工具网址:

或者

进入之后，会看到一个可以分析文本的对话框。把需要统计的文段粘贴过来。

点击Word Frequency, 就可以得到左端统计分析的结果,

包括单词列表、出现次数、所占比例。结果是从高到低排序.

向下滑，点击 Select All 就可以选择全部单词，复制导出了。

或者复制全部的单词表、出现次数、所占比例,

得到需要的高频词

以下是当复制的是pdf格式英文文献时候,

内容会有很多数字和非字母的字符, 在统计分析之前将内容粘贴到text1.txt

, 并运行这一段代码, 则可以得到过滤后的文档.

#include

using namespace

std;

int

main(){

FILE *txt_file =

fopen("text1.txt","r");

FILE *txt_file2 =

fopen("text2.txt","w+");

char ch=' ';

char c=' ';

while((fread(&ch,1,sizeof(char),txt_file)

))

{

if(ch =='1'||ch =='2'||ch =='3'||ch =='4'||ch =='5'||ch =='6'||ch

=='7'||ch =='8'||ch =='9'||ch =='0')

continue;

if(ch ==','||ch =='.'||ch =='-'||ch =='_'||ch =='('||ch ==')'||ch

=='['||ch ==']'||ch =='?'||ch =='~') continue;

else

fwrite(&ch,1,1,txt_file2);

}

return

}

此外还可以修改以上代码,过滤掉 the, of, only

和单个字母的高频词.

其他:

textmechanic的主页打开后，会看到这个在线工具功能种类非常多，比如可以增加前缀、增加或移除短线、查找或替换，或者移除多余空格等等。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文