R语言第二期2-3: R读取mysql中CELL的abstract分词并生成词汇云

真·科研狗 2018-03-06 23:51:54 阅读: 1331


任务1. 读取mysql数据库中article表,将abstract分词

用到的数据包:RMySQL

获得abstract之后,需要先去掉一些标点符号和特殊符号,之后通过空格分割字符串。

比如最终得到的分词存储变量为words,words为一个data.frame,有两列,第一列word为记录哪个单词,第二列记录出现的次数。那么运行head(words)之后出现如下内容:

微信截图_20180306234318.png

word代表是每个单词,freq代表出现的次数


任务2. 利用wordcloud2包绘制词汇云

用到的包:wordcloud2

得到的图如下样式:

1.png


任务3. 对分词之后的数据进行排序,然后去掉一些冠词,介词,如:of,the,that.然后再绘制词汇云。得到的可能如下:

2.png

上图为排序之后words变量的内容

3.png

上图为去掉一些词之后的词汇云:

del_word = c('of','the','and','in','to','a','that','is','for','by','with','we',
'are','an','this','these','as','from','which','at','their','have','or','our',
'its','but','how','be','as','here','on','can','into','data','between','both','also')


您还可以去掉更多的词,这样就会得到不同的词汇云。还可以根据wordcloud2的参数得到不同形状的词汇云。


注意:每次运行wordcloud2都会得到不一样的词汇云,所以不用纠结是否和上面图像一致。

 

 
邀请讨论

附件

{{f.title}} 大小 {{f.file_size}} 下载 {{f.count_download}} 金币 {{f.count_gold}}
{{item.nick_name}} 受邀请回答 {{item.create_time}}
{{item.refer_comment.nick_name}} {{item.refer_comment.create_time}}

附件

{{f.title}} 大小 {{f.file_size}} 下载 {{f.count_download}} 金币 {{f.count_gold}}
切换到完整回复 发送回复
赞({{item.count_zan}}) 踩({{item.count_cai}}) 删除 回复 关闭
科研狗©2015-2024 科研好助手,京ICP备20005780号-1 建议意见

服务热线

178 0020 3020

微信服务号