服务热线
178 0020 3020
任务1. 读取mysql数据库中article表,将abstract分词。
用到的数据包:RMySQL
获得abstract之后,需要先去掉一些标点符号和特殊符号,之后通过空格分割字符串。
比如最终得到的分词存储变量为words,words为一个data.frame,有两列,第一列word为记录哪个单词,第二列记录出现的次数。那么运行head(words)之后出现如下内容:
word代表是每个单词,freq代表出现的次数
任务2. 利用wordcloud2包绘制词汇云
用到的包:wordcloud2
得到的图如下样式:
任务3. 对分词之后的数据进行排序,然后去掉一些冠词,介词,如:of,the,that.然后再绘制词汇云。得到的可能如下:
上图为排序之后words变量的内容
上图为去掉一些词之后的词汇云:
del_word = c('of','the','and','in','to','a','that','is','for','by','with','we', 'are','an','this','these','as','from','which','at','their','have','or','our', 'its','but','how','be','as','here','on','can','into','data','between','both','also')
您还可以去掉更多的词,这样就会得到不同的词汇云。还可以根据wordcloud2的参数得到不同形状的词汇云。
注意:每次运行wordcloud2都会得到不一样的词汇云,所以不用纠结是否和上面图像一致。
附件