爬到的评论不要只做词云嘛情感分析了解一下
SnowNLP是一个python写的类库,可以方便的处理中文文本内容是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针對英文的于是写了一个方便处理中文的类库,并且和TextBlob不同的是这里没有用NLTK,所有的算法都是自己实现的并且自带了一些训练好的字典。注意本程序都是处理的unicode编码所以使用时请自行decode成unicode编码。
情感分析(官网没有介绍具体原理但是指明购物类的评论的准确率较高,其实是因为它的语料库主要是购物方面的)
文本分类(原理是朴素贝叶斯)
转换成拼音 (Trie树实现的最大匹配)
繁体转简体 (Trie树实现的最大匹配)
提取文本关键词(TextRank算法)
提取文本摘要(TextRank算法)
这篇文章主要介绍了python实现模拟器爬取抖音评论数据的示例代码文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值需要的朋友们下面隨着小编来一起学习学习吧
由于之前和朋友聊到抖音评论的爬虫,demo做出来之后一直没整理最近时间充裕后,在这里做个笔记
提示:大體思路 通过fiddle + app模拟器进行抖音抓包,使用python进行数据整理
模拟器下载好之后, 打开模拟器
对抖音进行fiddle配置配置成功后就可以当手机一样使用了
峩们随便打开一个视频之后,fiddle就会刷新新的数据包
在json中找到视频地址:
在fiddler中添加下载视频代码:注意两点:
(1)get后面的路径要随时看进行更换
(2)下载的路径要在fiddler下面自己新建
'链接,内容,发布人昵称发布时间,点赞数评论数,分享数'
运行代码後在代码执行目录下会生成一个excel
ps:抖音不会一次性返回整个评论数据包每次往下滑动评论区会多出26条评论数据,我们就可以利用模拟器進行滑动操作
点击 更多>鼠标宏
点击录屏之后,用鼠标往下滑动一次页面
点击停止就会将你刚才的操作保存下来
点击设置 可以对刚才的操作进行循环播放,从而达到自动刷新评论区
到此这篇关于python实现模拟器爬取抖音评论数据的示例代码的文章就介绍到这了,更多相关python 拟器爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。