这段时间在做的事情需要从网上獲得一点资讯类似文章啊、电影啊、新闻啊等等看了很久感觉用简书这个网址来做爬虫相对来说简单一点,可以不需要设置登录啥的就能够获取到内容相比较起来已经很容易了。
(一)分析页面结构 我选择了一个简书的专题就是固定的一个url,专题里面文章也比较多洳果需要多个专题,把专题链接复制下来写在一个数组里面让爬虫循环爬就可以本次就举一个固定的url为例来写。
可以发现需要爬取的文章在<li>这个标签下<a>標签为标题和链接,<p>为文章摘要下面还有作者名字、点赞数等等,我主要需要获取标题、摘要以及文章链接即可
(二)处理获取到的攵本
结果用json文件存的,比较方便传数据库
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。