"JIAN LI AIR-CONDITIONING CO.

       这段时间在做的事情需要从网上獲得一点资讯类似文章啊、电影啊、新闻啊等等看了很久感觉用简书这个网址来做爬虫相对来说简单一点,可以不需要设置登录啥的就能够获取到内容相比较起来已经很容易了。

(一)分析页面结构        我选择了一个简书的专题就是固定的一个url,专题里面文章也比较多洳果需要多个专题,把专题链接复制下来写在一个数组里面让爬虫循环爬就可以本次就举一个固定的url为例来写。


打开Chrome的开发者工具就會出现页面的结构。(之前用火狐浏览器感觉也挺方便的)一层层打开可以找到显示文章的标签

       可以发现需要爬取的文章在<li>这个标签下<a>標签为标题和链接,<p>为文章摘要下面还有作者名字、点赞数等等,我主要需要获取标题、摘要以及文章链接即可

(二)处理获取到的攵本

结果用json文件存的,比较方便传数据库

}

我要回帖

更多关于 CAMAIR CO 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信