图书包库链接如何提取kindle图书

读秀包库全文的书怎么转换成pdf_百度知道
读秀包库全文的书怎么转换成pdf
提示该问答中所提及的号码未经验证,请注意甄别。
我有更好的答案
用棒棒糖软件(cxcandyent)下载无加密PDG文件,然后用PDFPatcher 等等类似软件进行合成PDF,然后使用Pdg2Pic软件就行合成PDF.用大图软件下载jpg图片方法有两种
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。后使用快捷导航没有帐号?
您尚未登录,请登录后浏览更多内容!
只需一步,快速开始
只需一步,快速开始
今日: 831|昨日: 970|帖子: 3583608|会员: 9234
请先登录,再加入E书园交流群吧
请先登录,再加入E书园交流群吧
神奇的123 ,生日快乐!
8个小朋友一起玩的开心呢
南京博物院22叶子马兰花国学爱好者终极收藏西班牙内战:真相、疯狂与死亡危机年代:日本、大萧条与农村振周雪光:中国国家治理的制度逻辑牛津历史著作史(第一卷)
01-2901-2901-2901-2901-2901-2901-2901-2901-2901-29
01-2901-2901-2901-2901-2901-2901-2901-2901-2901-29
01-2901-2801-2701-2701-2701-2701-2501-2501-2201-22
01-0101-1101-0812-0412-0612-0610-0501-0401-0412-05
主题: 2111, 帖数: 1万
主题: 263, 帖数: 4244
主题: 1267, 帖数: 5万
主题: 3万, 帖数: <span title="万
主题: 5026, 帖数: 8万
主题: 9577, 帖数: <span title="万
主题: 317, 帖数: 3万
主题: 484, 帖数: 3万
主题: 419, 帖数: 5497
主题: 3万, 帖数: <span title="8万
主题: 2526, 帖数: 4823
主题: 2万, 帖数: 3万
主题: 430, 帖数: 3421
主题: 29, 帖数: 238
主题: 814, 帖数: 4509
高清电子书免费分享E站
本站所有资源均来自网络,为网友个人上传,如有版权纠纷与本站无关,网友分享资源仅限用于个人学习与研究,不得用于任何营利商业行为。版权为原著作人所有,如果您发现侵害了您的权益,请发邮件致fuwu(at)eshuyuan(dot)com,本站将在第一时间予以删除。
Powered by
. E书园旗下 -用calibre抓取乌云知识库并生成电子书 - 简书
用calibre抓取乌云知识库并生成电子书
原文链接:
最近在研究网络安全相关知识,看到有很多高质量文章,由于在网上一篇篇翻看过去太麻烦,就研究了一下用自己编写recipe自动下载并生成电子书的方法。
花了点时间用此方法将乌云知识库上截止日为止的400多篇文章整理成了一本epub格式的电子书,不愿折腾的可以直接点击————下载。
工具简介和准备
是一个“一站式”的电子书解决方案,它可以全面满足你的电子书需求。Calibre是免费的,源代码开放,拥有跨平台的设计,可在Linux, OS X和Windows操作系统中运行。
  它是一个完整的电子图书馆,包括图书馆管理,格式转换,新闻,将材料转换为电子书,以及电子书阅读器同步功能、整合进电子图书阅读器。
此处我们用到的是Calibre的中的功能,请前往下载安装。
Mac下该工具已包含在安装包中,用户在使用前请执行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"将cli tools路径加入系统路径,或将此句加入.bashrc。
其他系统暂未测试,欢迎留言补充说明。
使用来分析页面结构,用来在recipe中指定下载的内容。
分析页面结构
先到页面查看。
乌云知识库界面
从页面底部的信息可以看到该知识库由wordpress生成,总共47页。
点击发现每一个目录页的格式形如http://drops.wooyun.org/page/2。
任选一个标题,点击右键——审查元素。
标题结构如下:
&h2 class="entry-title"&
&a href="http://drops.wooyun.org/binary/4788" rel="bookmark" title="Permanent Link to “暗云”BootKit木马详细技术分析"&“暗云”BootKit木马详细技术分析&/a&
可以找到规律,标题的共同特征是包含在&h2 class="entry-title"&中,链接地址在其中的href中,标题内容为&a&中包含的内容。
任意点开一篇具体的文章,用同样的方法可以发现,每篇文章的正文部分是在如下的标签中。
&div id="post-4788" class="post"&
编写recipe
calibre的recipe本质上是一个python文件,通过继承一个类,在其中指定一些电子书元数据和从网页提取内容的方法来达到自动下载和整合成电子书的目的。内容筛选主要通过实现。该任务中使用的recipe如下,其它参考链接包括:
,可以用来参考recipe写法
#!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'乌云知识库'
__author__ = u'无关风月'
description = u'''乌云知识库,最专业的安全知识分享平台。本电子书由无关风月整理网站 &http://drops.wooyun.org/& 内容而来。'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://drops.wooyun.org/'
# auto_cleanup = True
# 如果没有手动分析文章结构,可以考虑开启该选项自动清理正文内容
language = 'zh-CN'
keep_only_tags = [{'class': ['post']}]
# 仅保留文章的post中的内容,其中为自己分析得到的正文范围
max_articles_per_feed = 10000
# 默认最多文章数是100,可改为更大的数字以免下载不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1
# int(pages_info[1])
end_page = 47
# int(pages_info[3])
articles = []
for p in range(start_page, end_page+1):
# 处理每一个目录页
soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
soup_titles = soup_page.findAll(**{'class': 'entry-title'})
# 从目录页中提取正文标题和链接
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'][18:], 'url': href['href']})
print 'page %d done' % p
articles.reverse()
# 文章倒序,让其按照时间从前到后排列
res = [(u'乌云知识库', articles)]
# 返回tuple,分别是电子书名字和文章列表
# self.abort_recipe_processing('test')
# 用来中断电子书生成,调试用
return res
生成电子书
将上述文件保存成wooyun.recipe,在终端中执行命令:
ebook-convert wooyun.recipe wooyun.epub
然后你就可以去喝杯水,等待calibre自动将博客处理成电子书了。此处的epub也可以改成其它格式,如mobi。
使用calibre内置的soup无法解析得到text节点,故此代码中start_page和end_page为硬编码,需要根据实际情况进行更改;
同理得到文章标题用的是href['title'][18:], 比较粗糙,有待改善;
parse_index解析目录页总共40多页是单线程同步进行的,速度较慢,可以考虑改成多线程加快速度。
,可以用来参考recipe写法
人生自是有情痴,此恨不关风与月
技术博客:http://www.huwenchao.com
感谢作者:https://github.com/it-ebooks/it-ebooks-archive/blob/master/README.md 计算机开放电子书汇总 站点 站点源码 100个gcc小技巧 在线阅读 PDF格式 EPUB格式 MOBI格式 100个gdb小...
姓名:田争娇 学号: 转载:http://blog.codinglabs.org/articles/convert-html-to-kindle-book.html 【嵌牛导读】 买了kindle后,总是想着如何最大效用发挥其效用。虽然多看上有很多书可...
开放书是指协议为Public Domain、Creative Common,以及一些开源软件协议(MIT、Apache、GPL等等)的图书。我在平时逛论坛或者刷github时,看到好的开放电子书时会将链接存到博客的某个页面上。但是链接一多起来,查找就特别不方便,于是就单独做...
更新:日,谷歌正式宣布其Google Docs产品支持直接输出epub格式,台湾科技博客“电脑玩物”第一时间作了介绍。根据测试,谷歌的这项功能还是很赞的。 以下全为转载文章: 制作电子书工具集 在制作《Ruby on Rails Tutorial》中文版电子...
感谢陪伴,祝各位新春快乐。 前言 随着科技日新月异地发展,电子书因其良好的便捷性和易传播性,已经成为我们日常生活和学习中一种重要的阅读媒介。 哦,突然想起来,这不是在写论文。其实我想问的是: “你知道电子书有哪些常见的格式吗?” 如果你的回答是: “电子书啊?不就是 txt...
社会是什么?社会就是让你从单纯变为厌恶的过程而你却不能报复。 有时候总会怨怪社会的不公,可是,仔细想一想,所谓“社会”不过是个特定称谓而造出它的人却是我们,因此,社会变坏是不是意味着我们的变坏。 曾经调侃的“人与人之间没有最基本的信任”渐渐成为现实之后,社会就不再像我们最初...
“安潺小姐,你好!我是昊天出版社的负责人。” “哦,你好!”一大早安潺就接到出版社的电话,有些疑惑,“有什么事吗?” “是这样的,我们报社很看好你的作品,想长期和你签约。不过你需要接受我们的培训。” “去哪培训?” “北京,我们出版社的总部在那儿。” “需要多长时间?” “...
本想 避开喧嚣,逃离纷扰 然,在不知名的深山迷路 夜,漆黑 雨,飘零 灯光,照不透迷途 交叉路口 颠簸缓行 却,山前无路 艰辛知返 终又 柳暗花明见人烟 虫鸣声如此喧嚣 却让空间更寂寞 流水声如是轻柔 却让时间更难舍 如墨夜色如斯静谧 却让人更窒息绝望 在最深的夜里 毫不掩...
今天抽油抽到了罗文莎叶精油。 自从学会了用简书写作,重新调整了一下,每天都会给自己留一些遐想的时间来书写自己与心灵的对话。觉得以这样的方式来生活很开心!其实有些时候改变一下生活方式也是蛮好的! 打开精油瓶闻闻,闻到一股樟脑的味道,很清新。这两天被群里一姐妹的简书所吸引,每天...
这一年的降水量比较多,我市从五月份就有几场大雨水,很多地方进水,到处去走不了。 六月份的降水量还是很多,市区到处都是受灾害,农民们辛辛苦苦种的农作物都受灾害,这是还让人活吗? 我市普降大雨至局部大暴雨,由于局部大雨时降水量过大,造成山洪暴发,河水水位上涨,多处地方出现洪涝灾...如何在龙岩学院图书馆里的CNKI期刊全文(包库 镜像)里面查资料?怎么里面需要帐号和密码?如何获得帐号和_百度知道
如何在龙岩学院图书馆里的CNKI期刊全文(包库 镜像)里面查资料?怎么里面需要帐号和密码?如何获得帐号和
希望各位大虾帮忙
我有更好的答案
学校内网就直接可以下载的吧!再不行去问问老师,文学的老师比较懂,因为他们也要用到
好的,谢谢啦
采纳率:18%
入会文秘乐园,可下天下文章
问里面的上班的人啊
咦??没试过诶??你龙岩学院的啊??
其他1条回答
为您推荐:
其他类似问题
龙岩学院的相关知识
&#xe675;换一换
回答问题,赢新手礼包&#xe6b9;
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。(小乐二师兄)
第三方登录:}

我要回帖

更多关于 提取kindle图书 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信