python 爬取全本免费小说网的小说

妖气游戏网

python 爬取全本免费小说网的小说

首页角色扮演代号龙血更新时间：2024-07-08

思路：

首先，选择网址：http://www.yznnw.com/files/article/html/1/1129/index.html 这个是全本免费小说网上《龙血战神》的网址：

F12,分析网页元素，可以看到，在此页的 .zjlist4 li a 下存放了所有章节的URL，首先我们要获取这些url放在一个数组里。然后循环遍历下载

有了这些网址后开始分析具体的每一章：

书名：

章节名：

内容：

下一章：

有了这些信息我们就可以开始爬取了（其实这里可以不爬取下一章的，主要我之前的思路是：下载小说的第一章后，返回小说的下一章，之后不断递归直到最后一页，这么做后下载速度慢，不能并发，还有就是一直递归占用资源大，一直请求服务器会断开连接，导致失败）

所以我换成了这种思路：就是先获取所有的章节的网页连接，再用线程（你也可以用进程）开始下载，果然速度上升了好多，

但是，仔细分析后发现，其实有些章节是作者的感言啥的，这些是不用下载的，而真正的章节的标题一定含有：****章*****，所以要用正则排除掉（这个要具体分析，不一定每个作者的感言标题都是这样的，不过直接使用此程序也可以，这样也没啥）

代码如下：

如果要下载其他书的话，找到书的首页，添加到如下位置：

找书的首页URL，随便点开一章，删除后面的***.html,后回车，就是这本书的首页URL。

运行结果：

,

大家还看了

也许喜欢

更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved