手把手教你爬取热门小说《诡秘之主》

手把手教你爬取热门小说《诡秘之主》

首页游戏大全诡秘之主更新时间:2024-04-26

《诡秘之主》是起点的超级热门小说,到底有多火呢,看看下面这张图就知道了:

恐怖如斯...

正好乌贼的这本神书完结了,就拿它举例子演示一下python爬虫,前后不到30行代码。

现在盗版小说泛滥,随便找个网址,爬它:https://www.xsbiquge.com/15_15338/

这里我打算用selenium来进行爬取,之前我更新过相关文章,感兴趣可以看一看。

首先导入各种库:

from selenium import webdriver from selenium.webdriver.chrome.options import Options

一般使用selenium会自动打开浏览器,随着程序的运行,浏览器也会自动进行相应操作,如果不想这样可以将webdriver设置成“无头”浏览器:

chrome_options = Options() chrome_options.add_argument('--headless') driver = webdriver.Chrome(options=chrome_options) driver.get('https://www.xsbiquge.com/15_15338/')

可以看到当前页面是这样的目录形式,点一下想看的章节,就会进入正文页面:

所以思路可以是这样,先获取不同章节的url链接,再通过selenium登录相应的url链接,爬取所在章节的正文内容。

首先爬取所有章节的url链接,在当前的目录页面右键单击“检查”:

找到各个章节所在的位置,右键单击“copy”---“copy xpath”,复制相应章节的xpath地址:

前三章url的xpath地址

我以前三章为例,可以发现很有规律,第一章就是dd[1],第二章就是dd[2],以此类推...

所以可以通过for循环,遍历所有章节的xpath地址,通过selenium定位所在标签,并获取href,将其保存到列表里:

url_list = [] name_list = [] for i in range(1,1453): xpath_path = '//*[@id="list"]/dl/dd[{}]'.format(i) url = driver.find_element_by_xpath(xpath_path).find_element_by_xpath('.//a').get_attribute('href') name = driver.find_element_by_xpath(xpath_path).text url_list.append(url) name_list.append(name) print(url_list) print(name_list)

已爬取的url和章节名


有了url链接,就可以爬取正文啦,通过selenium登录各个章节的url,通过xpath地址定位正文的位置,获取text内容,最后通过 with open 以 'a'(追加写)的方式保存成txt文件(可以发现,因为selenium每次爬不同章节的时候都要登录相应的章节url,所以效率比较低,整套代码跑完需要十几分钟,而如果用requests re的方式则只需要几分钟):

for j in range(0,1452): print('正在爬取第{}章'.format(j 1)) url = url_list[j] driver.get(url) content = driver.find_element_by_xpath('//*[@id="content"]').text with open('诡秘之主.txt','a') as f: f.write('\n' name_list[j]) f.write(content)

正在爬取各章节的正文内容

最后不要忘了关闭浏览器:

driver.quit()

爬取成功

求关注!求点赞!求转发!

,
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved