编辑整理:整理来源:百度知道,浏览量:57,时间:2022-08-17 10:21:01
小说网站源码带采集建设,小说源码 全自动采集,小说网站源码自动采集
喜欢看小说的朋友在线看小说时会被网站弹出的各种广告所干扰,体验非常差,这里分享自己写的一个爬小说的源码,方便大家把喜欢的小说下载后放到手机中直接观看无广告版
废话不多说直接上源码:
import requests
import re
from pyquery import PyQuery as pq
#获取书章节地址
def book_url(url):
r = requests.get(url)
r.encoding = 'gb2312'
doc = pq(r.text)
test = pq(r.text)('#maininfo #info h1')
txtname = str(test.text())#获取书名
x = 0 #去除最新6章节
for item in doc(".listmain dl dd").items():
if x>5:
book_txt('https://www.abcxs.com' + item.find('a').attr('href'),txtname)
else:
x = x + 1
path = 'd:/test/' + str(txtname) + '.txt'
book_new(path)
#获取章节具体内容
def book_txt(url,txt_name):
r = requests.get(url)
doc = pq(r.text)
x = 0
path = 'd:/test/' + str(txt_name) + '.txt'
for item in doc("#book .content").items():
with op(path, 'a+',encoding="utf-8") as f:
f.write(item.find('.showtxt').text())
print("成功下载:" + item.find('h1').text())
#删除全本中广告内容
def book_new(path):
with op(str(path),'r+',encoding='utf-8') as file:
txt = re.compile(r'https://[a-zA-Z0-9.?/&=:]*',re.S)
new_txt = re.sub(txt,"",file.read())
file.write(new_txt)
if __name__=="__main__":
book_url("https://www.abcxs.com/book/97279/")#此处填写想要下载的小说目录页面
如果觉得麻烦的也可私信我直接要源码文件使用