Python爬虫——教你异步爬虫二十秒爬完两百多万字六百多章的小说

大家好！我是霖hero。

相信很多人喜欢在空闲的时间里看小说，甚至有小部分人为了追小说而熬夜看，那么问题来了，喜欢看小说的小伙伴在评论区告诉我们为什么喜欢看小说，今天我们手把手教你使用异步协程20秒爬完两百四十多万字，六百章的小说，让你一次看个够。

在爬取之前我们先来简单了解一下什么是同步，什么是异步协程？

同步与异步

同步

同步是有序，为了完成某个任务，在执行的过程中，按照顺序一步一步执行下去，直到任务完成。

爬虫是IO密集型任务，我们使用requests请求库来爬取某个站点时，网络顺畅无阻塞的时候，正常情况如下图所示：

但在网络请求返回数据之前，程序是处于阻塞状态的，程序在等待某个操作完成期间，自身无法继续干别的事情，如下图所示：

当然阻塞可以发生在站点响应后的执行程序那里，执行程序可能是下载程序，大家都知道下载是需要时间的。

当站点没响应或者程序卡在下载程序的时候，CPU一直在等待而不去执行其他程序，那么就白白浪费了CPU的资源，导致我们的爬虫效率很低。

异步

异步是一种比多线程高效得多的并发模型，是无序的，为了完成某个任务，在执行的过程中，不同程序单元之间过程中无需通信协调，也能完成任务的方式，也就是说不相关的程序单元之间可以是异步的。如下图所示：

当请求程序发送网络请求1并收到某个站点的响应后，开始执行程序中的下载程序，由于下载需要时间或者其他原因使处于阻塞状态，请求程序和下载程序是不相关的程序单元，所以请求程序发送下一个网络请求，也就是异步。

微观上异步协程是一个任务一个任务的进行切换，切换条件一般就是IO操作；
宏观上异步协程是多个任务一起在执行；

注意：上面我们所讲的一切都是在单线程的条件下实现。

请求库

我们发送网络请求一定要用到请求库，在Python从多的HTTP客户端中，最常用的请求库莫过于requests、aiohttp、httpx。

在不借助其他第三方库的情况下，requests只能发送同步请求；aiohttp只能发送异步请求；httpx既能发送同步请求，又能发送异步请求。

接下来我们将简单讲解这三个库。

requests库

相信大家对requests库不陌生吧，requests库简单、易用，是python爬虫使用最多的库。

在命令行中运行如下代码，即可完成requests库的安装：

pip install requests

使用requests发送网络请求非常简单，

在本例中，我们使用get网络请求来获取百度首页的源代码，具体代码如下：

import requests
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response=requests.get('https://baidu.com',headers=headers)
response.encoding='utf-8'
print(response.text)

运行部分结果如下图：

首先我们导入requests库，创建请求头，请求头中包含了User-Agent字段信息，也就是浏览器标识信息，如果不加这个，网站就可能禁止抓取，然后调用get()方法发送get请求，传入的参数为URL链接和请求头，这样简单的网络请求就完成了。

这里我们返回打印输出的是百度的源代码，大家可以根据需求返回输出其他类型的数据。

需要注意的是：

百度源代码的head部分的编码为：utf-8，如下图所示：

我们利用requests库的方法来查看默认的编码类型是什么，具体代码如下所示：

import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.encoding)

运行结果为：ISO-8859-1

由于默认的编码类型不同，所以需要更改输出的编码类型，更改方式也很简单，只需要在返回数据前根据head部分的编码来添加以下代码即可：

response.encoding='编码类型'

除了使用get()方法实现get请求外，还可以使用post()、put()、delete()等方法来发送其他网络请求，在这里就不一一演示了，关于更多的requests网络请求库用法可以到官方参考文档进行查看，我们今天主要讲解可以发送异步请求的aiohttp库和httpx库。

asyncio模块

在讲解异步请求aiohttp库和httpx库请求前，我们需要先了解一下协程。

协程是一种比线程更加轻量级的存在，让单线程跑出了并发的效果，对计算资源的利用率高，开销小的系统调度机制。

Python中实现协程的模块有很多，我们主要来讲解asyncio模块，从asyncio模块中直接获取一个EventLoop的引用，把需要执行的协程放在EventLoop中执行，这就实现了异步协程。

协程通过async语法进行声明为异步协程方法，await语法进行声明为异步协程可等待对象，是编写asyncio应用的推荐方式，具体示例代码如下：

import asyncio
import time
async def function1():
    print('I am Superman！！！')
    await asyncio.sleep(3)
    print('function1')

async def function2():
    print('I am Batman！！！')
    await asyncio.sleep(2)
    print('function2')

async def function3():
    print('I am iron man！！！')
    await asyncio.sleep(4)
    print('function3')
    
async def Main():
    tasks=[
        asyncio.create_task(function1()),
        asyncio.create_task(function2()),
        asyncio.create_task(function3()),
    ]
    await asyncio.wait(tasks)
    
if __name__ == '__main__':
    t1=time.time()
    asyncio.run(Main())
    t2=time.time()
    print(t2-t1)

运行结果为：

I am Superman！！！
I am Batman！！！
I am iron man！！！
function2
function1
function3
4.0091118812561035

首先我们用了async来声明三个功能差不多的方法，分别为function1，function2，function3，在方法中使用了await声明为可等待对象，并使用asyncio.sleep()方法使函数休眠一段时间。

再使用async来声明Main()方法，通过调用asyncio.create_task()方法将方法封装成一个任务，并把这些任务存放在列表tasks中，这些任务会被自动调度执行；

最后通过asyncio.run()运行协程程序。

注意：当协程程序出现了同步操作的时候，异步协程就中断了。

例如把上面的示例代码中的await asyncio.sleep()换成time.time()，运行结果为：

I am Superman！！！
function1
I am Batman！！！
function2
I am iron man！！！
function3
9.014737844467163

所以在协程程序中，尽量不使用同步操作。

好了，asyncio模块我们讲解到这里，想要了解更多的可以进入asyncio官方文档进行查看。

aiohttp库

aiohttp是基于asyncio实现的HTTP框架，用于HTTP服务器和客户端。安装方法如下：

pip install aiohttp

aiohttp只能发送异步请求，示例代码如下所示：

import aiohttp
import asyncio
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
async def Main():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.baidu.com',headers=headers) as response:
            html = await response.text()
            print(html)
loop=asyncio.get_event_loop()
loop.run_until_complete(Main())

运行结果和前面介绍的requests网络请求一样，如下图所示：

大家可以对比requests网络请求发现，其实aiohttp.ClientSession() as session相当于将requests赋给session，也就是说session相当于requests，而发送网络请求、传入的参数、返回响应内容都和requests请求库大同小异，只是aiohttp请求库需要用async和await进行声明，然后调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(Main())方法运行事件循环，直到Main方法运行结束。

注意：在调用Main()方法时，不能使用下面这条语句：

asyncio.run(Main())

虽然会得到想要的响应，但会报：RuntimeError: Event loop is closed错误。

我们还可以在返回的内容中指定解码方式或编码方式，例如：

await response.text(encoding='utf-8')

或者选择不编码，读取图像：

await resp.read()

好了aiohttp请求库我们学到这里，想要了解更多的可以到pypi官网进行学习。

httpx请求库

在前面我们简单地讲解了requests请求库和aiohttp请求库，requests只能发送同步请求，aiohttp只能发送异步请求，而httpx请求库既可以发送同步请求，又可以发送异步请求，而且比上面两个效率更高。

安装方法如下：

pip install httpx

httpx请求库——同步请求

使用httpx发送同步网络请求也很简单，与requests代码重合度99%，只需要把requests改成httpx即可正常运行。

具体示例代码如下：

import httpx
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
response=httpx.get('https://www.baidu.com',headers=headers)
print(response.text)

运行结果如下图所示：

注意：httpx使用的默认utf-8进行编码来解码响应。

httpx请求库——同步请求高级用法

当发送请求时，httpx必须为每个请求建立一个新连接（连接不会被重用），随着对主机的请求数量增加，网络请求的效率就是变得很低。

这时我们可以用Client实例来使用HTTP连接池，这样当我们主机发送多个请求时，Client将重用底层的TCP连接，而不是为重新创建每个请求。

with块用法如下：

with httpx.Client() as client:
    ...

我们把Client作为上下文管理器，并使用with块，当执行完with语句时，程序会自动清理连接。

当然我们可以使用.close()显式关闭连接池，用法如下：

client = httpx.Client()
try:
    ...
finally:
    client.close()

为了我们的代码更简洁，我们推荐使用with块写法，具体示例代码如下：

import httpx
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
with httpx.Client(headers=headers)as client:
    response=client.get('https://www.baidu.com')
    print(response.text)

其中httpx.Client()as client相当于把httpx的功能传递给client，也就是说示例中的client相当于httpx，接着我们就可以使用client来调用get请求。

注意：我们传递的参数可以放在httpx.Client()里面，也可以传递到get()方法里面。

httpx请求库——异步请求

要发送异步请求时，我们需要调用AsyncClient，具体示例代码如下：

import httpx
import asyncio
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
async def function():
    async with httpx.AsyncClient()as client:
        response=await client.get('https://www.baidu.com',headers=headers)
        print(response.text)
if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(function())

运行结果为：

首先我们导入了httpx库和asyncio模块，使用async来声明function()方法并用来声明with块的客户端打开和关闭，用await来声明异步协程可等待对象response。接着我们调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(function())方法运行事件循环，直到function运行结束。

好了，httpx请求库讲解到这里，想要了解更多的可以到httpx官方文档进行学习，接下来我们正式开始爬取小说。

实战演练

接下来我们将使用requests请求库同步和httpx请求库的异步，两者结合爬取17k小说网里面的百万字小说，利用XPath来做相应的信息提取。

Xpath小技巧

在使用Xpath之前，我们先来介绍使用Xpath的小技巧。

技巧一：快速获取与内容匹配的Xpath范围。

我们可以将鼠标移动到我们想要获取到内容div的位置并右击选择copy，如下图所示：

这样我们就可以成功获取到内容匹配的Xpath范围了。

技巧二：快速获取Xpath范围匹配的内容。

当我们写好Xpath匹配的范围后，可以通过Chrome浏览器的小插件Xpath Helper，该插件的安装方式很简单，在浏览器应用商店中搜索Xpath Helper，点击添加即可，如下图所示：

使用方法也很简单，如下图所示：

首先我们点击刚刚添加的插件，然后把已经写好的Xpath范围写到上图2的方框里面，接着Xpath匹配的内容将出现在上图3方框里面，接着被匹配内容的背景色全部变成了金色，那么我们匹配内容就一目了然了。

这样我们就不需要每写一个Xpath范围就运行一次程序查看匹配内容，大大提高了我们效率。

获取小说章节名和链接

首先我们选取爬取的目标小说，并打开开发者工具，如下图所示：

我们通过上图可以发现，<div class=”Main List”存放着我们所有小说章节名，点击该章节就可以跳转到对应的章节页面，所以可以使用Xpath来通过这个div来获取到我们想要的章节名和URL链接。

由于我们获取的章节名和URL链接的网络请求只有一个，直接使用requests请求库发送同步请求，主要代码如下所示：

async def get_link(url):
    response=requests.get(url)
    response.encoding='utf-8'
    Xpath=parsel.Selector(response.text)
    dd=Xpath.xpath('/html/body/div[5]')
    for a in dd:
        #获取每章节的url链接
        links=a.xpath('./dl/dd/a/@href').extract()
        linklist=['https://www.17k.com'+link for link in links]
        #获取每章节的名字
        names=a.xpath('./dl/dd/a/span/text()').extract()
        namelist=[name.replace('\n','').replace('\t','') for name in names]
        #将名字和url链接合并成一个元组
        name_link_list=zip(namelist,linklist)

首先我们用async声明定义的get_text()方法使用requests库发送get请求并把解码方式改成’utf-8’，接着使用parsel.Selector()方法将文本构成Xpath解析对象，最后我们将获取到的URL链接和章节名合并成一个元组。

获取到URL链接和章节名后，需要构造一个task任务列表来作为异步协程的可等待对象，具体代码如下所示：

task=[]
for name,link in name_link_list:
 task.append(get_text(name,link))
await asyncio.wait(task)

我们创建了一个空列表，用来存放get_text()方法，并使用await调用asyncio.wait()方法保存创建的task任务。

获取每章节的小说内容

由于需要发送很多个章节的网络请求，所以我们采用httpx请求库来发送异步请求。

主要代码如下所示：

async def get_text(name,link):
    async with httpx.AsyncClient() as client:
        response=await client.get(link)
        html=etree.HTML(response.text)
        text=html.xpath('//*[@id="readArea"]/div[1]/div[2]/p/text()')
        await save_data(name,text)

首先我们将上一步的获取到的章节名和URL链接传递到用async声明定义的get_text()方法，使用with块调用httpx.AsyncClient()方法，并使用await来声明client.get()是可等待对象，然后使用etree模块来构造一个XPath解析对象并自动修正HTML文本，将获取到的小说内容和章节名传入到自定义方法save_data中。

保存小说内容到text文本中

好了，我们已经把章节名和小说内容获取下来了，接下来就要把内容保存在text文本中，具体代码如下所示：

async def save_data(name,text):
    f=open(f'小说/{name}.txt','w',encoding='utf-8')
    for texts in text:
        f.write(texts)
        f.write('\n')
        print(f'正在爬取{name}')

老规矩，首先用async来声明save_data()协程方法save_data()，然后使用open()方法，将text文本文件打开并调用write()方法把小说内容写入文本中。

最后调用asyncio.get_event_loop()方法进入事件循环，再调用loop.run_until_complete(get_link())方法运行事件循环，直到function运行结束。具体代码如下所示：

url='https://www.17k.com/list/2536069.html'
loop = asyncio.get_event_loop()
loop.run_until_complete(get_link(url))

结果展示

好了，异步爬虫爬取小说就讲解到这里了，感谢观看！！！

– END –

Post Views: 69