4.1 使用Python获取网页源代码_Python爬虫开发：从入门到实战（微课版）-QQ阅读中文仙侠网

上QQ阅读APP看书，第一时间看更新

4.1 使用Python获取网页源代码

4.1.1 Python的第三方库

在Python开发的过程中，常常需要将一些功能比较通用的代码抽离出来作为一个单独的模块，从而被多个工程调用。这种公共的模块称为Python的库（Library, Lib）。

Python在发布时会自带一些由官方开发的常用的库，例如正则表达式“re”、时间“time”等。这些库称为“官方库”。而由非官方发布的库，则称为“第三方库”。

Python之所以如此强大，正是由于它拥有非常多的第三方库。使用第三方库，可以轻易实现各种各样的功能。以获取网页内容为例，Python其实自带了两个模块，分别是urllib和urllib2。使用这两个模块也可以获取网页内容。但是这两个模块使用起来非常麻烦。而requests这个第三方库，让获取网页内容变得极其简单。

requests这个库的作者给这个库取了一个副标题“HTTP for humans”，直接翻译过来就是“这才是给人用的HTTP库”。

Python的第三方库需要手动安装。如果系统只有一个Python版本，那么手动安装第三方库时需要在Mac OS/Linux的终端或者Windows的CMD中执行以下命令：

    pip install第三方库的名字

需要注意的是，如果系统同时有Python 2和Python 3，并且Python 3是后安装的，那么要为Python 3安装第三方库，就需要使用如下命令：

    pip3 install第三方库的名字

安装完第三方库以后，就可以在Python中使用了。使用第三方库，就像使用Python自带的库一样，首先需要使用“import”关键字将它导入，然后才能使用。

还有一点需要特别强调，开发者自己写的.py文件的名字绝对不能和Python自带的模块或者已经安装的第三方库的名字相同，否则会产生问题。例如本章内容涉及requests和正则表达式，那么读者在测试代码的时候绝对不能自行创建名为“requests.py”或者“re.py”的文件。一旦创建，代码必定报错。

4.1.2 requests介绍与安装

使用pip安装requests，代码如下：

    pip install requests

运行结果如图4-1所示。

图4-1 安装requests

pip在线安装时可能会受到防火墙的干扰，因此也可以使用源代码安装。打开网页https://github.com/kennethreitz/requests，单击“Clone or download”按钮，再单击“Download ZIP”按钮下载源代码，如图4-2所示。

图4-2 从Github上下载requests源代码

解压源代码，找到setup.py，并打开CMD窗口或者终端，在放置这个setup.py文件的文件夹中执行以下代码：

    python3 setup.py install

安装完成以后打开CMD或者终端，进入Python交互环境，输入以下代码

    >>>import requests

如果不报错，则表示requests已经成功安装，如图4-3所示。

图4-3 在Python交互环境验证requests是否安装成功

4.1.3 使用requests获取网页源代码

使用浏览器来访问网页，看起来只需要输入网址就可以。但其实网页有很多种打开方式，最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面，就是使用了GET方式。还有一些页面，只能通过从另一个页面单击某个链接或者某个按钮以后跳过来，不能直接通过在浏览器输入网址访问，这种网页就是使用了POST方式。

1．GET方式

对于使用GET方式的网页，在Python里面可以使用requests的get()方法获取网页的源代码：

    import requests
    html = requests.get(’网址’)
    html_bytes = html.content
    html_str = html_bytes.decode()

V4-1 requests的GET方法举例

在这4行代码中，第1行导入了requests库，这样代码里面才能使用。第2行使用GET方法获取了网页，得到一个Response对象。此时如果直接打印HTML变量，得到的是：

    <Response [200]>

第3行使用.content这个属性来显示bytes型网页的源代码。

第4行代码将bytes型的网页源代码解码为字符串型的源代码。

对于上面的4行代码，可以将后3行合并，缩减为两行代码：

    import requests
    html_str = requests.get(’网址’).content.decode()

之所以需要把bytes型的数据解码为字符串型的数据，是因为在bytes型的数据类型下，中文是无法正常显示的。这个“解码”对应的英文为“decode”，因而我们需要使用.decode()这个方法。

这个方法的参数可以省略。在省略的时候，默认使用UTF-8编码格式来把bytes型解码为字符串型的源代码。可能有一些中文网页，它的编码格式本身不是UTF-8，这就需要在括号里面写明目标编码格式的名字。例如：

    html = requests.get(’网址’).content.decode('GBK')
    html = requests.get(’网址’).content.decode('GB2312')
    html = requests.get(’网址’).content.decode('GB18030')

编码格式有几十种，但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。具体使用哪一种编码格式，需要根据实际情况来选择。大多数情况下使用“UTF-8”，但也有一些网站会使用“GBK”或者“GB2312”。读者可以每一种编码格式都测试一下，通过打印出网页的源代码，查看里面的中文是否显示正常，以中文可以正常显示为准。

例4-1：使用GET方式获取网页源代码。

通过http://exercise.kingname.info/exercise_requests_get.html可以测试使用requests的get()方法获取网页，网页如图4-4所示。

图4-4 使用GET方式的练习页面

使用requests获取这个页面的源代码，其结果如图4-5所示。

图4-5 使用requests获取网页源代码

2．POST方式

网页的访问方式除了GET方式以外，还有POST方式。有一些网页，使用GET和POST方式访问同样的网址，得到的结果是不一样的。还有另外一些网页，只能使用POST方式访问，如果使用GET方式访问，网站会直接返回错误信息。

例4-2：使用POST方式获取网站源代码。

以http://exercise.kingname.info/exercise_requests_post为例，如果直接使用浏览器访问，得到的页面如图4-6所示。

图4-6 直接使用浏览器访问得到的页面

V4-2 requests的POST方法举例

此时就需要使用requests的post()方法来获取源代码。

post()方法的格式如下：

    import requests
    data = {'key1': 'value1',
          'key2': 'value2'}
    html_formdata = requests.post(’网址’, data=data).content.decode()
    #用formdata提交数据

其中，data这个字典的内容和项数需要根据实际情况修改，Key和Value在不同的网站是不一样的。而做爬虫，构造这个字典是任务之一。

还有一些网址，提交的内容需要是JSON格式的，因此post()方法的参数需要进行一些修改：

    html_json = requests.post(’网址’, json=data).content.decode() #使用JSON提交数据

这样写代码，requests可以自动将字典转换为JSON字符串。

对练习网址使用两种提交方式，其结果如图4-7、图4-8所示。

图4-7 使用POST方式提交formdata数据的结果

图4-8 使用POST方式提交JSON数据的结果

关于JSON格式，后面的章节将会有详细介绍。

4.1.4 结合requests与正则表达式

以GET方式为例，通过requests获得了网页的源代码，就可以对源代码字符串使用正则表达式来提取文本信息。GET方式练习页面的源代码如图4-9所示。

图4-9 GET方式练习页源代码

例4-3：使用requests与正则表达式获取GET练习页面的内容。

现在需要把标题和两段中文提取下来，可以通过正则表达式来实现。

① 提取标题。

    title = re.search(‘title>(.*? )<', html, re.S).group(1)

② 提取正文，并将两段正文使用换行符拼接起来。

    content_list = re.findall(‘p>(.*? )<', html, re.S)
    content_str = ‘\n'.join(content_list)

完整的代码和运行效果如图4-10所示。

图4-10 使用requests与正则表达式获取练习页内容

V4-3 多线程爬虫