<!-- wp:quote -->

<p>常见爬虫库的安装</p>
<!-- /wp:quote --> <!-- wp:more --> <!-- /wp:more --> <!-- wp:tadv/classic-paragraph --> <h3>都快忘了这个系列。。。</h3> <p>我们现在安装python爬虫方面常见的库。如果你的python爬虫前面的环境有问题,可以随时去搜索以前的教程</p> <!-- /wp:tadv/classic-paragraph --> <!-- wp:paragraph --> <p>python爬虫常见的库有 请求库,解析库、存储库、工具库</p> <!-- /wp:paragraph --> <!-- wp:tadv/classic-paragraph --> <p>我们在安装一些库的时候都要用pip去安装,安装格式如下:</p>
pip  install  库名
<p>这样非常像我们的Linux系统中的yum和apt,这样的方式安装,那么Linux用这样的方法安装会很慢,因为默认都是国外的源,我们用pip 的时候也是要换源的,</p> <h3>如何更换pip源</h3> <h6>Windows:</h6> <p>在Windows中我们要在C盘的“用户”这个文件夹里,会有一个以你用户名为名称文件夹:</p> <p></p> <p>进入这个文件夹然后新建一个名为pip的文件夹,然后在pip的文件夹里面创建一个名为pip.ini的文件,然后用记事本打开输入一下内容:</p>
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=mirrors.aliyun.com

<p>然后保存就可以了,这样就更换了源。</p>
<h6>Linux:</h6>
<p>在Linux中直接输入下面的命令:</p>

vim ~/.pip/pip.conf
<p>一个都不要少,这个  .  是隐藏文件的意思,然后再输入上面的内容保存即可。</p> <p>至此pip换源结束,如果做这一步的话在你安装一些库的时候能慢到你绝望。</p> <h3>urllib </h3> <p>这个库是属于请求库的,用来一系列操作URL的功能。这个库是自带的,默认安装好的,我们可以在cmd里面输入python命令,然后测试一下</p>
import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com')
<http.client.HTTPResponse object at 0x000001C91874CAC8>

<p>能够像上面那样正常输出就证明你的urllib库是安装了的</p>
<h3>re</h3>
<p>这个库也是python自带的,主要用于字符串匹配。验证是否存在的方法:</p>

import re
<h3>request</h3> <p>这个就是解析库了,基于 urllib 编写的,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。这个默认应该是没有安装的,安装方法:</p>
pip install request
<p>测试方法:</p>
>>> import requests
>>> requests.get("http://www.baidu.com")

<h3>selenium </h3>
<p>这个库是用于驱动浏览器的库,自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。安装方法:</p>

pip install selenium
<p>调用方法:</p>
import selenium
from selenium import webdriver
driver = webdriver.Chrome()

<p>之后我们会得到一堆报错,原因是我们要驱动Chrome浏览器,我们就必须要装一个谷歌浏览器这个是必须的嘛,其次还要去chromedriver官网下载驱动,注意这时候你下载的时候要看看你的浏览器版本。</p>
<p></p>
<p>然后注意去官网下载的时候要下载这个版本的相近驱动,下载好之后,解压,然后将文件放在我们的python.exe目录,这样做的目的是让环境变量能够正常的读取到这个谷歌浏览器驱动。</p>
<p>然后再次执行刚才的调用方法,就会自动的打开浏览器:</p>
<p></p>
<h3>phantomjs</h3>
<p>这个库是代替我们客户端来渲染的,不然我们打开爬取很多的网站时,有些内容不一定要每次都打开浏览器,我们用phantomjs让代码在命令行的视图下运行。点我去官网下载,下载之后,将其解压,然后把文件的目录添加到环境变量里,然后重新打开cmd,在里面输入:</p>

phantomjs
phantomjs> console.log('123')
123

<p>这样就代表安装成功了。</p>
<h3>lxml</h3>
<p>支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。解析库的一种,安装方法:</p>

pip install lxml
<h3>beautifulsoup</h3> <p>html 和 XML 的解析,从网页中提取信息,同时拥有强大的API和多样解析方式。安装方法:</p>
pip install beautifulsoup4
<p>调用方法;</p>
from bs4 import BeautifulSoup
<h3>pyquery</h3> <p>jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好。也是解析库的一种。安装方法:</p>
pip install pyquery
<p>调用方法:</p>
from pyquery import PyQuery as pq
<!-- /wp:tadv/classic-paragraph --> <!-- wp:tadv/classic-paragraph --> <h3>pymysql</h3> <p>一个纯 Python 实现的 MySQL 客户端操作库。安装方法:</p>
pip install pymysql
<p>调用方法:</p>
import pymysql
<h3>pymongo</h3> <p>一个用于直接连接 mongodb 数据库进行查询操作的库。安装方法:</p>
pip install pymongo
<h3>redis</h3> <p>一个用于 redis 数据导入/导出的工具。</p>
pip install redis
<p>这三个数据库的调用方法一样</p> <h3>flask</h3> <p>轻量级的 web 服务程序,简单,易用,灵活,主要来做一些 API 服务。做代理时可能会用到。</p> <h3>django</h3> <p>一个 web 服务器框架,提供了一个完整的后台管理,引擎、接口等,使用它可做一个完整网站。</p> <h3>jupyter</h3> <p>Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本。</p> <p>这三个的安装方法都是pip install 这样的方法安装,最后一个jupyter装完之后,可以在cmd中输入:</p>
jupyter notebook
<p>然后在浏览器中就会打开:</p> <p></p> <p>这个可以在线写python的代码,大家没事了可以慢慢摸索其功能。</p> <!-- /wp:tadv/classic-paragraph -->
最后修改:2020 年 02 月 28 日 06 : 51 PM
请俺喝杯咖啡呗