Python基本爬虫教程（1）Python与所需工具的安装

2021 年 04 月 05 日

1695次浏览

1472字数

这是博客的第一篇Python爬虫教程，主要内容为：安装Python（anaconda，原版Python），安装爬虫要用的库基本爬虫获取库：（requests,selenium（Chrome：ChromeDriver，FireFox：GeckoDriver，PhantomJS），aiohttp）解析库：lxml,beautifulsoup4 (bs4)，pyquery，以及验证码的识别库：tesserocr，数据库可以自行选择

首先是安装Python，有两个选择，第一个是anaconda，用于数据处理，人工智能等等领域，下载页面，选择适合的操作系统，系统位数（x86是32位，64位也可以使用但是性能会有所下降，而x64是专门给64位操作系统用的，32位用不了），版本可以选择比较新的（最新的可能有Bug，不推荐用最新的），点一下，下载完安装就完事了。可以跳到测试阶段。而电脑没那么大空间的或者需求比较小的推荐使用原版的python，下载链接，这个比较推荐3.7版本的python，稳定性杠杠的，然后一直安装就好了。

接下来是测试部分
首先打开cmd(win+R输入cmd，enter打开)，输入python，如果显示了python的版本等等的信息和出现了>>>的符号就是可以了，输入quit()退出
显示命令不存在则是环境变量没有设置好，右键电脑，属性，高级系统设置，环境变量，双击系统变量里的path，，添加两条：安装目录，以及安装目录/Scripts，一直确认，重启下cmd就可以使用了

接下来是安装需要的包的部分
可以直接一条条执行这个：
pip install wheel
pip install requests
pip install selenium
pip install aiohttp
这里要注意一下，lxml在anaconda是已经安装了的，但是在原版中安装有点麻烦（pip 会报错），所以使用wheel下载
pip install beautifulsoup4
pip install pyquery
也要注意下，tesserocr是要先安装tesseract，可以百度安装，然后pip install tesserocr pillow就行了
这样就基本装好了，其他的系统都自带了
在后期的的文章中还会讲到api等等的爬虫调用方式和SQL等等的储方式，那些可以选择自己安装
抓包推荐Charles，可以分析web包的发送等等，安装地址
但是这个是收费软件，没钱的可以看下网上的破解版或者密钥
Appium用于移动app分析，可以直接从github上安装下来使用，这里也不多赘述了，但是也要注意这个是基于node.js的所以要提前安装好npm
爬虫框架这边也先不讲，到后期有大量的数据和速度需求的时候会和SQL等等的一起讲