Python3爬虫入门之开篇

在介绍Python3爬虫之前,先说一下为什么需要学习Python3,为什么很多人会安装双版本Python,既Python2与Python3都安装,因为Python2与Python3都需要学习!

只学习Python2,这里有很多理由来反驳:

  • Python 3 才是Python的未来
  • Python 官方都建议指直接学习Python 3
  • Python 2 只维护到2020年

Python2在2020年就不维护了,那么就不学习Python2了吗?

显然不是,windows xp 和 windows 7系统,也照样使用人数占比,高于windows8/10。有一个原因是,老系统人们都使用习惯了,也兼容很多软件,windows 10系统会有一些软件不兼容的问题!同样,Python2 在工业中有很多历史遗留项目,除非使用Python3改写,这都需要时间、人力来完成;还有一个重要原因是,操作系统使用的Python版本也是Python2的,比如linux的yum工具依赖于Python2版本,系统级别的Python版本选择也让Python2的版本占比有很大的优势。

那么,不学习Python3吗?

显然,也不是,Python3有官方的支持,就像windows 10 有微软的支持一样,未来会添加很多功能,这些功能通常是可以高效、方便的解决工业问题的。显然,得重点学习!

所以说,Python 2与Python 3都要学习,Python爬虫也是一样!

关于Python2/3 双版本的安装,可以看前面一篇文章:

Python安装及Python双版本安装详细教程

爬虫的概念

网络爬虫指的是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

需要的准备

在学习Python3爬虫之前,需要有一些小小的知识准备:

  • 一台可以上网的计算机;
  • Python3基础知识;
  • 如果学过Python2,需要知道Python2 / 3语法区别;

Python2与Python3还是有很多区别的,比如print函数是否需要括号,input函数等等,这两个版本爬虫模块用法也有些不同,比如:

在 Python 3.x 里,urllib2 改名为 urllib,被分成一些子模块:urllib.request、urllib.parse 和 urllib.error。尽管函数名称大多和原来一样,但是在用新的 urllib 库时需要注意哪些函数被移动到子模块里了。

作者:柯广的网络日志 » Python3爬虫入门之开篇


微信公众号:Java大数据与数据仓库