马克社区,马克吐温社区,马克java社区Python3爬虫入门之开篇;Python

赞

Python3爬虫入门之开篇

在介绍Python3爬虫之前，先说一下为什么需要学习Python3，为什么很多人会安装双版本Python，既Python2与Python3都安装，因为Python2与Python3都需要学习！

只学习Python2，这里有很多理由来反驳：

Python 3 才是Python的未来
Python 官方都建议指直接学习Python 3
Python 2 只维护到2020年

Python2在2020年就不维护了，那么就不学习Python2了吗？

显然不是，windows xp 和 windows 7系统，也照样使用人数占比，高于windows8/10。有一个原因是，老系统人们都使用习惯了，也兼容很多软件，windows 10系统会有一些软件不兼容的问题！同样，Python2 在工业中有很多历史遗留项目，除非使用Python3改写，这都需要时间、人力来完成；还有一个重要原因是，操作系统使用的Python版本也是Python2的，比如linux的yum工具依赖于Python2版本，系统级别的Python版本选择也让Python2的版本占比有很大的优势。

那么，不学习Python3吗？

显然，也不是，Python3有官方的支持，就像windows 10 有微软的支持一样，未来会添加很多功能，这些功能通常是可以高效、方便的解决工业问题的。显然，得重点学习！

所以说，Python 2与Python 3都要学习，Python爬虫也是一样！

关于Python2/3 双版本的安装，可以看前面一篇文章：

Python安装及Python双版本安装详细教程

爬虫的概念

网络爬虫指的是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

需要的准备

在学习Python3爬虫之前，需要有一些小小的知识准备：

一台可以上网的计算机；
Python3基础知识；
如果学过Python2，需要知道Python2 / 3语法区别；

Python2与Python3还是有很多区别的，比如print函数是否需要括号，input函数等等，这两个版本爬虫模块用法也有些不同，比如：

在 Python 3.x 里，urllib2 改名为 urllib，被分成一些子模块：urllib.request、urllib.parse 和 urllib.error。尽管函数名称大多和原来一样，但是在用新的 urllib 库时需要注意哪些函数被移动到子模块里了。

作者：柯广的网络日志 » Python3爬虫入门之开篇

微信公众号：Java大数据与数据仓库

内容推荐下一页