Python3爬蟲入門之開篇
在介紹Python3爬蟲之前,先說(shuō)一下為什么需要學(xué)習(xí)Python3,為什么很多人會(huì)安裝雙版本Python,既Python2與Python3都安裝,因?yàn)镻ython2與Python3都需要學(xué)習(xí)!
只學(xué)習(xí)Python2,這里有很多理由來(lái)反駁:
- Python 3 才是Python的未來(lái)
- Python 官方都建議指直接學(xué)習(xí)Python 3
- Python 2 只維護(hù)到2020年
Python2在2020年就不維護(hù)了,那么就不學(xué)習(xí)Python2了嗎?
顯然不是,windows xp 和 windows 7系統(tǒng),也照樣使用人數(shù)占比,高于windows8/10。有一個(gè)原因是,老系統(tǒng)人們都使用習(xí)慣了,也兼容很多軟件,windows 10系統(tǒng)會(huì)有一些軟件不兼容的問(wèn)題!同樣,Python2 在工業(yè)中有很多歷史遺留項(xiàng)目,除非使用Python3改寫,這都需要時(shí)間、人力來(lái)完成;還有一個(gè)重要原因是,操作系統(tǒng)使用的Python版本也是Python2的,比如linux的yum工具依賴于Python2版本,系統(tǒng)級(jí)別的Python版本選擇也讓Python2的版本占比有很大的優(yōu)勢(shì)。
那么,不學(xué)習(xí)Python3嗎?
顯然,也不是,Python3有官方的支持,就像windows 10 有微軟的支持一樣,未來(lái)會(huì)添加很多功能,這些功能通常是可以高效、方便的解決工業(yè)問(wèn)題的。顯然,得重點(diǎn)學(xué)習(xí)!
所以說(shuō),Python 2與Python 3都要學(xué)習(xí),Python爬蟲也是一樣!
關(guān)于Python2/3 雙版本的安裝,可以看前面一篇文章:
爬蟲的概念
網(wǎng)絡(luò)爬蟲指的是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。
需要的準(zhǔn)備
在學(xué)習(xí)Python3爬蟲之前,需要有一些小小的知識(shí)準(zhǔn)備:
- 一臺(tái)可以上網(wǎng)的計(jì)算機(jī);
- Python3基礎(chǔ)知識(shí);
- 如果學(xué)過(guò)Python2,需要知道Python2 / 3語(yǔ)法區(qū)別;
Python2與Python3還是有很多區(qū)別的,比如print函數(shù)是否需要括號(hào),input函數(shù)等等,這兩個(gè)版本爬蟲模塊用法也有些不同,比如:
在 Python 3.x 里,urllib2 改名為 urllib,被分成一些子模塊:urllib.request、urllib.parse 和 urllib.error。盡管函數(shù)名稱大多和原來(lái)一樣,但是在用新的 urllib 庫(kù)時(shí)需要注意哪些函數(shù)被移動(dòng)到子模塊里了。
作者:柯廣的網(wǎng)絡(luò)日志 ? Python3爬蟲入門之開篇
微信公眾號(hào):Java大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)