Python3爬蟲入門之開篇

在介紹Python3爬蟲之前,先說(shuō)一下為什么需要學(xué)習(xí)Python3,為什么很多人會(huì)安裝雙版本Python,既Python2與Python3都安裝,因?yàn)镻ython2與Python3都需要學(xué)習(xí)!

只學(xué)習(xí)Python2,這里有很多理由來(lái)反駁:

  • Python 3 才是Python的未來(lái)
  • Python 官方都建議指直接學(xué)習(xí)Python 3
  • Python 2 只維護(hù)到2020年

Python2在2020年就不維護(hù)了,那么就不學(xué)習(xí)Python2了嗎?

顯然不是,windows xp 和 windows 7系統(tǒng),也照樣使用人數(shù)占比,高于windows8/10。有一個(gè)原因是,老系統(tǒng)人們都使用習(xí)慣了,也兼容很多軟件,windows 10系統(tǒng)會(huì)有一些軟件不兼容的問(wèn)題!同樣,Python2 在工業(yè)中有很多歷史遺留項(xiàng)目,除非使用Python3改寫,這都需要時(shí)間、人力來(lái)完成;還有一個(gè)重要原因是,操作系統(tǒng)使用的Python版本也是Python2的,比如linux的yum工具依賴于Python2版本,系統(tǒng)級(jí)別的Python版本選擇也讓Python2的版本占比有很大的優(yōu)勢(shì)。

那么,不學(xué)習(xí)Python3嗎?

顯然,也不是,Python3有官方的支持,就像windows 10 有微軟的支持一樣,未來(lái)會(huì)添加很多功能,這些功能通常是可以高效、方便的解決工業(yè)問(wèn)題的。顯然,得重點(diǎn)學(xué)習(xí)!

所以說(shuō),Python 2與Python 3都要學(xué)習(xí),Python爬蟲也是一樣!

關(guān)于Python2/3 雙版本的安裝,可以看前面一篇文章:

Python安裝及Python雙版本安裝詳細(xì)教程

爬蟲的概念

網(wǎng)絡(luò)爬蟲指的是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。

需要的準(zhǔn)備

在學(xué)習(xí)Python3爬蟲之前,需要有一些小小的知識(shí)準(zhǔn)備:

  • 一臺(tái)可以上網(wǎng)的計(jì)算機(jī);
  • Python3基礎(chǔ)知識(shí);
  • 如果學(xué)過(guò)Python2,需要知道Python2 / 3語(yǔ)法區(qū)別;

Python2與Python3還是有很多區(qū)別的,比如print函數(shù)是否需要括號(hào),input函數(shù)等等,這兩個(gè)版本爬蟲模塊用法也有些不同,比如:

在 Python 3.x 里,urllib2 改名為 urllib,被分成一些子模塊:urllib.request、urllib.parse 和 urllib.error。盡管函數(shù)名稱大多和原來(lái)一樣,但是在用新的 urllib 庫(kù)時(shí)需要注意哪些函數(shù)被移動(dòng)到子模塊里了。

作者:柯廣的網(wǎng)絡(luò)日志 ? Python3爬蟲入門之開篇


微信公眾號(hào):Java大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)