W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎勵(lì)
在講解爬蟲內(nèi)容之前,我們需要先學(xué)習(xí)一項(xiàng)寫爬蟲的必備技能:審查元素(如果已掌握,可跳過此部分內(nèi)容)。
1、審查元素
在瀏覽器的地址欄輸入U(xiǎn)RL地址,在網(wǎng)頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome瀏覽器叫做檢查,F(xiàn)irefox瀏覽器叫做查看元素,但是功能都是相同的)
我們可以看到,右側(cè)出現(xiàn)了一大推代碼,這些代碼就叫做HTML。什么是HTML?舉個(gè)容易理解的例子:我們的基因決定了我們的原始容貌,服務(wù)器返回的HTML決定了網(wǎng)站的原始容貌。
為啥說是原始容貌呢?
因?yàn)槿丝梢哉莅?!扎心了,有木有?那網(wǎng)站也可以”整容”嗎?可以!請看下圖:
我能有這么多錢嗎?顯然不可能。我是怎么給網(wǎng)站”整容”的呢?就是通過修改服務(wù)器返回的HTML信息。我們每個(gè)人都是”整容大師”,可以修改頁面信息。我們在頁面的哪個(gè)位置點(diǎn)擊審查元素,瀏覽器就會為我們定位到相應(yīng)的HTML位置,進(jìn)而就可以在本地更改HTML信息。
再舉個(gè)小例子:我們都知道,使用瀏覽器”記住密碼”的功能,密碼會變成一堆小黑點(diǎn),是不可見的??梢宰屆艽a顯示出來嗎?可以,只需給頁面”動個(gè)小手術(shù)”!以淘寶為例,在輸入密碼框處右鍵,點(diǎn)擊檢查。
可以看到,瀏覽器為我們自動定位到了相應(yīng)的HTML位置。將下圖中的password屬性值改為text屬性值(直接在右側(cè)代碼處修改):
我們讓瀏覽器記住的密碼就這樣顯現(xiàn)出來了:
說這么多,什么意思呢?瀏覽器就是作為客戶端從服務(wù)器端獲取信息,然后將信息解析,并展示給我們的。我們可以在本地修改HTML信息,為網(wǎng)頁”整容”,但是我們修改的信息不會回傳到服務(wù)器,服務(wù)器存儲的HTML信息不會改變。刷新一下界面,頁面還會回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。
2、簡單實(shí)例
網(wǎng)絡(luò)爬蟲的第一步就是根據(jù)URL,獲取網(wǎng)頁的HTML信息。在Python3中,可以使用urllib.request和requests進(jìn)行網(wǎng)頁爬取。
requests庫強(qiáng)大好用,所以本文使用requests庫獲取網(wǎng)頁的HTML信息。requests庫的github地址:https://github.com/requests/requests
在cmd中,使用如下指令安裝requests:
pip install requests
或者:
easy_install requests
requests庫的基礎(chǔ)方法如下:
requests中文文檔:https://requests.readthedocs.io/projects/cn/zh_CN/latest/
requests庫的開發(fā)者為我們提供了詳細(xì)的中文教程,查詢起來很方便。本文不會對其所有內(nèi)容進(jìn)行講解,摘取其部分使用到的內(nèi)容,進(jìn)行實(shí)戰(zhàn)說明。
首先,讓我們看下requests.get()方法,它用于向服務(wù)器發(fā)起GET請求,不了解GET請求沒有關(guān)系。我們可以這樣理解:get的中文意思是得到、抓住,那這個(gè)requests.get()方法就是從服務(wù)器得到、抓住數(shù)據(jù),也就是獲取數(shù)據(jù)。讓我們看一個(gè)例子(以 www.gitbook.cn為例)來加深理解:
# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
requests.get()方法必須設(shè)置的一個(gè)參數(shù)就是url,因?yàn)槲覀兊酶嬖VGET請求,我們的目標(biāo)是誰,我們要獲取誰的信息。運(yùn)行程序看下結(jié)果:
左側(cè)是我們程序獲得的結(jié)果,右側(cè)是我們在www.gitbook.cn網(wǎng)站審查元素獲得的信息。我們可以看到,我們已經(jīng)順利獲得了該網(wǎng)頁的HTML信息。這就是一個(gè)最簡單的爬蟲實(shí)例,可能你會問,我只是爬取了這個(gè)網(wǎng)頁的HTML信息,有什么用呢?客官稍安勿躁,接下來進(jìn)入我們的實(shí)戰(zhàn)正文。
原文作者:Jack-Cui
原文地址:https://blog.csdn.net/c406495762/article/details/78123502
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: