
資料內(nèi)容:
什么是抓包 
不論?哪種?式去寫爬?代碼,對(duì)于 下載 來說,具體要請(qǐng)求? 
站 url 是什么,調(diào)?什么 api 接?,傳遞什么 參數(shù) ,以及獲取到數(shù)據(jù) 
后,?什么規(guī)則提取出需要的數(shù)據(jù)等等內(nèi)容,都需要事先去分析和研究清 
楚,這個(gè)抓取?絡(luò)請(qǐng)求的數(shù)據(jù)包的過程,?般叫做: 抓包 
即: 
下載 
需要訪問的?? url 地址或 api接? 是什么 
以及傳遞什么 參數(shù) 
提取 
對(duì)于返回?cái)?shù)據(jù),需要抓取具體哪?部分 
對(duì)應(yīng)的數(shù)據(jù)的 提取規(guī)則 是什么 
提示: 
雖然對(duì)于爬?的核?流程是先要抓包分析搞清楚邏輯,然后才能去寫爬? 
代碼,不過實(shí)際上很多時(shí)候,是邊分析,邊寫代碼的。 
尤其是對(duì)于?些復(fù)雜的?站或app來說,往往是分析的同時(shí),也要寫?些 
代碼去驗(yàn)證和測試抓取的邏輯是否?得通的。 
總之,對(duì)于爬?的流程: 
邏輯上是:先抓包分析,再寫爬?代碼 
實(shí)際上(往往)是:邊抓包分析,邊寫代碼 
抓包的難度 
普通?? :抓包分析,?般?較簡單 
復(fù)雜?站 :對(duì)于需要登錄才能獲取到數(shù)據(jù),且加了驗(yàn)證碼等做了其 
他反爬措施和?段的?站和app,抓包分析起來,?般都很復(fù)雜 
復(fù)雜?站的抓包分析和破解,往往?(之后的,單純的)寫爬? 
去 下載+提取+保存,要難多了 
 
                