數據時代必備工具– Python 爬蟲 | 就是愛看書
![數據時代必備工具– Python 爬蟲](https://i.imgur.com/y8QtHep.jpg)
![數據時代必備工具– Python 爬蟲](https://i.imgur.com/y8QtHep.jpg)
一、 什麼是爬蟲 網絡爬蟲,其實稱作「網絡數據採集」會比較容易理解,是一種用來自動瀏覽全世界網站的指令或 程式碼,所謂的網路搜尋引擎,就是通過爬蟲軟體更新自身的網站內容或其對其他網站的索引,網 路爬蟲可以將自己所選取的頁面儲存下來,以便搜尋引擎在之後生成索引以供使用者使用及搜尋。 以 Google 為例,Google 搜尋引擎就是一個巨大的爬蟲程式,我們「放入關鍵字」,搜尋引擎就會自 動尋找、抓取全球所有的網頁,生出一個列表,讓我們可以依據需要的內容去選取網頁。
二、 爬蟲原理 透過剛剛的例子,我們可以發現,網路爬蟲就是通過程式向網路伺服器請求數據(HTML 表單),然 後解析 HTML 網頁內容,提取出自己需要的數據。 以下可以歸納為四大步驟:
1、 根據網址獲取 HTML 數據 2、 解析 HTML,獲取目標資料 3、 儲存資料 4、 重複第一步,直到資料被抓取完畢
三、 爬出的資料可以幹嘛? 透過分析數據,我們不只能掌握資訊,更能透過手上的資訊,預測未來即將發生的事。 美國一位當代知名的統計與預測天才 納特·西爾弗(Nate Silver),目前是專門播放體育節目的美國有 線電視聯播網 ESPN 旗下部落格 FiveThirtyEight 的主編,同時也是 ABC News 的特派記者。他研發出 PECOTA,用來預測美國大聯盟棒球運動員的表現和職業前景,更可以進一步預測棒球賽事的結果, 最後吸引了知名棒球評論媒體 Baseball Prospectus 收購。他成立的部落格 FiveThirtyEight,於 2008...
數據時代必備工具– Python 爬蟲 | 就是愛看書
網路爬蟲 | 就是愛看書
認識網路爬蟲:爬蟲的應用與原理 | 就是愛看書
[Python 爬蟲這樣學,一定是大拇指拉!] DAY04 | 就是愛看書
終於有人把網路爬蟲講明白了 | 就是愛看書
網路爬蟲 | 就是愛看書
認識網路爬蟲:解放複製貼上的時間 | 就是愛看書
初學者必看!一個觀念,開啟Python 網路爬蟲成長之路!(含 ... | 就是愛看書
關於網路爬蟲 | 就是愛看書
![](https://i.imgur.com/y8QtHep.jpg)
《超??斯: 拼拔??力. A1》京尼教育科技 978-986-5574-04-8 (平裝, 24面, 30公分)
《超??斯:拼拔??力.A1》好看嗎?作者??利???由「京尼教育科技」出版,ISBN:978-986-5574-04-8(平裝,24面,30公分),以下為此...
![](https://i.imgur.com/y8QtHep.jpg)
《爬蟲在手資料我有: 30天Scrapy爬蟲實戰》博碩文化 978-986-434-743-8 (平裝, 256面, 23公分)
《爬蟲在手資料我有:30天Scrapy爬蟲實戰》好看嗎?作者簡學群著由「博碩文化」出版,ISBN:978-986-434-743-8(平裝,256面,23...
![](https://i.imgur.com/y8QtHep.jpg)
《文心雕龍學思錄》樂學 978-986-88194-9-8 (精裝, NT$300, 252面, 21公分)
《文心雕龍學思錄》好看嗎?作者呂武志著由「樂學」出版,ISBN:978-986-88194-9-8(精裝,NT$300,252面,21公分),以下為此書...
![](https://i.imgur.com/y8QtHep.jpg)
《Python x Excel VBA x JavaScript: 網路爬蟲x實戰演練》碁峰資訊 978-986-502-769-8 (平裝, 640面, 23公分)
《PythonxExcelVBAxJavaScript:網路爬蟲x實戰演練》好看嗎?作者廖敏宏(廖志煌)著由「碁峰資訊」出版,ISBN:978-986-502-76...
![](https://i.imgur.com/y8QtHep.jpg)
《Python程式設計講義與程式集錦》滄海 978-986-363-127-9 (平裝, 204面, 26公分)
《Python程式設計講義與程式集錦》好看嗎?作者張丁才編著由「滄海」出版,ISBN:978-986-363-127-9(平裝,204面,26公分),以...