認識網路爬蟲:解放複製貼上的時間 | 就是愛看書
![認識網路爬蟲:解放複製貼上的時間](https://i.imgur.com/y8QtHep.jpg)
2022年8月31日—什麼是網路爬蟲...是一個可以自動化抓取網頁內容的程式。相信大家多少都遇過需要抓取網頁資訊的時候,也許是因為要做報告、或是出於興趣想研究,需要相關 ...
![認識網路爬蟲:解放複製貼上的時間](https://i.imgur.com/y8QtHep.jpg)
分享給非程式背景的朋友,談談什麼是爬蟲,不提程式碼,只談概念與Python實作短片。
什麼是網路爬蟲是一個可以自動化抓取網頁內容的程式。
相信大家多少都遇過需要抓取網頁資訊的時候,也許是因為要做報告、或是出於興趣想研究,需要相關參考資料。最簡單的方法就是一筆一筆複製,然後貼到excel或是文字編輯器儲存,再做後續的分析。
如果只有幾十筆還好,那假如有上百筆、上千筆怎麼辦?
重複的動作做個幾次,大致上就可以拆解出每個步驟:先進入到某個頁面、複製所需要的欄位資訊、貼入文字編輯器,接著不斷循環,直到所有頁面都被翻完,就大功告成啦。
是的,用講的都很輕鬆,一句話就結束了。
但如果實際下來做,在反覆機器式的複製貼上過程,到了某個境界後,只剩下眼球跟雙手飛快的動著,例行性的動作已經被肌肉記憶了,腦袋在喘息的空檔開始思考人生的意義(以及倒數還剩幾筆),相信每個經歷過的修行者都曾經想過:要是可以自動化該有多好?
爬蟲就是解決這個問題的好幫手。
抓取文字內容假設我們想知道漫畫《神之塔》,google的搜尋結果有幾筆?動作會是:輸入關鍵字、送出查詢、得到搜尋結果頁、以及需要欄位。右邊黑黑的是我用的文字編輯器,在此並沒有什麼神奇功能,只是黑底看起來比較舒服。
其中,在「輸入關鍵字、送出查詢」後,我們會得到最重要的「搜尋結果頁的網址」,把這個網址交給爬蟲,它會把網頁原始碼抓下來,再依據我們給出的定位資訊,像漏斗一樣把結果篩選出來。左邊編輯器中,方塊內是我寫的功能,輸出結果在下面。
搜尋漫畫《蟲師》的結果筆數:
搜尋漫畫《蟲師》第一頁標題:
如果對網頁基礎陌生沒關係,舉個生活化例子:在一整天...
何謂網路爬蟲? | 就是愛看書
網路爬蟲 | 就是愛看書
認識網路爬蟲:爬蟲的應用與原理 | 就是愛看書
網絡爬蟲 | 就是愛看書
終於有人把網路爬蟲講明白了 | 就是愛看書
文組也看得懂的 | 就是愛看書
認識網路爬蟲:解放複製貼上的時間 | 就是愛看書
爬蟲的意思、解釋、用法、例句 | 就是愛看書
![](https://i.imgur.com/y8QtHep.jpg)
《文心雕龍學思錄》樂學 978-986-88194-9-8 (精裝, NT$300, 252面, 21公分)
《文心雕龍學思錄》好看嗎?作者呂武志著由「樂學」出版,ISBN:978-986-88194-9-8(精裝,NT$300,252面,21公分),以下為此書...
![](https://i.imgur.com/y8QtHep.jpg)
《爬蟲在手資料我有: 30天Scrapy爬蟲實戰》博碩文化 978-986-434-743-8 (平裝, 256面, 23公分)
《爬蟲在手資料我有:30天Scrapy爬蟲實戰》好看嗎?作者簡學群著由「博碩文化」出版,ISBN:978-986-434-743-8(平裝,256面,23...
![](https://i.imgur.com/y8QtHep.jpg)
《超??斯: 拼拔??力. A1》京尼教育科技 978-986-5574-04-8 (平裝, 24面, 30公分)
《超??斯:拼拔??力.A1》好看嗎?作者??利???由「京尼教育科技」出版,ISBN:978-986-5574-04-8(平裝,24面,30公分),以下為此...
![](https://i.imgur.com/y8QtHep.jpg)
《Python程式設計講義與程式集錦》滄海 978-986-363-127-9 (平裝, 204面, 26公分)
《Python程式設計講義與程式集錦》好看嗎?作者張丁才編著由「滄海」出版,ISBN:978-986-363-127-9(平裝,204面,26公分),以...
![](https://i.imgur.com/y8QtHep.jpg)
《Python x Excel VBA x JavaScript: 網路爬蟲x實戰演練》碁峰資訊 978-986-502-769-8 (平裝, 640面, 23公分)
《PythonxExcelVBAxJavaScript:網路爬蟲x實戰演練》好看嗎?作者廖敏宏(廖志煌)著由「碁峰資訊」出版,ISBN:978-986-502-76...