前陣子受邀回母校上網路爬蟲,最近剛好有空想說把教學的過程都記錄下來,也方便日後做參考。
什麼是爬蟲 ?
爬蟲只是一個蒐集網路資料的技術而已,最開始是用來搜尋網際網路上的網址,以Google搜尋為例,搜尋完關鍵字後所呈現的內容都是Google爬蟲努力的結果
爬蟲的起點始於一張被稱作種子的統一資源位址(URLs)列表,透過分析這些頁面內提供的所有網頁連結以及文章,進而生成網頁快照儲存下來,這便是爬蟲最開始的由來。
隨著時間的演進,爬蟲的功能也不侷限在網頁快照而已,若要用一句話來定義現今形式網路爬蟲的話,我覺得是這樣
使用自動化的方式模擬人類在瀏覽器上操作的所有行為