路漫漫其修遠兮,吾將上下而求索

0%

前陣子受邀回母校上網路爬蟲,最近剛好有空想說把教學的過程都記錄下來,也方便日後做參考。

什麼是爬蟲 ?

爬蟲只是一個蒐集網路資料的技術而已,最開始是用來搜尋網際網路上的網址,以Google搜尋為例,搜尋完關鍵字後所呈現的內容都是Google爬蟲努力的結果

爬蟲的起點始於一張被稱作種子的統一資源位址(URLs)列表,透過分析這些頁面內提供的所有網頁連結以及文章,進而生成網頁快照儲存下來,這便是爬蟲最開始的由來。

隨著時間的演進,爬蟲的功能也不侷限在網頁快照而已,若要用一句話來定義現今形式網路爬蟲的話,我覺得是這樣

使用自動化的方式模擬人類在瀏覽器上操作的所有行為

Read more »

Amazon Simple Storage Service 簡稱 Amazon S3,提供了類似倉庫的概念可以讓用戶直接上傳資料到 Bucket

而它的計算方式是透過網站流量以及容量來計算,也就是說沒有所謂最低價錢的限制,完全是用多少算多少

如果擔心價錢的話S3 也提供了簡易的換算器, 進去後在左側選擇 “Amazon s3”, 輸入好相關資料後切換到 “Estimate of your Monthly Bill” 分頁即可看到試算金額。

Read more »

近日找遍各大blog

從外太空找到行天宮終於下定決心在Ghost 定了下來
當然如果你想host 一個blog 而不花到任何費用是 絕對不可能的

最主要的花費如下

  1. 主機費用
  2. Domain name 申請

其實你也可以選擇 wordpress,或者 logdown 這些國內外知名的部落格來寫作,如果都選擇最低標準的方案或許不會花到任何錢

但是身為專業的工程師就要全部自己來阿

Read more »