URL Normalize (URL 正規化)

URL 呈現的形式很多樣,例如以下幾個 URL 事實上都會開啟相同的頁面:

  • https://zeroplex.tw
  • https://zeroplex.tw/
  • https://zeroplex.tw:443/
  • https://zeroplex.tw/#note

另外網址中的參數順序是沒有差異的。例如以下二個 URL 等義:

  • https://test.com?query=key&lang=en
  • https://test.com?lang=en&query=key

如果要寫 crawler 的話,最好先做 URL normalize 以後再來決定是否要處理,不然會花不少時間在重複的資料上。

另外有觀察到一些蠻討人厭的追蹤標籤,不影響結果,單純追蹤瀏覽行為。像是:

  • ?fbclid=:從 Facebook 開啟連結後,參數會自動加入
  • utm_sourceutm_campaign 等:Google Analytics 用來記錄流量來源的一些參數

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Exit mobile version