URL 呈現的形式很多樣,例如以下幾個 URL 事實上都會開啟相同的頁面:
https://zeroplex.tw
https://zeroplex.tw/
https://zeroplex.tw:443/
https://zeroplex.tw/#note
另外網址中的參數順序是沒有差異的。例如以下二個 URL 等義:
https://test.com?query=key&lang=en
https://test.com?lang=en&query=key
如果要寫 crawler 的話,最好先做 URL normalize 以後再來決定是否要處理,不然會花不少時間在重複的資料上。
另外有觀察到一些蠻討人厭的追蹤標籤,不影響結果,單純追蹤瀏覽行為。像是:
?fbclid=
:從 Facebook 開啟連結後,參數會自動加入utm_source
、utm_campaign
等:Google Analytics 用來記錄流量來源的一些參數