Skip to content

Zeroplex 生活隨筆

軟體開發、伺服器和生活瑣事

小 縮小字型大小。 中 重設字型大小。 大 放大字型大小。

URL Normalize (URL 正規化)

Posted on 2023 年 1 月 18 日2023 年 1 月 18 日 By 日落 在〈URL Normalize (URL 正規化)〉中尚無留言

URL 呈現的形式很多樣,例如以下幾個 URL 事實上都會開啟相同的頁面:

  • https://zeroplex.tw
  • https://zeroplex.tw/
  • https://zeroplex.tw:443/
  • https://zeroplex.tw/#note

另外網址中的參數順序是沒有差異的。例如以下二個 URL 等義:

  • https://test.com?query=key&lang=en
  • https://test.com?lang=en&query=key

如果要寫 crawler 的話,最好先做 URL normalize 以後再來決定是否要處理,不然會花不少時間在重複的資料上。

另外有觀察到一些蠻討人厭的追蹤標籤,不影響結果,單純追蹤瀏覽行為。像是:

  • ?fbclid=:從 Facebook 開啟連結後,參數會自動加入
  • utm_source、utm_campaign 等:Google Analytics 用來記錄流量來源的一些參數

Tags:Web

文章導覽

Previous Post: 調整 cargo build 的 job 數量
Next Post: MySQL 上的資料型態轉換

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *


其他

關於我  (About me)

小額贊助

  文章 RSS Feed

  留言 RSS Feed

Apache AWS Bash C/C++ Docker FreeBSD GCP Git Google Java JavaScript Laravel Linux Microsoft MSSQL MySQL Nginx PHP PHPUnit PostgreSQL Python Qt Ubuntu Unix Vim Web Windows WordPress XD 作業系統 分享 好站推薦 專題 攝影 新奇搞笑 新聞 旅遊 生活雜記 程式設計 網路架站 網頁設計 資訊學習 資訊安全 遊戲 音樂


創用 CC 授權條款
本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際 授權條款授權.