Skip to content

Zeroplex 生活隨筆

軟體開發、伺服器和生活瑣事

小 縮小字型大小。 中 重設字型大小。 大 放大字型大小。

多核心主機搭配 GNU parallel

Posted on 2015 年 8 月 3 日2021 年 3 月 12 日 By 日落 在〈多核心主機搭配 GNU parallel〉中尚無留言

假如要將 apache log 中,包含某個 pattern 的記錄找出來,寫起來大概會像這樣子:

cat apache*.log | awk -f log-parser.awk

舊電腦就是放著一個檔案一個檔案慢慢跑,沒什麼問題。若新電腦現在不少都是多核心,看個 parser 慢慢跑,但是剩下的 3 個 CPU core 和 disk 都悠哉沒事做,感覺在浪費時間。

parallel 專門設計來讓 script 可以同時並行運作,使用電腦資源來節省時間的好工具。

假設今天 awk 非常吃 CPU 使用量 (規則較為複雜),處理一個檔案會花上很多 CPU 時間,則可以將 log 中的內容分散給多個 CPU 同時處理:

cat apache*.log | parallel --pipe awk -f log-parser.awk

此時,parallel 偵測到有 4 CPU cores,則會自動將 $FILE 內容分批轉送給 awk 處理 (一行為一個單位),這樣能讓 4 個 CPU 同時跑 awk 解析 log 內容。

不過以一行為一個單位轉送資料給 awk,也會耗掉一些運算資源,可以透過 –block 來要求 parallel 多少資料當作一個單位來轉送資料。以下假設一次送 10MB 的資料給 awk 處理:

cat apache*.log | parallel --pipe --block 10M awk -f log-parser.awk

倘若今天 awk 的要處理的東西並不複雜,可以輕鬆解決掉,上面的寫法反而會讓 CPU 閒閒沒事做,不如就讓一個 awk 負責處理一個檔案,且多個檔案同時進行。此時就可以讓檔案處理的部分轉交給 awk:

parallel --pipe -u --block 10M awk -f log-parser.awk ::: apache*.log

備註:parallel 預設會在所有工作執行結束才輸出結果,若要讓 parallel 即時將結果印出,則可加上參數「-u」。

另外一點要注意的是,parallel 預設會使用所有的 CPU 來處理工作,這在多人共同使用的主機上並不是一件好事,一跑下去大家都不用做事了。所以若在共用環境上請記得加上 -j (jobs) 參數,來限制 parallel 不要用掉所有的系統資源。

Reference:

  • GNU Parallel Tutorial
  • How to write multicore sorting using GNU Parallel
  • Use multiple CPU Cores with your Linux commands — awk, sed, bzip2, grep, wc, etc.
  • Using Multiple CPU Cores With Command Line Tools

Tags:Bash, Linux, 資訊學習

Git 2.4.0 Released

Posted on 2015 年 5 月 5 日2021 年 3 月 12 日 By 日落 在〈Git 2.4.0 Released〉中尚無留言

as title.

Git 官方版 release notes:
https://raw.githubusercontent.com/git/git/master/Documentation/RelNotes/2.4.0.txt

別人整理後的漂亮版 release notes:
https://allmychanges.com/p/soft/git/

Github 對 Git 2.4 新增、修改的功能做了一份簡介:
https://github.com/blog/1994-git-2-4-atomic-pushes-push-to-deploy-and-more

Tags:Git

整理 git local / remote branch

Posted on 2015 年 4 月 25 日2021 年 3 月 12 日 By 日落 在〈整理 git local / remote branch〉中尚無留言

先列出所有的 branch:

$ git branch -a
* api
  cleanCode
  dev
  master
  remotes/github/api
  remotes/github/dev
  remotes/github/master
  remotes/github/pub/anime
  remotes/github/pub/dev
  remotes/github/pub/lock

已知其中 “pub/*” 開頭的 branch 其實已經都不存在了,這時候如果刪除 remote branch 會出現錯誤訊息:

$ git push github :pub/lock
error: unable to delete 'pub/lock': remote ref does not exist
error: failed to push some refs to 'git@github.com:johnroyer/aniTrace-fuel.git'

表示 local container 已經和 remote 資料有差異了。

這時候可以用 prune 指令,讓 git 同步 local 和 remote 的資料:

git remote prune github

執行後,若 remote 已經刪除的 branch,也不會在 git branch -a 時顯示了。

Tags:Git

Case-insensitive in HFS+

Posted on 2015 年 4 月 14 日2021 年 3 月 12 日 By 日落 在〈Case-insensitive in HFS+〉中有 1 則留言

因為某個 repo. 底下有二個大小寫不同的檔案:

$ ls
readme.md
README.md

git 顯示檔案有異動:

$ git status

    modified: readme.md

確定檔案內容有問題,強制從 repo. 中拉出 readme.md:

$ git checkout -- readme.md

checkout 以後,換成 README.md 有異動:

$ git status

    modified: README.md

看起來是 case-insensitive 的問題,先強制讓 git 區分大小寫:

$ git config --global core.ignorecase false

可惜還是沒有效果。

後來才知道 Mac OS 的檔案系統 HFS+ 中,預設是不區分大小寫的。
也可在格式化時可以另外設定成 case-sensitive,但有可能會造成部分程式無法正常運作。

Ref:

  • HFS+ case-sensitive or case-insensitive — which type to use for the primary drive partition?
  • 同場加映:Vulnerability announced: update your Git clients
Tags:Mac

Install Gems without Docs

Posted on 2015 年 3 月 30 日2021 年 3 月 12 日 By 日落 在〈Install Gems without Docs〉中尚無留言

使用 gems install 時,預設會下載並產生 gem 說明文件,但這個步驟會花掉不少時間。

若環境為 production,說明文件其實是沒有必要安裝的,可以在家目錄下新增 .gemrc 檔,要求安裝 gems 時忽略說明文件:

cd ~
echo 'gem: --no-rdoc --no-ri' > .gemrc
Tags:Note, Ruby

文章分頁

上一頁 1 ... 107 108 109 ... 318 下一頁

其他

關於我  (About me)

  文章 RSS Feed

  留言 RSS Feed

Apache AWS Bash C/C++ Docker FreeBSD GCP Git Google Java JavaScript Laravel Linux Microsoft MSSQL MySQL Nginx PHP PHPUnit PostgreSQL Python Qt Ubuntu Unix Vim Web Windows WordPress XD 作業系統 分享 好站推薦 專題 攝影 新奇搞笑 新聞 旅遊 生活雜記 程式設計 網路架站 網頁設計 資訊學習 資訊安全 遊戲 音樂


創用 CC 授權條款
本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際 授權條款授權.