Skip to content

Zeroplex 生活隨筆

軟體開發、伺服器和生活瑣事

小 縮小字型大小。 中 重設字型大小。 大 放大字型大小。

標籤: 資訊學習

準備離開 StartSSL

Posted on 2016 年 2 月 23 日2021 年 3 月 12 日 By 日落 在〈準備離開 StartSSL〉中有 2 則留言

Why I stopped using StartSSL (Hint: it involves a Chinese company)
https://pierrekim.github.io/blog/2016-02-16-why-i-stopped-using-startssl-because-of-qihoo-360.html

由於 cert 被扔到大陸機房去,所以還是換家 SSL provider 比較安全一點。

噗浪上有不少朋友提供 Let’s Encrypt 的解決方案,除了「root can only help」以外,好像沒什麼奇怪的地方。另外 JoeHorn 寫了一個全自動 renew 的 script,假日的時候來玩玩看 ~

Tags:資訊學習, 資訊安全

同時追蹤多個 log 檔

Posted on 2015 年 11 月 9 日2021 年 3 月 12 日 By 日落 在〈同時追蹤多個 log 檔〉中有 2 則留言

通常我們會用「tail -f FILE」來將檔案新增加的內容顯示在螢幕上,不過要同時顯示多個檔案的新資料就有點麻煩了,會需要改成以下寫法:

tail -f FILE_1 -f FILE_2 ....

所以有人寫了個歡樂的工具叫做「multitail」可以一次監視多個檔案,甚至還會自動幫你切割視窗來顯示不同檔案的內容。

要做到同上的功能,只要這樣寫:

multitail FILE_1 FILE_2

若要觀察的檔案太多,多到分割視窗根本看不到東西時,也可以讓 multitail 不要做切割,全部顯示在一起就好:

 multitail --mergeall FILE_1 FILE_2
Tags:Linux, 資訊學習

寫 shell script 的一些平行處理工具

Posted on 2015 年 9 月 16 日2021 年 3 月 12 日 By 日落 在〈寫 shell script 的一些平行處理工具〉中有 4 則留言

最近在處理數十 TB 的 HTTP server log 有感,記錄一些可以拿來做分散式運算的工具以及語法 (參數)。

pigz

gzip 一直是你的好工具,特別是儲存空間放在網路上時,可以大幅的減少讀取、寫入資料時所需要的 throughput。不過 gzip 一次只會用到一個 CPU core 壓縮資料,所以有人寫了 pigz ,在壓縮時建立多個 thread 同時運算。

還有不少針對 gz 的工具可以使用,像是:zcat、zgrep 和 zless (這超神奇,其實打 less 好像就會自動偵測是不是 gz 了  XD)

parallel

之前的筆記參考一下即可。

sort

排序大量資料也是會耗掉相當多的時間,幸好 sort 內建平行運算功能,只要加個參數即可。

$ sort --parallel=8 -S 4G unsort.list > sorted.list

「–parallel」可以指定要同時多少資源做排序,而「-S」則是設定要使用多大的記憶體來做排序。

xargs

感謝 Joe Horn 和 Wen-Shih Chao 提供指點,xargs 也有 parallel 的功能。使用「-P」參數就可以讓 xargs 自動做平行處理。

ls *.log | xargs -P 8 grep PATTERN

目前最常用的是這幾個,其他的就待以後用到慢慢補上。若有更好的做法也歡迎分享~

Tags:Bash, Linux, 分享, 資訊學習

多核心主機搭配 GNU parallel

Posted on 2015 年 8 月 3 日2021 年 3 月 12 日 By 日落 在〈多核心主機搭配 GNU parallel〉中尚無留言

假如要將 apache log 中,包含某個 pattern 的記錄找出來,寫起來大概會像這樣子:

cat apache*.log | awk -f log-parser.awk

舊電腦就是放著一個檔案一個檔案慢慢跑,沒什麼問題。若新電腦現在不少都是多核心,看個 parser 慢慢跑,但是剩下的 3 個 CPU core 和 disk 都悠哉沒事做,感覺在浪費時間。

parallel 專門設計來讓 script 可以同時並行運作,使用電腦資源來節省時間的好工具。

假設今天 awk 非常吃 CPU 使用量 (規則較為複雜),處理一個檔案會花上很多 CPU 時間,則可以將 log 中的內容分散給多個 CPU 同時處理:

cat apache*.log | parallel --pipe awk -f log-parser.awk

此時,parallel 偵測到有 4 CPU cores,則會自動將 $FILE 內容分批轉送給 awk 處理 (一行為一個單位),這樣能讓 4 個 CPU 同時跑 awk 解析 log 內容。

不過以一行為一個單位轉送資料給 awk,也會耗掉一些運算資源,可以透過 –block 來要求 parallel 多少資料當作一個單位來轉送資料。以下假設一次送 10MB 的資料給 awk 處理:

cat apache*.log | parallel --pipe --block 10M awk -f log-parser.awk

倘若今天 awk 的要處理的東西並不複雜,可以輕鬆解決掉,上面的寫法反而會讓 CPU 閒閒沒事做,不如就讓一個 awk 負責處理一個檔案,且多個檔案同時進行。此時就可以讓檔案處理的部分轉交給 awk:

parallel --pipe -u --block 10M awk -f log-parser.awk ::: apache*.log

備註:parallel 預設會在所有工作執行結束才輸出結果,若要讓 parallel 即時將結果印出,則可加上參數「-u」。

另外一點要注意的是,parallel 預設會使用所有的 CPU 來處理工作,這在多人共同使用的主機上並不是一件好事,一跑下去大家都不用做事了。所以若在共用環境上請記得加上 -j (jobs) 參數,來限制 parallel 不要用掉所有的系統資源。

Reference:

  • GNU Parallel Tutorial
  • How to write multicore sorting using GNU Parallel
  • Use multiple CPU Cores with your Linux commands — awk, sed, bzip2, grep, wc, etc.
  • Using Multiple CPU Cores With Command Line Tools

Tags:Bash, Linux, 資訊學習

irssi 快速鍵

Posted on 2015 年 3 月 18 日2021 年 3 月 12 日 By 日落 在〈irssi 快速鍵〉中尚無留言

無意間按錯,發現一些快速鍵可以用。

Ctrl + N / P:下一個 / 上一個 channel

Alt + N / P:該 channel 訊息下一頁 / 上一頁

Tags:資訊學習

文章分頁

上一頁 1 ... 8 9 10 ... 52 下一頁

其他

關於我  (About me)

小額贊助

  文章 RSS Feed

  留言 RSS Feed

Apache AWS Bash C/C++ Docker FreeBSD GCP Git Google Java JavaScript Laravel Linux Microsoft MSSQL MySQL Nginx PHP PHPUnit PostgreSQL Python Qt Ubuntu Unix Vim Web Windows WordPress XD 作業系統 分享 好站推薦 專題 攝影 新奇搞笑 新聞 旅遊 生活雜記 程式設計 網路架站 網頁設計 資訊學習 資訊安全 遊戲 音樂


創用 CC 授權條款
本著作係採用創用 CC 姓名標示-相同方式分享 4.0 國際 授權條款授權.