在 Netflix 的紀錄片「大數據時代」中的「數字」一集,發現及使看起來很像是亂數、無規律的數字,也會按照 Benford’s Law (班佛定律) 來走,照樣可以分析出數據是否有造假。
老實說我自己不太相信有這種說法,特別還被科學認證過,所以我拿自己近幾年的支出記錄來作分析,得到下面的統計表 (直條為我的支出台幣的第一位數的量、折線代則代表 Bebford’s Law 定義的位數百分比):
這張圖表讓我真的很意外,雖然沒有相同的百分比,但是分布卻幾乎相同,且這還只有 6000 多筆資料而已,如果資料再增加,不曉得會發生什麼事。
ps. 可參考 MOPCON 2020 的「樸實無華的中小數據分析」來快速處理資料。