噗浪機器人實在太多了,原本也想自己寫一個會回覆使用者的機器人,不過感覺大同小異沒甚麼特別好玩的。一陣子以後發現廣告機器人越來越囂張,所以決定試著利用可取得的資料判斷何者為廣告機器人。
機器人一定是電腦,電腦就會有固定的行為模式,只是簡單或是複雜。例如最簡單的「晚安機器人」就會回覆完全相同的文字:
卡洛里小姐 說 親愛的,晚安!祝你有一個好夢唷!?..
複雜一點的可能會因使用者文字內容而改變內容,像是羊羊或是什麼星座機器人;另一種是專門轉貼文章的機器人,像是 pct 系列機器人和超級討厭的米窩機器人。這些要從文字判斷就非常麻煩。
目前寫了一個機器人自動爬噗浪並紀錄文字內容和未知的使用者,打算慢慢建立一套規則去分析文字和使用者尖的關係去找出廣告機器人。
不過計畫才開始二小時就發覺不太可行,我的機器人每三分鐘讀取噗浪一次,每次只讀取三個使用者的噗浪 (減少伺服器負擔),但是每次新增的使用者數量就超過三名,而且已等比級數在增加:32、64、84、170、242、704 …….!
剛打完文章,人數就變成 900 up ……. Orz