昨晚讓機器人爬資料,早上起來還嚇一跳,使用者數量約一萬左右,噗文數量約三萬,回覆數量則破十萬!該死的是資料庫編碼有問題,幾乎所有的資料都變成垃圾。
晚上對自己有追蹤的幾個使用者追蹤後,以「機器人回覆內容完全相同」為判斷依據,得到的是卡洛里小姐 「親愛的,晚安!」和女僕小C「主人 XX」的回覆最多。
話說我已經有好一陣子沒有碰 SQL 語法了,不知道這樣寫有沒有錯:
select a.content, a.user_id, b.nick_name, b.display_name, count(*) as 'repeat'
from p_reply a, p_user b
where a.user_id = b.user_id
group by content, user_id having count(*) >1
order by count(*) desc
ps. 欄位名稱同 RLplurkAPI 提供的欄位名稱