2009/10/29

噗浪回覆分析

昨晚讓機器人爬資料,早上起來還嚇一跳,使用者數量約一萬左右,噗文數量約三萬,回覆數量則破十萬!該死的是資料庫編碼有問題,幾乎所有的資料都變成垃圾。

晚上對自己有追蹤的幾個使用者追蹤後,以「機器人回覆內容完全相同」為判斷依據,得到的是卡洛里小姐 「親愛的,晚安!」和女僕小C「主人 XX」的回覆最多。

話說我已經有好一陣子沒有碰 SQL 語法了,不知道這樣寫有沒有錯:
select a.content, a.user_id, b.nick_name, b.display_name, count(*) as 'repeat' 
from p_reply a, p_user b 
where a.user_id = b.user_id 
group by content, user_id having count(*) >1 
order by count(*) desc

ps. 欄位名稱同 RLplurkAPI 提供的欄位名稱

沒有留言:

張貼留言