2009/10/29

噗浪回覆分析

昨晚讓機器人爬資料,早上起來還嚇一跳,使用者數量約一萬左右,噗文數量約三萬,回覆數量則破十萬!該死的是資料庫編碼有問題,幾乎所有的資料都變成垃圾。

晚上對自己有追蹤的幾個使用者追蹤後,以「機器人回覆內容完全相同」為判斷依據,得到的是卡洛里小姐 「親愛的,晚安!」和女僕小C「主人 XX」的回覆最多。

話說我已經有好一陣子沒有碰 SQL 語法了,不知道這樣寫有沒有錯:
select a.content, a.user_id, b.nick_name, b.display_name, count(*) as 'repeat' 
from p_reply a, p_user b 
where a.user_id = b.user_id 
group by content, user_id having count(*) >1 
order by count(*) desc

ps. 欄位名稱同 RLplurkAPI 提供的欄位名稱

噗浪機器人

噗浪機器人實在太多了,原本也想自己寫一個會回覆使用者的機器人,不過感覺大同小異沒甚麼特別好玩的。一陣子以後發現廣告機器人越來越囂張,所以決定試著利用可取得的資料判斷何者為廣告機器人。

機器人一定是電腦,電腦就會有固定的行為模式,只是簡單或是複雜。例如最簡單的「晚安機器人」就會回覆完全相同的文字:
卡洛里小姐 說 親愛的,晚安!祝你有一個好夢唷!?.. 

複雜一點的可能會因使用者文字內容而改變內容,像是羊羊或是什麼星座機器人;另一種是專門轉貼文章的機器人,像是 pct 系列機器人和超級討厭的米窩機器人。這些要從文字判斷就非常麻煩。

目前寫了一個機器人自動爬噗浪並紀錄文字內容和未知的使用者,打算慢慢建立一套規則去分析文字和使用者尖的關係去找出廣告機器人。

不過計畫才開始二小時就發覺不太可行,我的機器人每三分鐘讀取噗浪一次,每次只讀取三個使用者的噗浪 (減少伺服器負擔),但是每次新增的使用者數量就超過三名,而且已等比級數在增加:32、64、84、170、242、704 .......!

2009/10/17

2009/10/16

做研究要避免的 21 件事

I. Capacity (能力): 
   1. Lack of scalability (缺乏彈性) 
   2. Busy but little throughput (很忙但沒進度) 
   3. Crash under heavy load (不耐壓) 
   4. ON-OFF throughput pattern (間歇性施功) 
   5. Brainless and muscleless (不會思考又沒行動力) 
   6. Blurred receiver and transmitter (聽不到也講不清重點) 
   7. Weak in analysis, organization, or creativity (缺乏分析力組織力創造力)

II. Attitudes (態度): 
   8. Little self-motivation (低度自我期許)
   9. A vacation hen (不專心孵蛋的母雞)
  10. Irregular life style (不規則生活型態)
  11. Messy desktop (混亂的文件與桌面)
  12. A slow coach (慢郎中)
  13. No ideas, no comments, no nothing (腦子一片空白)
  14. Unhealthy personality (不太健康快樂正向的人格)
  15. Too many personal affairs (太多雜事) 

III. Disciplines (訓練): 
  16. Lack of intensive interaction (缺乏互動腦力激盪)
  17. Pointless discussion (沒有抓住重點的無效討論)
  18. Random walk, no roadmap (做事沒規劃)
  19. Memoryless work planning (做了新的忘了原有的規劃)
  20. Ignorance of details (輕忽細節)
  21. Lack of professionalism (欠缺專業或嚴謹態度)

我覺得有些翻譯怪怪的,還會繼續修改。歡迎大家提供意見!

2009/10/11

整理備審資料實在是件苦差事,搞的沒天沒夜、心情很差。

心情差就會摸魚,然後就生出一個莫名其妙的東西:「What 2 eat」系統。


輸入預算和想吃那一類的東西



電腦會自動幫你挑餐廳,不喜歡再換一家


不過這大概也只有逢甲有這個問題吧 XD

2009/10/09

設定檔 .cshrc

Be lazy:
alias ll        ls -lAG
alias ls        ls -G

UTF-8:
setenv LANG zh_TW.UTF-8
setenv LC_ALL zh_TW.UTF-8
setenv LC_CTYPE zh_TW.UTF-8
setenv MM_CHARSET utf8

自傳

推甄在即,自傳如火如荼的展開.......(誤)

最近寫自傳遇到不少問題,一個就是要如何展現個人的價值,另一個就是自傳撰寫的方式。以前高中輔導室老是說自傳應該寫的文辭彬彬像個作家,不然就是要用頁數壓垮別人。

借別人的自傳參考:
人格特質:
  我是一個很隨和的人,對待別人都很誠心誠意....blablabla
個人專長:
  在社團方面,大一時想要參加動態的社團學習一些運動技能.......blablabla
興趣與嗜好:
  我的興趣是接觸大自然,從小爸爸喜歡帶我們全家一同.....blablabla

但在高中推甄時朋友的分享和自己的經驗:教授是很忙的!很多教授都是學生進了訪談室後才拿起自傳,好一點的會每段第一行,慘一點的三秒鐘翻過去看大標題,哪來這麼多時間看完?

所以高中時自傳格式改了不少:
個人特質:專長:閱讀程式碼
     興趣:電腦、羽球、攝影

  看完論壇程式碼並.......blablabla

今天和阿雷固聊了一下,覺得除了大標題以外甚至連內文和簡介都不用了,甚至建議大標題下直接放一張自己的照片再加上 16 個字以內的大綱。

雖然感覺很冒險,但是後來想想也沒有錯。會看的教授還是會看,不會看的還是不會看,且看到標題懷疑或是有興趣的在面試時一定會發問,何必花這麼多時間寫流水帳?

ps. 如果你覺得上面的自傳範例很眼熟,請自動忽略......... XD

2009/10/05

Google 搜尋引擎

轉錄 from Google @ PTT
Google 就像一把神奇的鑰匙。
會用的人可以解開任何秘密;
不會用的人,連自家門都打不開。
以後來整理關鍵字用法吧