人在做,只有天在看?

半夜 12 點,一個人窩在房間的電腦螢幕前,手指在鍵盤上快速抓爬,敲入自以為神不知鬼不覺的臉紅心跳關鍵字到搜尋引擎網頁上去……。

沒錯,自以為的神不知鬼不覺。

ijliao 的《搜尋引擎的七種使用者》把 AOL 公開放出 search engine log 給大家做研究的結果做了詳細的說明。

如果你到搜尋引擎上去找這次 AOL 事件後,許多人歸納出來的使用者異想行為(比如說,Something Awful 網站的分析),你應該會非常訝異(或者驚嚇)、爆笑、不可思議,等等……許多驚奇出現。

記得大學時就有在 BBS 上看到有資管系的學生發文章徵求網站 administrator 提供 httpd-access.log 來給他們做 Data Mining 的 research。我是不知道有沒有人提供啦,至少我自己是絕不會幹這種事情的。

所以,還有人會小看自己在網路上留下的行為舉止紀錄和點滴蹤跡嗎?你曾經查看過 C:\Documents and Settings\USER_NAME\Local Settings\Temporary Internet Files 目錄下被塞了多少塊餅乾(cookies)嗎?你曾經掃過電腦上頭有多少支間諜軟體(spyware)嗎?你的防火牆曾經攔下多少條由你安裝的程式想向外傳遞出的訊息?

更別說這次事件的主角,你根本沒有權限不能過問的 server 端 log,不單只有 Apache 的 log,連你使用的 Proxy(最常見是 Squid)上也會有 log,當然,Mail Server 也會有 log。

只要幹過 Server Administrator 的人都知道網管工作裡頭很重要一項就是要分析 log,一般進行這種工作是為了 security 目的,要追查與分析攻擊或是騷擾來源,進而想出對策因應。但轉到商業應用環境,log 可就妙用無窮了,每位商人都想了解顧客的心,都想知道顧客的腦子裡想的是什麼,想要的是什麼?最能夠反映顧客行為和心理的 access/keyword log 就好像一位專業警探對犯人做出的完美無瑕側寫一樣,讓業主經過 Data Mining 後可以高度掌握使用者的網路行為,進而分析出心理,若資訊充足,最終應該會有完整的,針對每位用戶的 profile。這個 profile 裡頭可能記載著:小強每年 12 月一定會上網購買耶誕禮物,且專挑日本藍色授權的 Burberry 商品,……。所以,每當 12 月,只要小強一連上我們公司網頁,我會導到以日本藍色 Burberry 商品為首頁的第三版本頁面;或是 12 月公司就會固定發 E-mail 到小強的信箱,標題就是「日本 Burberry 商品耶誕大折扣」云云…。

我想 AOL 的初衷沒有惡意,但是他們太低估這 3600 萬筆搜尋資料所包含的資訊量了,也太小看民眾自己的分析能力了。把使用者真名以數字取代,讓我想到《THE ISLAND》裡頭的主角名叫 Lincoln 6 Echo,他們彼此只知道這樣含有代號的名字而不知其真實姓名。以結果論,現在網路上對這 3600 萬筆搜尋資料做的形形色色分析都無法追出號碼和真名的對應(很不幸地,至少在 Something Awful 的分析中,因為有人把自己的暱稱 key 在搜尋關鍵字中,所以這位仁兄很可憐地被揪了出來…),AOL 是勉勉強強混過去,但是光從搜尋關鍵字詞的結果來分析,就已經可以部分描述這個人了,只要搭配發生時間點下去配對,資料 pattern 只要夠多,本尊還是有可能被認出來。

之前常有人拿這句「人在做,Google 在看。」來形容 Google 搜尋的威力,對照 AOL 這 case 來說,被 Google 抓到你該高興了。你不知道全世界某個角落可能正有人看著你的 log 在嘗試分析你這個人呢!不敢上網搜尋了?因噎廢食?省省吧,若真要避掉這種風險,唯一辦法就是把網路線給剪了。不然就想辦法讓你留下的 log 跟你的人對不起來吧。 (← 這說不定是個生意的點子呢!)

人在做,誰在看? You tell me.

歷史上的今天

About mtlin

I'm easygoing and sometimes sentimental, also can be very funny. Geek style but social. A Blogger, a Wikipedian and an Engineer.
This entry was posted in Network, Technology. Bookmark the permalink.

Leave a Reply

Your email address will not be published.