人在做,只有天在看?

半夜 12 點,一個人窩在房間的電腦螢幕前,手指在鍵盤上快速抓爬,敲入自以為神不知鬼不覺的臉紅心跳關鍵字到搜尋引擎網頁上去……。

沒錯,自以為的神不知鬼不覺。

ijliao 的《搜尋引擎的七種使用者》把 AOL 公開放出 search engine log 給大家做研究的結果做了詳細的說明。

如果你到搜尋引擎上去找這次 AOL 事件後,許多人歸納出來的使用者異想行為(比如說,Something Awful 網站的分析),你應該會非常訝異(或者驚嚇)、爆笑、不可思議,等等……許多驚奇出現。

記得大學時就有在 BBS 上看到有資管系的學生發文章徵求網站 administrator 提供 httpd-access.log 來給他們做 Data Mining 的 research。我是不知道有沒有人提供啦,至少我自己是絕不會幹這種事情的。

所以,還有人會小看自己在網路上留下的行為舉止紀錄和點滴蹤跡嗎?你曾經查看過 C:\Documents and Settings\USER_NAME\Local Settings\Temporary Internet Files 目錄下被塞了多少塊餅乾(cookies)嗎?你曾經掃過電腦上頭有多少支間諜軟體(spyware)嗎?你的防火牆曾經攔下多少條由你安裝的程式想向外傳遞出的訊息?

更別說這次事件的主角,你根本沒有權限不能過問的 server 端 log,不單只有 Apache 的 log,連你使用的 Proxy(最常見是 Squid)上也會有 log,當然,Mail Server 也會有 log。

只要幹過 Server Administrator 的人都知道網管工作裡頭很重要一項就是要分析 log,一般進行這種工作是為了 security 目的,要追查與分析攻擊或是騷擾來源,進而想出對策因應。但轉到商業應用環境,log 可就妙用無窮了,每位商人都想了解顧客的心,都想知道顧客的腦子裡想的是什麼,想要的是什麼?最能夠反映顧客行為和心理的 access/keyword log 就好像一位專業警探對犯人做出的完美無瑕側寫一樣,讓業主經過 Data Mining 後可以高度掌握使用者的網路行為,進而分析出心理,若資訊充足,最終應該會有完整的,針對每位用戶的 profile。這個 profile 裡頭可能記載著:小強每年 12 月一定會上網購買耶誕禮物,且專挑日本藍色授權的 Burberry 商品,……。所以,每當 12 月,只要小強一連上我們公司網頁,我會導到以日本藍色 Burberry 商品為首頁的第三版本頁面;或是 12 月公司就會固定發 E-mail 到小強的信箱,標題就是「日本 Burberry 商品耶誕大折扣」云云…。

我想 AOL 的初衷沒有惡意,但是他們太低估這 3600 萬筆搜尋資料所包含的資訊量了,也太小看民眾自己的分析能力了。把使用者真名以數字取代,讓我想到《THE ISLAND》裡頭的主角名叫 Lincoln 6 Echo,他們彼此只知道這樣含有代號的名字而不知其真實姓名。以結果論,現在網路上對這 3600 萬筆搜尋資料做的形形色色分析都無法追出號碼和真名的對應(很不幸地,至少在 Something Awful 的分析中,因為有人把自己的暱稱 key 在搜尋關鍵字中,所以這位仁兄很可憐地被揪了出來…),AOL 是勉勉強強混過去,但是光從搜尋關鍵字詞的結果來分析,就已經可以部分描述這個人了,只要搭配發生時間點下去配對,資料 pattern 只要夠多,本尊還是有可能被認出來。

之前常有人拿這句「人在做,Google 在看。」來形容 Google 搜尋的威力,對照 AOL 這 case 來說,被 Google 抓到你該高興了。你不知道全世界某個角落可能正有人看著你的 log 在嘗試分析你這個人呢!不敢上網搜尋了?因噎廢食?省省吧,若真要避掉這種風險,唯一辦法就是把網路線給剪了。不然就想辦法讓你留下的 log 跟你的人對不起來吧。 (← 這說不定是個生意的點子呢!)

人在做,誰在看? You tell me.

歷史上的今天

If you enjoyed this post, please consider leaving a comment or subscribing to the RSS feed to have future articles delivered to your feed reader.

About mtlin

I'm easygoing and sometimes sentimental, also can be very funny. Geek style but social. A Blogger, a Wikipedian and an Engineer.
This entry was posted in Network, Technology. Bookmark the permalink.

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>