分享本文至 E-mail 信箱
學術引用格式
MLA
APA
EndNote(.enw)

Webmasters偏袒Googlebot?

Original publish date:Nov 18, 2007

編輯 HCC 報導

 

研究發現使用robots.txt檔案來保護網站的網路管理員,對Google較為偏袒。由於待遇上的偏差,Google 能較其他搜尋引擎獲得更多資訊。

在搜尋引擎鍵入姓名,即約可拼湊出一個人的生活輪廓,包含就學紀錄(學校錄取名單),從事的行業,銀行汽車貸款紀錄,寫過的文獻、報告、專題或是網誌,參加的民間社團活動,樂捐紀錄,子女就讀學校家長會紀錄,住宅電話甚至是否患有肺結核等等,比自己撰擬的簡歷還詳盡。大量資訊的電腦處理化與公開化,再基於資訊處理的有意或無心,都會造成個人隱私權的嚴重侵犯,個人、企業與政府都處於被資訊情報監控與饋集的陰影下。

網路資訊的搜尋與集中,都是被Google、Yahoo、MSN等公開搜尋引擎或其他不為人知的搜尋引擎以Bots(Spiders或Web crawlers)此類程式,定時地毯式的搜索網際網頁,毫不留情的扒取與儲存。搜尋引擎機器人除了大量的吞食資料外,因程式問題尚會不斷重複的向網站主機抓取資料,造成主機負荷甚至網路雍塞。為了應付搜尋引擎機器人無盡的胃口,網路管理員都會在網站伺服器根目錄添加robots.txt 檔案,律定不希望被抓取、探索的部份以阻擋Bots。

理論上,看門人對造訪者應一視同仁,不過依據美國賓州資訊科技學院(Penn State’s College of Information Sciences and Technology) C. Lee Gilesn教授研究團隊對超過七千五百個網址所做的研究顯示,網路管理員對Google情有獨鍾。C. Lee Gilesn的研究報告“Determining Bias to Search Engines from Robots.txt,”發表於2007年IEEE/WIC/ACM International Conference on Web Intelligence。Giles認為由網站管理者(Web policy makers and administrators)所撰寫的robots.txt 檔案有意讓Googlebot進入,而擋住其他搜索引擎。

robots.txt 檔案並非官方標準,只是非正式協定,依據“Standard for Robot Exclusion” 協議規範Web crawlers的行為。不過Giles發現並非所有的網站都有robots.txt檔案,在他所研究的7500個網站附有robots.txt檔案者僅佔40%。Giles也未解釋為何網站管理者較偏向Google。

註:經過測試,此篇文章上傳2分鐘後,即可於Google搜尋到。

 

參考來源:

相關連結:

 

「空虛寂寞覺得冷會傳染嗎?」「為什麼人看到可愛的東西就想捏?」「為什麼蚊子喜歡叮穿深色衣服的人?」

科學從不只是冷冰冰的文字,而是存在世界各個角落熱騰騰的知識!不論是天馬行空的想像或日常生活的疑問,都可能從科學的角度來解釋。

本月的泛科選書 《不腦殘科學2》是泛科學作者編輯團隊嘔心瀝血的超級鉅獻!不只能滿足大人與小孩的好奇心,更將拓展你的視野,帶領大家發現一個嶄新的世界!

泛科限時優惠79折(含運),現在就帶一本回家

關於作者

科景

Sciscape成立於1999年4月,為一非營利的專業科學新聞網站。