分享本文至 E-mail 信箱
學術引用格式
MLA
APA
EndNote(.enw)

Webmasters偏袒Googlebot?

Original publish date:Nov 18, 2007

編輯 HCC 報導

 

研究發現使用robots.txt檔案來保護網站的網路管理員,對Google較為偏袒。由於待遇上的偏差,Google 能較其他搜尋引擎獲得更多資訊。

在搜尋引擎鍵入姓名,即約可拼湊出一個人的生活輪廓,包含就學紀錄(學校錄取名單),從事的行業,銀行汽車貸款紀錄,寫過的文獻、報告、專題或是網誌,參加的民間社團活動,樂捐紀錄,子女就讀學校家長會紀錄,住宅電話甚至是否患有肺結核等等,比自己撰擬的簡歷還詳盡。大量資訊的電腦處理化與公開化,再基於資訊處理的有意或無心,都會造成個人隱私權的嚴重侵犯,個人、企業與政府都處於被資訊情報監控與饋集的陰影下。

網路資訊的搜尋與集中,都是被Google、Yahoo、MSN等公開搜尋引擎或其他不為人知的搜尋引擎以Bots(Spiders或Web crawlers)此類程式,定時地毯式的搜索網際網頁,毫不留情的扒取與儲存。搜尋引擎機器人除了大量的吞食資料外,因程式問題尚會不斷重複的向網站主機抓取資料,造成主機負荷甚至網路雍塞。為了應付搜尋引擎機器人無盡的胃口,網路管理員都會在網站伺服器根目錄添加robots.txt 檔案,律定不希望被抓取、探索的部份以阻擋Bots。

理論上,看門人對造訪者應一視同仁,不過依據美國賓州資訊科技學院(Penn State’s College of Information Sciences and Technology) C. Lee Gilesn教授研究團隊對超過七千五百個網址所做的研究顯示,網路管理員對Google情有獨鍾。C. Lee Gilesn的研究報告“Determining Bias to Search Engines from Robots.txt,”發表於2007年IEEE/WIC/ACM International Conference on Web Intelligence。Giles認為由網站管理者(Web policy makers and administrators)所撰寫的robots.txt 檔案有意讓Googlebot進入,而擋住其他搜索引擎。

robots.txt 檔案並非官方標準,只是非正式協定,依據“Standard for Robot Exclusion” 協議規範Web crawlers的行為。不過Giles發現並非所有的網站都有robots.txt檔案,在他所研究的7500個網站附有robots.txt檔案者僅佔40%。Giles也未解釋為何網站管理者較偏向Google。

註:經過測試,此篇文章上傳2分鐘後,即可於Google搜尋到。

 

參考來源:

相關連結:

 

你是低薪窮忙的「職場原始人」嗎?

缺乏職場溝通技巧,無法掌握工作訣竅,工作沒有成就感還要被老闆各種幹話轟炸

為了解決年輕世代的職場困境

泛科學院FlyingV  聯手推出線上課程【職場原始人,進化吧!】

蒐集近千位網友和業界人士的意見打造+無效退費方案+購買全套課程抽 MacBook Air

現在加入募資,就是幫助自己脫離職場原始人的最好機會

快到募資頁面了解更多內容吧!

>>>>>>募資頁面這邊走 <<<<<<

關於作者

科景

Sciscape成立於1999年4月,為一非營利的專業科學新聞網站。