分享本文至 E-mail 信箱
學術引用格式
MLA
APA
EndNote(.enw)

Webmasters偏袒Googlebot?

Original publish date:Nov 18, 2007

編輯 HCC 報導

 

研究發現使用robots.txt檔案來保護網站的網路管理員,對Google較為偏袒。由於待遇上的偏差,Google 能較其他搜尋引擎獲得更多資訊。

在搜尋引擎鍵入姓名,即約可拼湊出一個人的生活輪廓,包含就學紀錄(學校錄取名單),從事的行業,銀行汽車貸款紀錄,寫過的文獻、報告、專題或是網誌,參加的民間社團活動,樂捐紀錄,子女就讀學校家長會紀錄,住宅電話甚至是否患有肺結核等等,比自己撰擬的簡歷還詳盡。大量資訊的電腦處理化與公開化,再基於資訊處理的有意或無心,都會造成個人隱私權的嚴重侵犯,個人、企業與政府都處於被資訊情報監控與饋集的陰影下。

網路資訊的搜尋與集中,都是被Google、Yahoo、MSN等公開搜尋引擎或其他不為人知的搜尋引擎以Bots(Spiders或Web crawlers)此類程式,定時地毯式的搜索網際網頁,毫不留情的扒取與儲存。搜尋引擎機器人除了大量的吞食資料外,因程式問題尚會不斷重複的向網站主機抓取資料,造成主機負荷甚至網路雍塞。為了應付搜尋引擎機器人無盡的胃口,網路管理員都會在網站伺服器根目錄添加robots.txt 檔案,律定不希望被抓取、探索的部份以阻擋Bots。

理論上,看門人對造訪者應一視同仁,不過依據美國賓州資訊科技學院(Penn State’s College of Information Sciences and Technology) C. Lee Gilesn教授研究團隊對超過七千五百個網址所做的研究顯示,網路管理員對Google情有獨鍾。C. Lee Gilesn的研究報告“Determining Bias to Search Engines from Robots.txt,”發表於2007年IEEE/WIC/ACM International Conference on Web Intelligence。Giles認為由網站管理者(Web policy makers and administrators)所撰寫的robots.txt 檔案有意讓Googlebot進入,而擋住其他搜索引擎。

robots.txt 檔案並非官方標準,只是非正式協定,依據“Standard for Robot Exclusion” 協議規範Web crawlers的行為。不過Giles發現並非所有的網站都有robots.txt檔案,在他所研究的7500個網站附有robots.txt檔案者僅佔40%。Giles也未解釋為何網站管理者較偏向Google。

註:經過測試,此篇文章上傳2分鐘後,即可於Google搜尋到。

 

參考來源:

相關連結:

 

___________________

登月失敗者大會(誤):《阿波羅13號》觀影會+映後座談

在哪裡跌倒就在哪裡躺一下,然後站起來就好!(?

在地球是這樣,在月球也是如此。但如果不是跌倒,而是火箭發射後出了些狀況呢?只說了句「休士頓,我們有麻煩了」可是回不了地球的,
讓我們在登月50週年之際,不只談談成功的登月,更要一起重溫《阿波羅13號》,來看看勵志的登月失敗案例!(無誤)

活動包含觀賞《阿波羅13號》放映、映後座談,以及最重要的是:爆米花和含糖飲料(冰)。名額有限,還不快速速報名:https://lihi1.com/hO5PX

 

 

關於作者

科景

Sciscape成立於1999年4月,為一非營利的專業科學新聞網站。

網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策