无码色色,久久久久久免费精品喷水,美女把胸罩解开让男生摸,欧美一级在线观看视频,色亚洲天堂,色综合天天综合给合国产

咨詢電話:023-88959644    24小時服務(wù)熱線:400-023-8809
NEWS CENTER ·
新聞動態(tài)
關(guān)注中技互聯(lián) 關(guān)注前沿

如何避免網(wǎng)站page的頁面被重復(fù)抓取

發(fā)表日期:2011-12-30    文章編輯:Mz丶Quan    瀏覽次數(shù):17    標簽:

  如何避免網(wǎng)站page的頁面被重復(fù)抓取
  觀察分析網(wǎng)站的日志,發(fā)現(xiàn)網(wǎng)站page的頁面被蜘蛛重復(fù)抓取很多,這樣子對網(wǎng)站的優(yōu)化并不是很好。那么我們要如何避免網(wǎng)站頁面被蜘蛛重復(fù)的抓取呢?重慶網(wǎng)頁建設(shè)
  一、通過robots文件來把這個頁面來屏蔽掉,具體做法語法格式:
  Disallow: /page/ #限制抓取Wordpress分頁如查你的網(wǎng)站有需要也可以把下面的語句一并寫上,避免出現(xiàn)過多的重復(fù)頁面。
  * Disallow: /category/*/page/* #限制抓取分類的分頁 * Disallow:/tag/ #限制抓取標簽頁面 * Disallow: */trackback/ #限制抓取Trackback內(nèi)容
  * Disallow:/category/* #限制抓取所有分類列表 什么是蜘蛛,也叫爬蟲,其實是一段程序。這個程序的功能是,沿著你的網(wǎng)站的URL一層層的讀取一些信息,做簡單處理后,然后返饋給后臺服務(wù)器進行集中處理。我們必需了解蜘蛛的喜好,對網(wǎng)站優(yōu)化才能做到更好。接下來我們談?wù)勚┲氲墓ぷ鬟^程。
  二、蜘蛛遇到動態(tài)頁面
  蜘蛛在處理**頁信息是面臨的難題。**頁,是指由程序自動生成的頁面?,F(xiàn)在互聯(lián)網(wǎng)發(fā)達程序開發(fā)腳本語言越來越多,自然開發(fā)出來的**頁類型也越來越多,如jsp、asp、php等等一些語言。蜘蛛很難處理這些腳本語言生成的網(wǎng)頁。優(yōu)化人員在優(yōu)化的時候,總是強調(diào)盡量不要采用JS代碼,蜘蛛要完善處理這些語言,需要有自己的腳本程序。在進行網(wǎng)站優(yōu)化,減少一些不必要的腳本代碼,以便蜘蛛爬行抓取,少導(dǎo)致page頁面的重復(fù)抓取!
  三、蜘蛛的時間
  網(wǎng)站的內(nèi)容經(jīng)常變化的,不是更新就是改模板。蜘蛛也是不斷地更新和抓取網(wǎng)頁的內(nèi)容,蜘蛛的開發(fā)者會為爬蟲設(shè)定一個更新周期,讓其按照指定的時間去掃描網(wǎng)站,查看對比出哪些頁面是需要進行更新工作的,諸如:主頁的標題是否有更改,哪些頁面是網(wǎng)站新增頁面,哪些頁面是已經(jīng)過期失效的死鏈接等等。一個功能強太的搜索引擎的更新周期是不斷優(yōu)化的,因為搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。不過如果更新周期過長,便會使搜索引擎的搜索精確性和完整性降低,會有一些新生成的網(wǎng)頁搜索不到;若更新周期太過于短,則技術(shù)實現(xiàn)難度加大,而且會對帶寬、服務(wù)器的資源造成浪費。
  四、蜘蛛不重復(fù)抓取策略
  網(wǎng)站的網(wǎng)頁數(shù)量非常大,蜘蛛進行抓取是一個很大的工程,網(wǎng)頁的抓取需要費非常多線路帶寬、硬件資源、時間資源等等。如果經(jīng)常對同一個網(wǎng)頁重復(fù)抓取不但會大大的降低了系統(tǒng)的效率,還造成精確度不高等問題

如沒特殊注明,文章均為中技互聯(lián)原創(chuàng),轉(zhuǎn)載請注明來自www.tmsmall666.cn
相關(guān)新聞

CopyrightZJCOO technology Co., LTD. All Rights Reserved.    

渝ICP 備11003429號

  • qq客服
  • 公眾號
  • 手機版
  • 新浪微博