特黄毛片,99在线精品日韩一区免费国产,一木道一二三区精品,国产三级日本三级日产三,情火未删减版在线观看,色黄污

首 頁 APP開發 網站建設 微信開發 解決方案 公司動態 聯系我們
企業數字化的引領者 咨詢服務熱線:0371-63716361
泛古動態
優化常識
常見問題
建站知識
設計心得
WAP建站百科
手機建站行業資訊
首頁輪播
首頁輪播手機站
鄭州網站建設
聯系我們
常見問題
經典案例
Google是如何收錄及排序網頁的
我們遇到的最常見的問題之一是“Google是如何判定哪個結果出現在搜索結果的前茅?”,Matt Cutts給我們簡單地揭示了如何抓取、收錄和給網頁評級。

抓取和收錄
當你看到出現在Google的搜索結果的那個網頁之前,Google在后臺已經做了許多步驟。Google的第一步是抓取和收錄互聯網上的數十億的網頁,這個工作時由Google的機器人Googlebot來完成的,它瀏覽網絡服務器抓取文件。 抓取的程序并不是漫無目的地在互聯網上瞎逛,它訪問服務器的特定的網頁,然后掃描網頁上的超文本鏈接,如果有新的文件也是這樣抓取得;蜘蛛程序給每個得到的網頁一個號碼,這個號碼指向它抓取的網頁。

蜘蛛程序抓取了很多的網頁,但這些網頁還不是便于搜索的。如果沒有一個索引,你要查詢一個詞,比如“國內戰爭”,Google的服務器每次都要讀取每一個文件的所有內容。

因此,第二步就是建立索引。我們不是去掃描每一個文件的所有內容,我們巧妙地進行數據的“轉換”,列出每一個文件所包含的特定的詞,例如,“國內”這個詞可能出現在文件3,8,22,56,68和92當中,而“戰爭”這個詞出現在文件2,8,15,22,68和77中。

建立好索引之后,我們就可以開始對網頁進行評級,決定網頁的相關程度。假設有人在Google的搜索欄輸入“國內戰爭”進行查詢,為了提交搜索結果和對結果進行評分,我們要做兩件事:

1. 找到包含用戶查詢的詞的網頁
2. 給符合的網頁按照相關程度進行評級
Google開發出一個有趣的技巧來加速第一步:Google不是把整個索引存儲在一臺功能強大的計算機上,而是用千百個計算機來存儲這些信息。因為任務被分解到許多的計算機,可以更快地找到所需的答案。 詳細解釋一下,假設一本書的目錄有30頁,如果一個人要在目錄中查尋資料,每次查詢都要花幾秒鐘;如果用30個人每人查詢一頁目錄,顯然要比一個人查詢的速度快很多。同樣的,Google將數據分別存儲在許多計算機上,這樣搜索的速度會大大加快。

我們是如何找到那些包含用戶搜索的詞的網頁呢?回到“國內戰爭”的例子,“國內”這個詞出現在文件3,8, 22, 56, 68 和92; “戰爭”出現在文件2, 8, 15, 22, 68和77,記下同時出現這兩個詞的文件。

國內 3 8 22 56 68 92
戰爭 2 8 15 22 68 77
國內 戰爭 8 22 68

這樣我們可以清楚地發現“國內”、“戰爭”這兩個詞同時出現的在三個文件里 (8, 22, 和68)。 含有這幾個字的列表叫做“位置列表”,搜索文件包含這兩個字,這叫做交叉搜索位置列表。(較快的交叉搜索的方法是同時進行搜索,如果一個搜索列表,22到68,那另一個就可以開始搜索其他的)
對結果進行評級
現在我們已經有了一些包含用戶搜索的關鍵詞的網頁,我們要對它們的相關程度進行評級。Google用許多參數進行評級。這當中PR算法是眾所周知的。PageRank評估兩個因素:有多少個網頁鏈接到這個網頁,這些鏈接網頁的網站的質量如何。通過PageRank,五六個高質量的站點的鏈接,比如www.cnn.com和www.nytimes.com比其他較差的網站的鏈接要有價值的多。

但是除了PageRank,我們還用許多其它的參數來進行評級。例如,如果一個文件包含“國內”和“戰爭”這兩個詞排在一起,這個文件可能比一個討論革命戰爭的文件(在文件的某個地方使用“國內”)的相關程度高。還比如假設一個網頁的標題是“國內戰爭”,比另一個標題為“19世紀美國服裝”的網頁相關度高得多。同樣的,如果“國內戰爭”在網頁中出現多次的網頁比只出現一個的網頁相關的程度也要高。假設你是搜索引擎,選擇一個詞查詢,比如:國內戰爭或回收,在Google上查詢,從結果中挑選三到四頁打印出來。從每一張打印的頁面上找出你的搜索語句的每一個字然后用熒光筆標出來,然后把這幾頁貼在墻上,退后幾步瞇著眼看,當你不知道頁面的內容,僅僅能看到那些有顏色的方塊,你認為那一頁是最相關的呢?是不是有著大的標題和多次重復出現的顏色代表了較高的相關程度?你喜歡這些字出現在頂端還是底部?這些字出現的頻率如何?這也是搜索引擎如何判斷網頁的相關程度。

原則上,Google總是試圖找出可靠的和相關的網頁。如果兩個網頁按照查詢的語句大致有相同的信息,Google通常選擇比較信得過的網站的網頁。當然,如果有一些因素表明這個網站的網頁相關度更高,Google經常也選擇PageRank較低的網站。

一旦Google完成了文件的列表和它們的評分,就給出得分最高的網頁。Google同時從網頁中摘錄一小段包含查詢的關鍵詞的句子;給出網頁的鏈接。

對于這樣的搜索工作,需要極大的數據運算量,一般說來,對于某個搜索,要有超過500臺的服務器協同工作以求得最佳匹配的結果,當然,結果會在半秒內返回用戶。
如有任何疑問請聯系我們,我們7*24小時竭誠為您服務!
0371-63716361
鄭州泛古軟件

主營業務: 【APP開發】 【軟件系統開發】 【移動應用開發】 【高端網站建設】 【網絡營銷】 【微信營銷】 【微信系統開發】
業務咨詢:0371-63716361 15638856138
公司地址:鄭州 二七區 航海中路升龍城·二七中心A座10樓1009-1010(航海路與興華南街交叉口西北角)
鄭州泛古軟件科技有限公司 版權所有 © 2009-2022 豫ICP備14028268號  
留言反饋 | 了解泛古 | 聯系泛古 | 站點地圖    

客戶咨詢:
  在線客服
  在線客服
售后服務:
  售后服務
  客戶投訴
在線時間:
8:30-18:30
在線留言反饋
在線咨詢
經濟型網站
 立即擁有