ê

網路資源概論

搜尋引擎(Search Engines)
搜尋引擎–Google
搜尋引擎–Openfind台灣網路資源搜尋
查詢結果

回網路資源目錄

查詢結果

查詢結果的呈現

相關性排序

大部分搜尋引擎是依相關性排序查詢結果,但是每個搜尋引擎判斷相關的方法略有不同,常用的方法是:

查詢字詞的出現頻率:查詢字詞在文件中出現的頻率,出現次數越多則相關性越高。
查詢字詞的出現位置:查詢字詞是否出現在網頁標題、metatags或文件開頭的幾個段落。查詢字詞若出現在網頁標題、metatags和文件標題中,則相關性較高;查詢字詞若出現在文件的越前面,則相關性越高。
查詢字詞的出現距離:查詢字詞在文件中出現的距離,字詞間的距離越近,相關性越高。兩個以上的字詞緊鄰出現之相關性最高。
查詢字詞的新穎性:查詢字詞在搜尋引擎索引資料庫中出現的頻率。越常出現的字詞其相關性越低,月少出現的字詞越具有代表性,當然相關性就越高。
點閱次數:文件的人氣指數,其他人搜尋到此文件時,點閱的次數,當然是點閱次數愈高,相關性愈高。如HotBot的Direct Hit功能。
連結分析:有多少網頁連結到此文件,被連結的次數愈高,表示相關性愈高。這是Google所開發的PageRank技術。

但是每個搜尋引擎所採用的相關性演算法不同,HotBot是以字詞出現的頻率和位置為主要考慮因素。Go(Infoseek)對出現在網頁標題和metatags,給予額外的權重。Lycos則是給予網頁標題和文件標題較高的權重,但是不考慮metatags。Excite甚至不索引metatags中的字詞。

大部分的搜尋引擎是根據上述準則建立相關性演算公式,排序查詢結果,不管有沒有相關性評分標示,幾乎都是相關性越高的排在越前面。所以,瀏覽搜尋引擎查詢結果時,查詢筆數的多寡並不是那麼的重要,重要的是前10筆、前20筆、前50筆是不是符合。如果50筆都不符合,就表示查詢策略值得檢討。值得注意的是,有些搜尋引擎(如Google)是採用連結分析,可能會發生一種情況,查詢結果可能不是那麼符合,但是文件中可以連結到其他非常符合的網站或網頁。

直接點閱(Direct Hit/Popularity Ranking)

有些搜尋引擎提供直接點閱熱門或精選網站的功能。這些搜尋引擎多半是根據網頁的點閱率等人氣指數來評選熱門網站。這項功能的基本假設是人氣指數,如果有一定數目的人執行與我們相同的搜尋,這些同好在搜尋之後,點閱率最高而且停留時間最久的網站,應該也是我們會感興趣的網站。HotBot的Top 10 Sites,就是根據人氣指數篩選出10個最相關的熱門網站。少就是美,10個優質相關網站的價值可能遠勝於成千上萬筆的查詢結果。而Google的「好手氣(I'm Feeling Lucky)」則是精選網站。

直接到達(Real Names Results)

有些搜尋引擎提供"Real Names"連結,可以快速精確地找到公司機構的網站,是不錯的網站查尋服務。中文分類目錄蕃薯藤的更多搜尋中,可以選擇直接到達,執行Real Name查詢,例如:要找政治大學,無論輸入政大、NCCU或政治大學都可以直接連結到政大的首頁。

群組結果(Results Clustering)

您是不是曾經經歷這樣的景象,在搜尋引擎的查詢結果中,一整頁其實都來自同一個網站。有些搜尋引擎為方便瀏覽,會先將查詢結果加以群組,以精簡查詢結果,增加查詢結果的可讀性和多元性。HotBotAlta Vista是每個網站只顯示一筆查詢結果,也可以選擇某一網站,瀏覽符合的所有網頁資料。Northern Light則提供資料夾,將查詢結果依主題、資料類型、來源或語文加以群組。

顯示筆數

大部分的搜尋引擎是預設每頁顯示十筆,如果能一次看到更多筆不是更有助於判斷嗎?大部分的搜尋引擎在進階查尋或表單選項中,都會提供顯示筆數的特定功能。

顯示方式

有些搜尋引擎可以讓使用者選擇只要顯示網頁標題,或是連摘要一起顯示。是一個網站只顯示一筆資料,還是每筆都顯示。

檔案大小

有些搜尋引擎的查詢結果提供網頁的檔案大小,方便使用者超連結時參考。

顯示日期

有些搜尋引擎的查詢結果,除了網頁介紹外,還提供網頁的建置日期或更新日期。雖然網頁日期不全然可信,但是顯示日期不僅有助於判斷所查得資料的新穎性,更可以判斷搜尋引擎資料庫的更新速度。

每個搜尋引擎對網頁日期的處理方式不同。有些搜尋引擎對於沒有提供日期的網頁,一律以機器人拜訪該網頁的日期取代。有些搜尋引擎如Northern Light則不顯示網頁日期。

Google並未在查詢結果中列出日期,但點選cached,可以知道機器人拜訪該網頁的日期。

分類目錄通常都不顯示網頁日期。其實如果能加上整理或更新的日期,對使用者也是很有用的。

依日期排序

聽起來很不錯,查資料總是希望能找到最新的資訊。但是日期在網路上可是個大問題,因為網頁日期應該有網頁建立日期和最近更新日期之分。事實上,根據Go的工程師在1998年的估計,只有70﹪的網站主機能夠提供正確的日期資訊,20﹪則是只能回報目前日期,無法得知網頁是何時建立或何時更新的。而剩下的10﹪是根本找不到日期資訊。

很多專業人士還是很希望查詢到的網頁資訊能依日期排序。在眾搜尋引擎中,GoNorthern Light提供日期排序的選擇,將最新的資訊排在最前面。

Go在Web Search查詢結果的頂端,點選"Sort By Date"。Northern Light則是在進階查詢的畫面中,在選擇Select Date Range時,可勾選Sort results by date。

值得一提的是,如果有興趣的是新聞話題,建議利用提供News Search,或乾脆利用新聞專業搜尋引擎。

庫頁備份(Spidered Version)

網頁更新的速度非常之快,有的時候搜尋引擎傳回來的資料,和實際連結進去看到的有所不同;還有很多時候在搜尋引擎找到一篇正合我意的文章,不幸卻已遭廢棄或不知喬遷何處。如果搜尋引擎能提供其機器人搜尋回來的版本,就不會有遺珠之憾了。

Google就提供了這項貼心的服務,只要點選Cached,就可以看到Google的機器人當初讀取回來的網頁內容,也就是索引版的網頁內容,而且還會將我們輸入的查詢字詞標示起來。在Cached網頁最上端會提醒user,這可能不是最新版,若要看最新版,請點選current page。

 

查詢結果的精煉

修正查詢策略

初步的搜尋可能產生三種結果,第一種結果是完全不符合,第二種結果是查到的資料很多,但是符合的很少,第三種結果是查詢到的結果很少,但很符合。

完全不符合:

如果查詢結果是零或完全不相關,先檢查一下字有沒有拼錯。沒有的話,就換個搜尋引擎,或者先利用整合式搜尋引擎查詢,找出較為適合的搜尋引擎。

資料很多,但是相關的很少

資料很多,那就表示應該縮小查詢範圍,收斂查詢結果。

所用的搜尋引擎若是預設為OR,如Alta Vista,則可以減少查詢的字詞,提高精確度。

所用的搜尋引擎若是預設為AND,則增加查詢字詞,以收斂查詢結果。

搜尋引擎有沒有結果再查詢的功能,有的話,輸入新的關鍵字針對第一次查詢結果再查詢。

加上限制功能,如查詢標題,或設定語文或日期範圍。

利用NOT或減號(─)剔除不相關的查詢字詞,如電腦NOT蘋果。

試試看網站指南或分類目錄。

資料很少,但很符合:

查到的資料很少,但是都很符合,表示可能漏掉了些相關資訊,應該擴大查詢範圍。

找出同義詞或其他經常並列出現的關鍵字詞,以OR擴大查詢範圍。

利用切截,來查詢關鍵字的變形。

減少用AND組合的查詢字詞。

換大一點的主題或概念,查查看。

試試其他搜尋引擎、分類目錄,或整合式搜尋引擎。

查詢結果若有顯示分類架構,可以該分類架構瀏覽相關的網站或網頁。

收斂查詢(Sub-Searching)

當第一次查詢結果不甚滿意時,不要氣餒,因為大部份的搜尋引擎都提供收斂查詢的功能,可以根據第一次的查詢結果加以精煉,常見的方法有:

網頁分類目錄

很多搜尋引擎也提供分類目錄的功能,有些搜尋引擎可以限定在某一分類主題內搜尋,可以大大地提高查詢結果的精確度。有些提供分類目錄服務的搜尋引擎,查詢結果會自動回覆符合查詢字詞的分類目錄,供使用者瀏覽相關網頁,如WebCrawlerGo.com則是列出相關的分類目錄主題(Web directory topics)供參考,也可以點選search with directory查詢分類目錄。有些則是提供選擇Find Results in Directories來收斂第一次的查詢結果。

相關查詢(Related Searches)

有些搜尋引擎會在查詢結果的頁首列出建議的相關查詢,多半是取材自網頁分類目錄之主題,可以幫助使用者精煉查詢結果。

相似網頁(Find Similar)

有時在查詢結果中有一兩筆資料是深得吾心,完全符合查詢需求,這時會很希望能找到類似的網頁。查找相似網頁就在滿足這項需求。

結果再查詢(Search Within)

利用搜尋引擎查詢資料時,常常輸入查詢字詞後得到的結果多得讓人驚訝!這時怎麼辦呢?重新查詢當然是最直接的方法,不過有些搜尋引擎提供再查詢(search within)的功能,可以輸入其他查詢字詞或限制查詢範圍,來精煉查詢結果。

 

Top

 

授課教師:謝寶煖
  pnhsieh@ntu.edu.tw