搜索引擎(計算)

在一般計算中,搜索引擎是一種信息檢索系統,旨在幫助查找存儲在計算機系統上的信息。這是一個信息檢索軟件程序,可發現,爬網,轉換和存儲信息以響應用戶查詢而進行檢索和演示。搜索結果通常顯示在列表中,通常稱為命中。搜索引擎通常由四個組件組成,如下所示:搜索接口,一個爬網(也稱為蜘蛛或機器人),索引器和數據庫。爬網遍歷文檔集合,解構文檔文本,並為搜索引擎索引中的存儲分配替代物。在線搜索引擎也為文檔存儲圖像,鏈接數據和元數據。

搜索引擎最公開,最可見的形式是網絡搜索引擎,它在萬維網上搜索信息。

搜索引擎的工作方式

搜索引擎為一組項目提供了一個接口,使用戶能夠指定有關一項感興趣的項目的標準,並讓引擎找到匹配項。該標準稱為搜索查詢。在文本搜索引擎的情況下,搜索查詢通常表示為一組單詞,這些單詞可以識別一個或多個文檔可能包含的所需概念。嚴格的搜索查詢語法有幾種樣式。它還可以從以前的站點中切換搜索引擎中的名稱。儘管某些文本搜索引擎要求用戶輸入兩個或三個單詞,但其他搜索引擎可能使用戶可以指定整個文檔,圖片,聲音和各種形式的自然語言。一些搜索引擎對搜索查詢進行了改進,以增加通過稱為查詢擴展的過程提供質量項目的可能性。查詢理解方法可以用作標準化的查詢語言。

基於索引的搜索引擎

符合查詢指定標準的項目列表通常是分類或排名的。通過相關性(從最高到最低)對項目進行排名會減少找到所需信息所需的時間。概率搜索引擎基於相似性的度量(每個項目和查詢之間,通常以1至0,1,最相似)進行對項目進行排名,有時是受歡迎程度權威(請參閱BiblioMetrics )或使用相關性回饋.布爾搜索引擎通常僅返回完全匹配的項目,這些項目完全不考慮順序,儘管術語布爾搜索引擎可以簡單地參考在概率上下文中使用布爾式語法(使用操作員和OR或者,或不使用XOR )的使用。

為了提供一組匹配的項目,這些項目可以快速根據某些條件進行分類,搜索引擎通常會通過稱為索引的過程事先考慮正在考慮的項目組收集元數據。該索引通常需要少量的計算機存儲,這就是為什麼某些搜索引擎僅存儲索引信息而不是每個項目的全部內容,而是為搜索引擎結果頁面中的項目提供導航的方法。另外,搜索引擎可以將每個項目的副本存儲在緩存中,以便用戶可以在索引或出於存檔目的時看到該項目的狀態,或者使重複過程更有效,更快地工作。

其他類型的搜索引擎不存儲索引。 Crawler或Spider Type搜索引擎(又稱實時搜索引擎)可能在搜索查詢時收集和評估項目,並根據起始項目的內容(稱為種子或種子URL,在互聯網爬網的情況)。 Meta搜索引擎既不存儲索引也不存儲緩存,而只需重複使用一個或多個其他搜索引擎的索引或結果即可提供一組匯總的最終結果。

在2000年代初期一直是一項重要的營銷功能的數據庫規模,同樣通過對相關排名的強調來取代,搜索引擎試圖首先對最佳結果進行分類的方法。相關排名首先成為一個主要問題c。 1996年,很明顯,審查完整的結果清單是不切實際的。因此,相關排名的算法已不斷提高。 Google的訂購結果的Pagerank方法收到了最多的媒體,但是所有主要的搜索引擎都不斷完善其排名方法,以改善結果的訂購。截至2006年,搜索引擎排名比以往任何時候都重要,以至於行業發展(搜索引擎優化者”或“ SEO”),以幫助網絡開發人員提高搜索排名,以及整個判例法。已經圍繞影響搜索引擎排名的問題發展,例如在元數據中使用商標。一些搜索引擎的搜索排名也引起了圖書館員和消費者倡導者的爭議。

Google的“知識面板”。這就是向用戶提供信息圖的信息。

用戶的搜索引擎體驗繼續增強。 Google添加了Google知識圖對Internet的影響更大,甚至可能限制了某些網站流量,例如Wikipedia。通過提取信息並將其顯示在Google的頁面上,有人認為它可能會對其他網站產生負面影響。但是,沒有主要的擔憂。

搜索引擎類別

網絡搜索引擎

開發了用於搜索網頁,文檔和圖像的明確設計的搜索引擎,以促進通過非結構化資源的大型模糊的斑點進行搜索。他們經過精心遵循多個階段的過程:爬上無限的頁面和文檔,以從其內容中瀏覽象徵性泡沫,以一種半結構化的形式(數據庫或其他東西)索引泡沫/流行語,以及最後,解決用戶條目/查詢以返回主要相關的結果,並鏈接到庫存中的那些脫脂文檔或頁面。

爬行

在完全的文本搜索的情況下,對網頁進行分類的第一步是找到一個可能與“搜索詞”明確相關的“索引項目”。過去,搜索引擎始於一小部分URL作為所謂的種子列表,獲取了內容,並在這些頁面上解析了鏈接以獲取相關信息,隨後提供了新的鏈接。該過程是高度週期性的,並且一直持續到找到足夠的頁面供搜索者使用。如今,採用了一種連續的爬網方法,而不是基於種子清單的偶然發現。爬網方法是上述發現方法的擴展。除了

大多數搜索引擎都使用複雜的調度算法來“決定”何時重新訪問特定頁面,以吸引其相關性。這些算法範圍從持續的訪問間隔較高的優先級,更常見的頁面到基於多個標準(例如變化頻率,受​​歡迎程度和整體網站質量)的適應性訪問界面。運行頁面的Web服務器的速度以及資源限制(例如硬件或帶寬量)也在其中。

鏈接圖

網絡爬網發現的頁面通常分配並饋送到另一台計算機中,該計算機創建了發現的資源圖。捆紮的簇量看起來有點像一個圖,在上面,不同頁面表示為小節點,這些節點是通過頁面之間的鏈接連接的小節點。超出數據存儲在多個數據結構中,這些數據結構允許通過某些算法快速訪問上述數據,這些算法會根據多少鏈接指向某個網頁,這些算法計算網絡上頁面的普及得分,這就是人們可以訪問任何數字的方式與診斷精神病有關的資源。另一個示例是網頁的可訪問性/等級,其中包含有關Mohamed Morsi的信息,而在簡單地將“埃及”作為搜索詞輸入“埃及”之後,在開羅訪問的最佳景點。 Google創始人Larry Page和Sergey Brin提出的一種這樣的算法, Pagerank是眾所周知的,並且引起了很多關注,因為它突出了不知道如何在Google上正確研究主題的學生的重複Mundanity。

進行鏈接分析以計算受歡迎程度等級的想法比Pagerank更古老。但是,在2014年10月,Google的John Mueller確認Google不會更新(頁面排名)。目前正在使用同一想法的其他變體 - 小學生在接踢球隊時進行了相同的計算。這些想法可以分為三個主要類別:單個頁面的等級和網站內容的性質。搜索引擎通常會區分內部鏈接和外部鏈接,因為Web內容創建者對無恥的自我促進並不陌生。鏈接映射數據結構通常也存儲鏈接中嵌入的錨文本,因為錨文本通常可以提供網頁內容的“非常好的質量”摘要。

數據庫搜索引擎

在數據庫中搜索基於文本的內容提出了一些特殊的挑戰,其中許多專門的搜索引擎蓬勃發展。求解複雜的查詢(具有多個邏輯或字符串匹配參數)時,數據庫可能會很慢。數據庫允許全文搜索不使用的偽邏輯查詢。由於數據已經構成,因此數據庫無需爬行。但是,通常有必要以更節省的形式索引數據,以進行更迅速的搜索。

混合搜索引擎

有時,搜索的數據同時包含數據庫內容和網頁或文檔。搜索引擎技術已經開發出響應兩組要求。大多數混合搜索引擎都是大型網絡搜索引擎,例如Google。他們通過結構化和非結構化數據源進行搜索。以“球”一詞為例。用最簡單的話來說,它僅返回Wikipedia的40多個變體。您的意思是像社交聚會/舞蹈一樣嗎?足球?腳的球?頁面和文檔在單獨的索引中被爬行並索引。數據庫也來自各種來源。然後,通過並行查詢這些多個索引,並根據“規則”對結果進行查詢,從而為用戶生成搜索結果。

搜索技術的歷史

MEMEX

超文本和記憶擴展的概念源自1945年7月在《大西洋月刊》上發表的一篇文章,由範內瓦爾·布什(Vannevar Bush)撰寫,標題為“我們可能會想到” 。在本文中,Vannevar敦促科學家共同努力,幫助為所有人提供知識。然後,他提出了幾乎無限,快速,可靠,可擴展,關聯內存存儲和檢索系統的想法。他將此設備命名為MEMEX

布什將“關聯索引”的概念視為他的關鍵概念貢獻。正如他所解釋的那樣,這是“一項規定,任何物品都可以隨意立即選擇並自動選擇另一個項目。這是MEMEX的基本特徵。將兩個項目捆綁在一起的過程是重要的。

MEMEX中使用的所有文檔都是以作為此類獲取的縮微膠片副本的形式,或者在個人記錄的情況下,由機器本身轉換為縮微膠卷。 MEMEX還將基於一種新型的關聯索引來採用新的檢索技術,該技術是基本思想的規定,可以隨意造成任何項目,以立即選擇並自動選擇另一種項目,以通過鏈接的文檔創建個人“ Trails”。布什預期的新程序可以促進信息存儲和檢索,這將導致全新形式的百科全書的發展。

布什構想的最重要的機制是協會步道。這將是一種在任何任意的縮微膠卷框架上創建新的縮微膠卷框架的新線性序列,通過以描述的方式創建鏈接的鏈接,以及個人評論和側面跟踪。

1965年,布什(Bush)參加了麻省理工學院(MIT)的Intrex項目,用於開髮用於機械化的技術,以處理圖書館使用的信息。他在1967年的題為“ Memex Revisited”的文章中指出,數字計算機,晶體管,視頻和其他類似設備的開發提高了這種機械化的可行性,但成本將推遲其成就。

聰明的

杰拉德·索爾頓(Gerard Salton)於1995年8月28日去世,是現代搜索技術的父親。他在哈佛大學和康奈爾(Cornell)的團隊開發了智能信息檢索系統。索爾頓的魔術自動獵犬文本包括重要概念,例如矢量空間模型逆文檔頻率(IDF),項頻率(TF),術語歧視值和相關反饋機制。

他撰寫了一本56頁的書,名為《索引理論》 ,該書解釋了他的許多測試,搜索仍然在很大程度上是基於的。

字符串搜索引擎

1987年,發表了一篇文章,詳細介紹了在雙倍1.6-μmn-well CMOS固態電路上快速檢索的字符弦搜索引擎(SSE)的開發,其中217,600晶體管在8.62x12.76-上散開。毫米死區。 SSE安裝了一種新穎的弦搜索體系結構,該體系結構結合了512階段的有限狀態自動機(FSA)邏輯與內容可尋址內存(CAM),以實現每秒8000萬條字符串的近似字符串比較。 CAM細胞由四個常規靜態RAM(SRAM)細胞和一個讀/寫電路組成。在50 ns中,對於1000萬個字符/s的輸入文本流的64個存儲字符串的同時比較,儘管有字符代碼的形式存在單個字符誤差,但在50 ns中實現了可變長度的比較。此外,芯片允許非錨字符串搜索和可變長度“不在乎”(VLDC)字符串搜索。

也可以看看

通過來源

按內容類型

通過接口

按主題

其他的