信息檢索

信息檢索(ir) 在計算信息科學是獲得的過程信息系統與這些資源集合收集的信息需求相關的資源。搜索可以基於全文或其他基於內容的索引。信息檢索是科學[1]在文檔中搜索信息,本身搜索文檔,並蒐索元數據描述數據,以及數據庫文本,圖像或聲音。

自動信息檢索系統用於減少所謂的信息超載。 IR系統是一種軟件系統,可提供對書籍,期刊和其他文檔的訪問;商店並管理這些文件。網絡搜索引擎是最明顯的IR應用程序。

概述

當用戶輸入系統中的查詢時,信息檢索過程開始。查詢是信息需求的正式語句,例如Web搜索引擎中的搜索字符串。在信息檢索中,查詢並不能唯一地識別集合中的單個對象。相反,幾個對象可能與查詢匹配,也許與不同的程度關聯.

對像是一個由內容集合中信息表示的實體或數據庫。用戶查詢與數據庫信息匹配。但是,與數據庫的經典SQL查詢相反,在信息檢索中,返回的結果可能與查詢匹配或可能不匹配,因此通常對結果進行排名。這個排行結果是與數據庫搜索相比,信息檢索搜索的關鍵區別。[2]

取決於應用數據對象可能是文本文檔,圖像,[3]聲音的,[4]思維導圖[5]或視頻。通常,文檔本身不會直接保存或存儲在IR系統中,而是由文件代理或元數據.

大多數IR系統計算數據庫中每個對象與查詢的匹配程度如何,並根據此值對對象進行排名。然後將排名對象顯示給用戶。如果用戶希望完善查詢,則可以迭代該過程。[6]

歷史

有……一台稱為Univac的機器...,將字母和數字編碼為長鋼膠帶上的磁斑模式。通過這種方式,可以記錄文檔的文本,然後記錄其主題代碼符號...機器...自動選擇並輸入以每分鐘120個單詞的速度編碼的那些引用

- J. E. Holmstrom,1948年

文章公開了使用計算機搜索相關信息的想法正如我們可能認為的經過Vannevar Bush1945年。[7]似乎布什受到“統計機器”專利的啟發 - 由伊曼紐爾·戈德堡在1920年代和30年代 - 搜索了存儲在電影中的文件。[8]霍姆斯特羅姆(Holmstrom)在1948年描述了計算機搜索信息的第一個描述,[9]詳細介紹Univac計算機。自動化信息檢索系統是在1950年代引入的:甚至在1957年的浪漫喜劇中都有一個,桌子套裝。在1960年代,第一個大型信息檢索研究小組由杰拉德·索爾頓(Gerard Salton)在康奈爾。到1970年代,已經證明了幾種不同的檢索技術在小方面表現良好文字語料庫例如Cranfield Collection(幾千個文件)。[7]大規模檢索系統,例如洛克希德對話系統,在1970年代初開始使用。

1992年,美國國防部以及國家標準研究所(nist),共同發起文本檢索會議(TREC)作為Tipster文本程序的一部分。這樣做的目的是通過提供在非常大的文本集合中評估文本檢索方法所需的基礎架構來研究信息檢索社區。這項催化了對方法的研究規模到巨大的語料庫。的簡介網絡搜索引擎已經提高了非常大規模檢索系統的需求。

申請

採用信息檢索技術的領域包括(條目在每個類別中按字母順序排列):

一般應用

特定於域的應用

其他檢索方法

採用信息檢索技術的方法/技術包括:

型號類型

IR模型的分類(從德國條目,原始來源翻譯多米尼克·庫羅普卡(Dominik Ku​​ropka))。

為了有效地檢索IR策略的相關文件,這些文件通常會轉換為合適的代表。每個檢索策略都包含用於文檔表示目的的特定模型。右圖說明了一些常見模型的關係。在圖片中,模型根據兩個維度進行分類:數學基礎和模型的屬性。

第一維:數學基礎

第二維:模型的屬性

  • 沒有任期相互依賴性的模型將不同的術語/單詞視為獨立。這個事實通常由矢量空間模型表示正交性假設術語向量或概率模型中的假設獨立術語變量的假設。
  • 具有內在術語相互依賴的模型允許表示術語之間的相互依賴性。但是,兩個術語之間的相互依賴度的程度由模型本身定義。它通常是直接或間接得出的(例如尺寸還原) 來自共發生在整個文檔中的這些術語中。
  • 具有超越項相互依賴的模型允許表示術語之間的相互依賴性,但他們不聲稱如何定義兩個術語之間的相互依賴性。他們將外部來源依靠兩個術語之間的相互依賴程度。 (例如,人類或複雜算法。)

績效和正確性措施

信息檢索系統的評估是評估系統如何滿足用戶信息需求的過程。通常,測量值考慮要搜索的文檔集合和搜索查詢。傳統評估指標,專為布爾檢索[需要澄清]或Top-K檢索,包括精確和回憶。所有措施都假設地面真相相關概念:已知每個文檔都與特定查詢相關或不相關。實際上,查詢可能是不良並且可能有不同的相關性。

時間線

  • 之前1900年代
    1801約瑟夫·瑪麗·雅克(Joseph Marie Jacquard)發明雅加德織機,第一台使用打孔卡來控制一系列操作的機器。
    1880年代赫爾曼·霍勒里斯(Herman Hollerith)使用打孔卡作為機器可讀介質發明電力數據製表器。
    1890HollerithKeypunches製表符用於處理1890年美國人口普查數據。
  • 1920年代 - 1930年代
    伊曼紐爾·戈德堡為其“統計機”提交專利,該文檔搜索引擎使用光電細胞和模式識別來搜索微膠片文檔卷上的元數據。
  • 1940年代至1950年代
    1940年代後期:美國軍方面臨著從德國人捕獲的戰時科學研究文件的索引和檢索問題。
    1945Vannevar Bush'正如我們可能認為的出現在大西洋月.
    1947漢斯·彼得·魯恩(Hans Peter Luhn)(自1941年以來,IBM的研究工程師)開始使用基於機械的打孔卡系統進行搜索化合物。
    1950年代:美國越來越關注蘇聯激勵,鼓勵資金的“科學差距”,並為機械化文獻搜索系統提供了背景(艾倫·肯特等。)和發明引文指數經過尤金·加菲爾德.
    1950:“信息檢索”一詞由加爾文·穆爾斯(Calvin Mooers).[10]
    1951:菲利普·巴格利(Philip Bagley麻省理工學院.[11]
    1955:艾倫·肯特加入案例西部儲備大學,並最終成為文檔與通信研究中心副主任。同年,肯特及其同事在美國文檔中發表了一篇論文,描述了精確度和召回措施,並詳細介紹了用於評估IR系統的建議的“框架”,其中包括用於確定未檢索的相關文檔數量的統計抽樣方法。[12]
    1958:國際科學信息會議華盛頓特區包括考慮IR系統作為解決問題的解決方案。看:國際科學信息會議論文集,1958年(國家科學院,華盛頓特區,1959年)
    1959漢斯·彼得·魯恩(Hans Peter Luhn)發布“文檔自動編碼以獲取信息檢索”。
  • 1960年代
    1960年代初杰拉德·索爾頓(Gerard Salton)開始在哈佛的IR上工作,後來搬到了康奈爾。
    1960梅爾文·伯爵·馬龍和約翰·拉里·庫恩斯[13]1960年7月,在《 ACM 7(3):216–244》的《 ACM 7(3):216-244》中發表了“有關相關性,概率索引和信息檢索”。
    1962
    • 西里爾·弗萊夫登(Cyril W. Cleverdon)發表了Cranfield研究的早期發現,開發了用於IR系統評估的模型。請參閱:Cyril W. Cleverdon,“關於索引系統比較效率的研究和分析的報告”。克蘭菲爾德航空收藏,英格蘭克蘭菲爾德,1962年。
    • 肯特出版信息分析和檢索.
    1963
    • 溫伯格報告“科學,政府和信息”,充分錶達了“科學信息危機”的想法。該報告以博士的命名。阿爾文·溫伯格(Alvin Weinberg).
    • 約瑟夫·貝克爾(Joseph Becker)和羅伯特·海斯(Robert M. Hayes)有關信息檢索的發表文本。貝克爾,約瑟夫;海斯,羅伯特·梅奧。信息存儲和檢索:工具,元素,理論。紐約,威利(1963)。
    1964
    1960年代中期
    • 國家醫學圖書館開發Medlars醫學文獻分析和檢索系統,這是第一個主要的機器可讀數據庫和批處理系統。
    • MIT項目Intrex。
    1965J. C. R. Licklider出版未來圖書館.
    1966唐·斯旺森曾在芝加哥大學研究未來目錄的要求。
    1960年代後期F. Wilfrid Lancaster完成了MEDLARS系統的評估研究,並發表了他有關信息檢索的第一版。
    1968
    • 杰拉德·索爾頓(Gerard Salton)出版自動信息組織和檢索.
    • John W. Sammon,Jr。的RADC技術報告“信息存儲和檢索的一些數學……”概述了矢量模型。
    1969:Sammon的“用於數據結構分析的非線性映射“(計算機上的IEEE交易)是IR系統可視化接口的第一個建議。
  • 1970年代
    1970年代初
    1971尼古拉斯·賈丁(Nicholas Jardine)Cornelis J. Van Rijsbergen發表了“在信息檢索中使用層次聚類的使用”,闡明了“群集假設”。[14]
    1975:薩爾頓的三本高度影響力出版物完全闡明了他的矢量處理框架和術語歧視模型:
    • 索引理論(工業和應用數學學會)
    • 自動文本分析中的術語重要性理論(賈西斯v。26)
    • 自動索引的矢量空間模型(CACM18:11)
    1978: 首先ACM西吉爾會議。
    1979:C。J. Van Rijsbergen出版信息檢索(Butterworths)。強調概率模型。
    1979:tamas doszkocs實施了引用自然語言用戶界面用於國家醫學圖書館的Medline。引用系統支持免費表單查詢輸入,排名輸出和相關反饋。[15]
  • 1980年代
    1980:與劍橋的英國計算機協會IR集團聯合聯合國際ACM Sigir會議。
    1982尼古拉斯·J·貝爾金,羅伯特·N·奧迪(Robert N.這是一個重要的概念,儘管他們的自動分析工具最終被證明令人失望。
    1983:Salton(和Michael J. McGill)出版現代信息檢索簡介(McGraw-Hill),重點是矢量模型。
    1985:David Blair和比爾·馬龍發布:對全文文檔的檢索有效性評估 - 取回系統
    1980年代中期:開發商業IR系統的最終用戶版本的努力。
    1985- 1993年:有關可視化接口的關鍵論文和實驗系統。
    Donald B. Crouch的工作,羅伯特·R·科法奇(Robert R. Korfhage),Matthew Chalmers,Anselm Spoerri等。
    1989: 第一的全球資訊網提案蒂姆·伯納斯·李庫恩.
  • 1990年代
    1992: 第一的trec會議。
    1997:出版Korfhage'信息存儲和檢索[16]強調可視化和多參考點系統。
    1999:出版Ricardo Baeza-Yates和Berthier Ribeiro-Neto的現代信息檢索艾迪生·衛斯理(Addison Wesley),第一本試圖覆蓋所有IR的書。
    1990年代後期網絡搜索引擎以前僅在實驗IR系統中發現的許多功能的實施。搜索引擎成為IR模型最常見,也許是最好的實例化。

主要會議

領域的獎項

也可以看看

參考

  1. ^Luk,R。W. P.(2022)。 “為什麼信息檢索科學學科?”。科學基礎.27(2):427–453。doi10.1007/s10699-020-09685-X.
  2. ^Jansen,B。J.和Rieh,S。(2010)信息搜索和信息檢索的十七個理論結構存檔2016-03-04在Wayback Machine。美國信息科學與技術學會雜誌。 61(8),1517-1534。
  3. ^Goodrum,Abby A.(2000)。 “圖像信息檢索:當前研究的概述”。告知科學.3(2)。
  4. ^Foote,Jonathan(1999)。 “音頻信息檢索概述”。多媒體系統.7:2–10。Citeseerx10.1.1.39.6339.doi10.1007/S005300050106.S2CID2000641.
  5. ^比爾,約蘭; Gipp,Bela;詹姆斯·斯蒂勒(Jan-Olaf)(2009年)。在思維地圖上檢索信息 - 有什麼好處?。第五屆國際協作計算會議論文集:網絡,應用程序和工作共享(CollaborateCom'09)。華盛頓特區:IEEE。存檔原本的在2011-05-13。檢索2012-03-13.
  6. ^弗雷克,威廉·B。 Baeza-Yates,Ricardo(1992)。信息檢索數據結構和算法。 Prentice-Hall,Inc。ISBN978-0-13-463837-9。存檔原本的在2013-09-28。
  7. ^一個bSinghal,Amit(2001)。“現代信息檢索:簡短概述”(PDF).IEEE計算機協會數據工程技術委員會公告.24(4):35–43。
  8. ^Mark Sanderson&W。Bruce Croft(2012)。“信息檢索研究的歷史”.IEEE會議論文集.100:1444–1451。doi10.1109/jproc.2012.2189916.
  9. ^JE Holmstrom(1948)。"'第三節。開放全體會議”.皇家學會科學信息會議,1948年6月21日:提交報告和報紙:85。
  10. ^Mooers,Calvin n。非數字信息的數字處理理論及其對機器經濟學的影響(Zator技術公告第48號),引用Fairthorne,R。A.(1958)。“自動檢索記錄的信息”.計算機日記.1(1):37。doi10.1093/comjnl/1.1.36.
  11. ^多伊爾,勞倫;貝克爾,約瑟夫(1975)。信息檢索和處理。梅爾維爾。 pp。410pp。ISBN978-0-471-22151-7.
  12. ^佩里,詹姆斯·W。肯特,艾倫;貝里,瑪德琳M.(1955)。 “搜索X.機器語言的機器文獻;其設計和開發的因素”。美國文檔.6(4):242–254。doi10.1002/asi.5090060411.
  13. ^Maron,Melvin E.(2008)。“關於概率索引起源的歷史記錄”(PDF).信息處理和管理.44(2):971–972。doi10.1016/j.ipm.2007.02.012.
  14. ^N. Jardine,C.J。VanRijsbergen(1971年12月)。 “在信息檢索中使用層次聚類”。信息存儲和檢索.7(5):217–240。doi10.1016/0020-0271(71)90051-9.
  15. ^Doszkocs,T.E。 &Rapp,B.A。 (1979)。 “用英語搜索MEDLINE:一種原型用戶與自然語言查詢,排名輸出和相關反饋的互相互聯網”,在:ASIS年度會議論文集,16:131-139。
  16. ^Korfhage,Robert R.(1997)。信息存儲和檢索。威利。 pp。368頁.ISBN978-0-471-14338-3.

進一步閱讀

外部鏈接