主題索引

主題索引是描述或分類一個文檔經過索引條款,關鍵字或其他符號以指示哪些不同的文檔是關於,總結他們的內容或增加可發現性。換句話說,這是關於識別和描述主題文件。分別在三個不同的層面上分別構建索引:書籍中的術語;集合中的對象,例如庫;以及知識領域中的文件(例如書籍和文章)。

主題索引用於信息檢索特別是為了創建書目索引檢索有關特定主題的文件。學術索引服務的示例是Zentralblatt數學化學摘要PubMed。索引術語主要由專家分配,但作者關鍵字也很常見。

索引過程始於對文檔主題的任何分析。然後,索引器必須通過直接從文檔中提取單詞或分配單詞來識別適當識別主題的術語受控詞彙.[1]然後,索引中的術語按系統順序呈現。

索引者必須決定包含多少個條款以及應有的特定條款。這共同提供了索引深度。

主題分析

索引的第一步是決定文檔的主題。在手動索引中,索引器會以“文檔是否涉及特定產品,狀況或現象?”之類的問題來考慮主題。[2]由於分析受索引者的知識和經驗的影響,因此,兩個索引者可以以不同的方式分析內容,因此可以提出不同的索引項。這將影響檢索成功。

自動與手動主題分析

自動索引遵循分析單詞模式頻率的設定過程,並將結果與其他文檔進行比較,以分配給主題類別。這不需要對所索引的材料的理解。這導致了更統一的索引,但以解釋的真實含義為代價。計算機程序將無法理解語句的含義,因此可能無法分配一些相關術語或錯誤地分配。人類索引者將注意力集中在文檔的某些部分上,例如標題,抽象,摘要和結論,因為深入分析全文是昂貴且耗時的[3]一個自動化系統會佔用時間限制,並允許對整個文檔進行分析,但也可以將其定向到文檔的特定部分。

術語選擇

索引的第二階段涉及將主題分析轉換為一組索引條款。這可能涉及從文檔中提取或從受控詞彙。具有執行的能力全文搜索廣泛可用的人,許多人都依靠自己的專業知識來進行信息搜索和全文搜索已經變得非常受歡迎。主題索引及其專家,專業索引者,編目器和圖書館員,對於信息組織和檢索仍然至關重要。這些專家明白受控詞彙並能夠找到無法找到的信息全文搜索。與硬件,軟件和人工的成本相比,專家分析的成本不容易與製造一套可比的全文,全面搜索的材料相比。借助允許每個用戶註釋文檔的新Web應用程序,社交標籤尤其是在網絡中廣受歡迎。[4]

索引的一種應用書索引儘管有信息革命,但仍然相對不變。

提取/派生索引

提取索引涉及直接從文檔中獲取單詞。它用自然語言並很好地適合於計算單詞頻率的自動化技術,並且在預定的閾值上具有頻率的技術被用作索引項。將提到包含常用單詞(例如“ the”和“)的停止列表停止文字將被排除為索引條款。

自動提取索引可能會通過索引單詞而不是短語來導致術語的含義喪失。儘管可以提取常見的短語,但如果關鍵概念在短語中措辭不一致,則變得更加困難。自動提取索引還存在一個問題,即即使使用停止列表來刪除通用單詞,一些頻繁的單詞也可能對允許文檔之間的歧視沒有用。例如,在與糖尿病有關的任何文件中,葡萄糖一詞都可能經常發生。因此,使用此術語可能會返回數據庫中的大多數或所有文檔。協調後的索引在搜索時結合條款將降低這種效果,但是搜索者的責任是將適當條款與信息專業人員相反的鏈接。此外,很少發生的術語可能很重要,例如,新藥可能很少提及,但該受試者的新穎性使任何參考都顯著。一種允許包括稀有術語的方法和自動化技術排除的通用單詞是一種相對頻率方法,其中將文檔中單詞的頻率與整個數據庫中的頻率進行了比較。因此,在文檔中發生的術語比基於數據庫的其餘部分更頻繁地發生的術語可以用作索引術語,並且在整個過程中同樣經常出現的術語將被排除在外。

自動提取的另一個問題是,它無法識別何時討論概念,而是通過可索引的關鍵字在文本中識別出來。[5]

由於此過程基於簡單的字符串匹配,並且不涉及智力分析,因此所得的產品更適當地稱為一致性比索引。

分配索引

替代方案是分配索引,其中索引項是從受控詞彙中獲取的。這具有控制的優勢同義詞由於首選術語為索引,並同義詞或相關術語將用戶引導到首選術語。這意味著用戶可以找到文章,而不論作者使用的特定術語如何,並保存用戶不必知道和檢查所有可能的同義詞。[6]它還消除了由同型通過包含合格術語。第三個優勢是,它允許將相關術語鏈接到它們是由層次結構或關聯鏈接的鏈接,例如口服藥物的索引輸入可能會在同一層次結構級別上列出其他口服藥物作為相關術語,但也將與更廣泛的術語(例如治療)聯繫起來。分配索引在手動索引中使用以提高索引間的一致性,因為不同的索引器將有一組受控的術語可供選擇。受控的詞彙並不能完全消除矛盾之處,因為兩個索引者仍可能以不同的方式解釋該主題。[2]

索引呈現

索引的最後階段是以系統的順序呈現條目。這可能涉及鏈接條目。在預先協調的索引中,索引器通過考慮用戶可以如何制定其搜索來確定條目中鏈接的術語的順序。在協調後的索引中,單獨顯示條目,用戶可以通過搜索鏈接條目,最常見的是計算機軟件進行。與協調相比,協調後導致精確度損失[7]

索引深度

索引者必須決定應包括哪些條目以及應包含多少個條目。索引深度描述了索引過程的詳盡性,參考詳盡和特異性[8]

詳盡的

詳盡的索引是列出所有可能的索引項的索引。更大的詳盡性使得更高記起,或更多的可能被檢索的相關文章的可能性,但這是以犧牲為代價的精確。這意味著用戶可以檢索大量無關的文檔或文檔,這些文檔或文檔僅深度涉及該主題。在手動系統中,由於需要更多的工時,因此更大的詳盡性帶來了更高的成本。自動化系統中花費的額外時間將不那麼重要。在量表的另一端,在選擇性索引中,只涵蓋了最重要的方面。[9]在選擇性索引中減少了召回,就好像索引器不包括足夠的條款一樣,可能會忽略高度相關的文章。因此,索引者應努力達到平衡,並考慮可以使用的文件。他們可能還必須考慮時間和費用的含義。

特異性

特異性描述了索引術語如何匹配它們代表的主題[10]索引據說是特定的,如果索引器使用並行描述符對文檔的概念並精確地反映了概念。[11]特異性往往會隨著詳盡的範圍而增加,隨著您包含的術語越多,這些術語越窄。

索引理論

Hjørland(2011)[12]發現索引理論與不同知識理論相關的最深層次:

  • 索引理論的理論(例如Ranganathan的理論)表明,受試者是從邏輯上構建的,是從基本類別集中構建的。然後,主題分析的基本方法是“分析合成”,以隔離一組基本類別(=分析),然後通過根據某些規則組合這些類別(=綜合)來構建任何給定文檔的主題。
  • 經驗主義的索引理論基於根據其屬性選擇類似文檔的基礎,特別是通過應用數值統計技術。
  • 索引的歷史學家和詮釋學理論建議給定文檔的主題是相對於給定的話語或領域的,為什麼索引應反映特定話語或域的需求。根據詮釋學,一份文檔總是從特定的地平線上編寫和解釋。知識組織系統以及所有搜索此類系統的用戶也是如此。提出這樣的系統的任何問題都是從特定視野中提出的。所有這些視野可能或多或少都在共識或衝突中。為了索引文件,文件是通過了解那些不同的視野來嘗試為“相關”文檔的檢索做出貢獻。
  • 索引的務實和批判理論(例如Hjørland,1997)[13]與歷史論的觀點一致,即主體相對於特定的話語,但強調主題分析應支持給定的目標和價值觀,並應考慮以一種或另一種方式索引的後果。這些理論認為,索引不能是中立的,試圖以中立的方式進行索引是一個錯誤的目標。索引是一種行為(根據程序員意圖,基於計算機的索引正在起作用)。行為實現人類目標。圖書館和信息服務還實現了人類的目標,為什麼應以盡可能支持這些目標的方式進行索引。乍一看,這看起來很奇怪,因為庫和信息服務的目標是確定任何文檔或信息。儘管如此,始終以犧牲他人為代價的任何特定方式始終支持某種用途。索引的文件打算在社區中達到一些特定目的。基本上,索引應打算執行相同的目的。初級和次要文件和信息服務是同一整體社會系統的一部分。在這樣的系統中,不同的理論,認識論,世界觀等可能都在起作用,用戶需要能夠定向自己並在這些不同的觀點之間進行導航。這要求對現場中不同認識論的映射,並將單個文檔分類為這樣的地圖。Ørom(2003)的藝術領域提供了這種不同範式及其對索引和分類系統的影響的極好例子[14]以及亞伯拉罕森(Abrahamsen,2003)的音樂。[15]

Rowley&Farrow所說,索引的核心是[16]評估論文對知識的貢獻並相應地索引。或者,用Hjørland的話(1992,[17]1997年)為其信息潛力索引。

“為了獲得良好的一致索引,索引者必須對本主題的結構以及文件對知識發展的貢獻的性質有透徹的認識。”(Rowley&Farrow,2000年,[16]p。 99)。

也可以看看

參考

  1. ^F. W. Lancaster(2003):“理論和實踐中的索引和抽象”。第三版。倫敦,面ISBN1-85604-482-3。第6頁
  2. ^一個bG.G.Chowdhury(2004):“現代信息檢索簡介”。第三版。倫敦,面。ISBN1-85604-480-7。第71頁
  3. ^F. W. Lancaster(2003):“理論和實踐中的索引和抽象”。第三版。倫敦,面ISBN1-85604-482-3。第24頁
  4. ^Voss,Jakob(2007)。“標記,民俗學和公司 - 手動索引的複興?”。國際信息科學研討會論文集。 pp。234–254。arxivCS/0701072.Bibcode2007cs ........ 1072V.
  5. ^J. Lamb(2008):人類還是計算機產生的索引?存檔2014-06-04在Wayback Machine[在線]謝菲爾德,索引者協會。2009年1月15日訪問。
  6. ^C. Tenopir(1999):“人類或自動化,索引很重要”。圖書館雜誌124(18)第34-38頁。
  7. ^D. Bodoff和A. Kambil,(1998年):“部分協調。美國信息科學學會雜誌49(14),1254-1269。
  8. ^D B。Cleveland和A.D. Cleveland(2001):“索引和抽像簡介”。第三版。Englewood,圖書館無限,Inc。ISBN1-56308-641-7。第105頁
  9. ^B.H.溫伯格(Weinberg,1990):“索引的詳盡性:書籍,期刊和電子全文;在1999年ASI年度會議上舉行的研討會摘要”。關鍵詞7(5),第1+頁。
  10. ^J.D. Anderson(1997):索引和相關信息檢索設備的指南[在線的]。貝塞斯達,馬里蘭州,NISO出版社。2008年12月10日。
  11. ^D B。Cleveland和A.D. Cleveland(2001):“索引和抽像簡介”。第三版。Englewood,圖書館無限,Inc。ISBN1-56308-641-7。第106頁
  12. ^Hjørland,Birger(2011)。知識理論的重要性:索引和信息檢索為例。美國信息科學與技術學會雜誌,62(1,),72-77。
  13. ^Hjørland,B。(1997)。信息尋求和主題表示。信息科學的活動理論方法。韋斯特波特和倫敦:格林伍德出版社。
  14. ^Ørom,安德斯(2003)。藝術研究領域的知識組織 - 歷史,過渡和概念變化。知識組織。30(3/4),128-143。
  15. ^亞伯拉罕森(Abrahamsen),Knut T.(2003)。音樂流派的索引。認識論的觀點。知識組織,30(3/4),144-169。
  16. ^一個bRowley,J。E.&Farrow,J。(2000)。組織知識:管理訪問信息的簡介。第三Alderstot:高爾出版公司
  17. ^Hjørland,Birger(1992)。信息科學中的“主題”概念。文檔雜誌。48(2),172-200。http://iva.dk/bh/core%20concepts%20in%20lis/1992jdoc%5fsubject.pdf

進一步閱讀

  • 羅伯特·福格曼(Fugman,Robert)(1993)。主題分析和索引。理論基礎和實用建議。法蘭克福/主:索引Verlag。
  • Frohmann,B。(1990)。“索引規則:信息檢索理論中對心理主義的批評”。文檔雜誌.46(2):81–101。doi10.1108/eb026855.