信息检索
信息检索(Information Retrieval,IR),从狭义上讲,是指用户使用检索工具或系统,采用特定的检索策略和方法,从信息资源集合中找到并获取所需信息的过程。从广义上讲,它首先是索引和存储信息的过程,其次是分析和检索信息的过程。信息检索的本质是用户信息需求与信息资源集合匹配的过程。用户在寻找所需信息时表达需求,系统将需求与信息资源系统中的检索语言进行匹配。
信息检索起源于图书馆的参考咨询服务和文摘索引。它最早发展于19世纪下半叶,到20世纪40年代,索引和检索已成为图书馆的独立工具和用户服务项目。随着1946年世界上第一台电子计算机的问世,计算机技术逐渐进入信息检索领域,并与信息检索理论紧密结合。20世纪70年代,随着通信技术的发展,美国出现了Tymnet和Telnet等数据通信网络,通信成本降低,在线检索逐渐在美国普及。20世纪80年代,随着微型计算机的广泛应用和高密度存储介质光盘的出现,计算机信息检索进入了光盘检索阶段。20世纪90年代,随着卫星通信技术、网络技术和多媒体技术的发展,信息检索进入了网络检索阶段。此外,随着人工智能技术的发展,互联网检索逐渐向语义和知识检索发展,并进入智能信息检索阶段。
信息检索的四个基本要素包括信息资源、信息需求、信息获取和信息利用。实践中常用的信息检索技术主要包括布尔逻辑检索、截止检索、有限检索和位置检索。信息检索有很多种,按检索方法可分为手工信息检索和数字信息检索;按检索对象可分为文献信息检索、数据信息检索和事实信息检索;按组织方式可分为全文检索、超文本检索和超媒体检索,通过按内容特征划分的主题路径和分类路径以及按外观特征划分的作者路径、书名路径、序号路径和引文路径进行信息检索。
信息检索广泛应用于文档检索、网页检索和社交媒体分析等领域,使人们能够以最少的时间和精力在文献中快速准确地获取所需的知识,并能培养人们获取最新信息和更新自身知识的能力,使其知识结构和思维方式与社会发展保持同步,提高自主学习能力。然而,信息检索也面临着检索结果不完整、标引准确率低、无法长期提供信息服务等局限性。
历史发展
信息检索起源于图书馆的参考咨询服务和文摘索引。它最早发展于19世纪下半叶,到20世纪40年代,索引和检索已成为图书馆的独立工具和用户服务项目。随着1946年世界上第一台电子计算机的问世,计算机技术逐渐进入信息检索领域,并与信息检索理论紧密结合。
手动搜索
信息检索起源于参考咨询工作,读者需要独立使用图书馆提供的书目和索引工具来查询所需的文献和信息。在这一阶段,信息检索行为已经出现,但比较分散和不专业,缺乏必要的关注和研究,因此没有形成专业的信息检索系统。19世纪下半叶,正式参考咨询服务逐渐发展起来,尤其是在美国公共图书馆和大学图书馆。20世纪初,大多数图书馆都设立了参考部,主要利用图书馆的书目工具帮助读者找到书籍、期刊或现成的答案。索引成为一种独立的检索工具,书目和摘要开始被编纂并用于专门的文献检索。“信息检索”从此成为一项独立的用户服务工作,并逐渐从一项纯粹的经验工作向科学方向发展。然而,人工检索简单、成本低、精度高,但效率很低,且无法保证查全率。随着科学技术的发展,文献信息日益增多。使用印刷文档的传统人工检索方法已经不能适应信息的快速增长,更不用说跟上时代的发展了。
机械信息检索
20世纪50年代开始使用机械信息检索系统。它是一个使用各种机械设备来检索信息的机械系统。这是从人工检索到计算机信息检索的过渡阶段。1954年,V Nivard Bush博士在他的文章《正如我们所想》中首次提出了利用机械和电子技术实现信息检索的想法。他描述了一种称为“Memex”的非线性检索机器。他和美国农业部图书管理员拉尔夫·肖共同建造了一台名为“布什·肖检索机”的快速检索机。这台机器利用光电原理来检索拷贝在胶片上的文件。胶片边缘有黑白点用于编码,当它遇到要搜索的内容时就会停止。
机械信息检索系统通过改进信息存储和检索方法,使用先进的机械装置来控制机械动作,并用机械信息处理器的数据识别功能代替部分人脑。这促进了信息检索的自动化。然而,机械信息检索系统没有开发信息检索语言,而只是使用单一方法检索固定的存储形式。此外,它过于依赖设备,检索复杂且成本高,检索效率和质量都不理想。因此,机械信息检索系统很快被迅速发展的计算机信息检索系统所取代。
离线批量信息检索
20世纪60年代初,美国开始使用计算机编辑和排版检索工具,并使用计算机处理文献记录。他们将文献记录存储在磁带上并编制各种索引,实现了自动照片排版和离线批量检索服务。现阶段,“化学学科记录”和“医学索引”数据库相继产生。但由于当时计算机技术的限制,数据载体主要是磁带和磁鼓,系统仅由一台计算机和几个相关文件组成。专职情报工作者根据用户的需求和指令编制检索问题,积累一定数量的问题后输入计算机进行批量处理。然后将检索结果返回给用户。这一阶段的特点是用户不直接参与检索,而且由于数据载体是磁带和磁鼓,只能进行简单的顺序检索。
在线检索
20世纪60年代中期,以半导体为主要器件的计算机出现,大大提高了计算机的分时处理能力。同时,强大检索软件的成功开发使离线检索迅速发展为在线检索。DIALOG、ORBIT等国际知名在线检索系统开始对外提供服务。但是,因为当时的网上搜索是租用公共电话线,所以搜索费用非常昂贵。20世纪70年代,随着通信技术的发展,美国出现了Tymnet和Telnet等数据通信网络,通信成本降低,在线检索逐渐在美国普及。随后,卫星通信被用于计算机网络,世界主要计算机检索系统进入通信网络为世界各地区提供服务,从而发展成为国际在线检索。
光盘检索
20世纪80年代,随着微型计算机的广泛应用和高密度存储介质光盘的出现,计算机信息检索进入了光盘检索阶段。凭借其超媒体和大存储容量,光盘一直受到情报界的青睐。与在线检索不同,光盘检索不需要投入巨大的基础设施和复杂的技术,搜索者也不需要拥有专门的检索技术,更不用担心通信和在线打印成本。用户可以不断修正检索策略,获得满意的检索结果。除了原来的书目和摘要数据库外,全文数据库已被添加到光盘数据库中。但这种检索方式受到光盘数据库更新的限制,提供的信息具有一定的时间差。
光盘检索系统可分为单机和在线两种。单机光盘检索系统由微型计算机、光盘驱动器、光盘数据库、检索程序和驱动器组成,它可以是一个独立的系统,供单个用户检索。联机光盘检索系统是单机系统的发展。20世纪80年代末,出现了支持光盘网络的光盘塔和局域网。服务器在局域网(如图书馆内部网或校园网)中连接多个用户终端,管理和运行一套光盘数据库,使多个终端用户可以同时检索这些数据库并共享信息资源。
互联网检索
20世纪90年代,随着卫星通信技术、网络技术和多媒体技术的发展,信息检索进入了网络检索阶段。在此期间,越来越多的官方出版物被放到互联网上,各种电子期刊、电子书和网络数据库不断涌现。互联网上有书目数据库、摘要数据库甚至全文数据库,这使得信息检索非常方便,图像生动而形象。互联网使信息资源共享成为现实。其规模、复杂性和快速发展的趋势使其成为世界上强大的通信工具,世界主要检索系统已进入互联网。
智能信息检索
此外,随着人工智能技术的发展,互联网检索逐渐向语义和知识检索发展,并进入智能信息检索阶段。智能检索是将现代人工智能技术和方法引入信息检索系统,使后者具有一定程度的智能特征,并在更高层次上实现其功能。智能信息检索基于对内容的分析和理解、内容表达、知识学习和推理机制、决策等。以语义和知识检索为例,与传统检索相比,语义检索不仅可以检索到与用户关键词完全匹配的结果,而且可以扩展关键词,这可能会导致更理想的检索结果。语义检索将试图理解搜索者想要检索的整体思想,并推断搜索者的检索意图,从而检索到所需的结果。知识检索与信息检索的区别在于知识检索强调语义,而不是像信息检索那样仅仅基于字面上的机械匹配。它可以从语义和概念的角度揭示文章的内在含义。在语义和概念层面检索标引知识将提高查全率和查准率,减轻用户负担。
操作原理
信息检索的本质是用户信息需求与信息资源集合匹配的过程。因此,信息检索的一般步骤是从提出问题到解决问题的过程。这个过程需要信息检索人员从检索到的信息中识别出能够解决问题的方法并最终解决问题。信息检索的基本步骤一般包括分析检索主题、定义检索需求、选择检索工具、确定检索路径、提取检索词、编写检索表达式、实施检索、调整检索策略和输出检索结果。用户在寻找所需信息时表达需求,系统将需求与信息资源系统中的检索语言进行匹配。如果匹配成功,所需信息将出现在检索结果中;如果匹配不成功,则需要重新分析检索需求并调整搜索词进行二次检索。由于网络信息资源量大、更新快,许多信息资源的内容与元数据的描述不匹配,难以实现信息需求与信息集合的完全匹配。在信息检索过程中,需要根据检索结果适当调整搜索词,使检索结果尽可能匹配信息需求。
基本要素
信息资源
信息资源是用户满足需求的基本保障。信息资源可以包括书籍、报纸、研究报告、会议信息、专利信息、学位论文等。根据出版形式,可以包括印刷、机器可读和视听类型。用户通常通过检索工具来查找和获取所需的信息资源,检索工具是在对信息资源进行加工和整理的基础上产生的。正是由于用户的信息需求和信息资源的存在,人们开发了各种检索工具。通过使用这些工具,用户可以更有效地找到和获取他们需要的信息,从而满足他们的需求。
信息需求
用户的信息需求是信息检索的必要驱动力,他们通常通过检索条件来表达这些需求。由于个体差异,不同的用户会有不同的信息需求,即使对于相同描述的信息,不同的用户也会有不同的理解。具体体现在人对信息的敏感度、选择取向和理解识别能力上。信息需求意识包括信息认知、信息情感和信息行为三个层次,是人们学习信息知识和利用信息解决实际问题的基础。此外,用户对检索工具的认知也会影响他们对检索工具的正确选择和不同检索策略的制定。
信息采集
信息获取是信息检索的目标。要实现这一目标,需要了解各种信息来源,掌握信息检索方法,熟练使用检索工具,正确评价信息检索效果。它体现在人们应用信息存储机构(如图书馆、互联网和各种光盘数据库)的能力上。当用户确定合适的检索工具时,他们需要选择符合其信息需求的搜索词和字段来构建检索条件。设置适当的检索条件后,检索工具将执行查找目标文献的任务。不同的检索策略会导致不同的结果,关键步骤是检索条件的设置。
检索工具的质量直接关系到检索任务的质量,这包括用户能否在短时间内以较少的成本找到足够的线索和目标信息的原始信息。根据美国国家基金会在化工部的调查,科研人员的总工作时间分配为:信息收集占50.9%,实验论证占32.1%,数据处理占9.3%,计划和思考占7.7%。因此,掌握信息获取技术可以使研究人员以最快、最准确的方式获得所需信息。
信息利用
检索信息资源的目的是为了利用信息资源,检索效果直接关系到用户的信息需求。事实上,信息资源是一种可再生资源,在工程和科技领域可以根据不同的目标使用相关信息。一方面,利用信息会开阔我们的视野,避免重复别人的研究工作;另一方面,它还可以将现有信息转化为新知识。然而,由于在创建各种信息线索时缺乏统一的标准,不同的信息提供者往往根据自己的习惯创建信息线索,导致许多符合用户需求的信息线索无法找到。此外,一些信息线索虽然符合用户的检索条件,但并不完全符合用户的信息需求。
主要类型
按检索方式
人工信息检索:人工信息检索是一种传统的检索方法,主要利用各种工具书,如文摘、索引、手册、目录卡片等来检索信息。这种检索方法来源于文摘索引和图书馆参考咨询服务。虽然人工信息检索不需要特殊设备,方法简单灵活,易于人们掌握,但它有一些明显的缺点。没有机械设备的帮助,检索过程非常耗时费力,容易造成漏检和误检。同时,由于纯手工操作,对操作人员的知识储备和专业技能要求较高。
数字信息检索:数字信息检索主要指计算机检索。自1946年第一台计算机诞生以来,计算机在信息检索领域的应用不断取得突破。随着网络技术和多媒体技术的出现,信息检索技术也在不断更新和变化。随着新媒体时代的到来,数字信息检索方式也增加了微信检索、微博检索和各种应用软件内置检索的功能。这些新的检索方法使人们能够更加方便快捷地获取所需信息,同时使信息检索更加智能化和个性化。
根据检索对象
文献信息检索主要关注文献的特征,旨在通过各种检索工具(如文摘数据库、索引数据库、书目数据库等)发现文献线索。),并根据这些线索找到原始文献。这种类型的信息检索涉及大量数据,是信息检索的主要组成部分。文献检索是一个探索相关性的深层过程,它不能直接给出用户问题的直接答案。然而,通过文献信息检索,科研用户可以深入分析特定主题的主要内容,并为项目研究提供重要参考。
数据信息检索:数据信息检索以数据为主要对象,其目的是通过特定的检索工具(如数值数据库和统计数据库)找到特定的数据,如文献中的特定数据、公式和图表,或某种物质的化学分子式。
事实信息检索:事实信息检索以事实为主要检索对象,旨在通过特定的检索工具(如指南数据库和全文数据库)找到特定的事实性和知识性答案。与文献信息检索不同,数据信息检索和事实信息检索都是确定性检索,用户可以直接使用检索到的信息,从而大大节省了研究人员的时间,提高了研究效率。
按组织模式划分
全文检索:全文检索是指检索存储在数据库中的整本书和文章中的任何信息。用户可以根据个人需求获取相关章节、段落等信息,同时还可以进行各种频次统计和内容分析。
超文本检索:超文本是一种通过超链接将不同空间的文本信息组织起来的网络文本。它由若干信息节点和一条表示节点间关联的链组成,形成一个具有特定逻辑结构和语义关系的非线性网络。超文本检索是对存储在每个节点中的信息和由信息链组成的网络信息的检索。在超文本检索中,理解中心节点之间的语义连接结构非常重要,这依赖于系统提供的用于图形显示和节点浏览查询的工具。
超媒体检索:对文本、图像、声音等媒体信息的检索是对超文本检索的补充。
检索语言
在搜索时,用户需要将搜索问题转换为系统可以接收的语言,这就是搜索语言。检索语言是用来描述检索系统中信息的内部或外部特征以及表达用户信息问题的特殊语言。常见的检索语言有分类语言和主题语言。
分类语言
分类语言是用分类号和相应的分类条目名称表示信息主题概念,并根据学科性质对信息进行系统分类和组织的检索语言。其中,最常见的是系统分类语言,它是按照学科体系从综合到一般、从复杂到简单、从高级到低级的顺序逐步开发的。常用的检索语言包括《中国图书馆分类法》、《国际十进分类法》、《美国国会图书馆分类法》、《国际专业分类法》等。分类语言可以更好地反映主题的系统性,通过集中同一主题的文档有助于用户从主题或专业的角度进行搜索,但用户需要知道概念对应的分类号。
中国图书馆分类法
《中国图书馆分类法》,简称《中图法》,是我国各类图书馆和情报单位广泛使用的综合分类法。《中国图书馆分类法》是建立在科学分类和图书特征基础上的系统分类。它分为五个基本类别,再细分为22个基本类别。每个类别根据学科的具体内容逐层扩展,逐级形成层次分明的科学体系。字母和数字的不同组合代表不同的类别,其中特别的一个是“工业技术”使用两个字母代表二级类别。
国际十进分类法
通用十进分类法也被广泛称为通用十进分类法。它是世界上用户数量最多、影响最深远的最大文档分类。其依据来自美国的杜威十进分类法(DDC),在科技论文分类中应用广泛。UDC使用简单的阿拉伯数字作为符号。第一类用单个数字标记(0-9),第二类用两位数标记(00-99),第三类用三位数标记(000-999)。如果需要进一步细分,将在每个数字后添加一个小数点。
国际专利分类
IPC分类表是根据1971年3月24日通过的《斯特拉斯堡国际专利分类协定》编制的,是世界上唯一的通用专利文献分类和检索工具。世界知识产权组织(知识产权组织)负责定期修订分类表。世界上100多个国家和地区以及世界知识产权组织《专利合作条约》国际局都在使用IPC分类法,该分类法涵盖了世界上95%以上的专利文献。国际专利分类系统的架构如下:该系统根据技术主题设置类别,并将整个技术领域分为五个不同的级别,即节、类、子类、组和子组。
主题语言
主题语言又称关键词语言,不同于以学科体系为中心的分类语言,而是用名词术语来表达信息的特征。主题语言的检索直接、直观,对某一主题信息的检索效率高。根据编写方法、规则和规范的不同,话题语言一般分为标题语言、关键词语言、单元语言和叙事语言。
标题词语言
标题语言是早期的主题语言,用规范的词汇来表达事物的概念。这些词选自自然语言,包括单词、短语或词组。标题叙词表是根据标题词的语言编制的词汇,包含各种标题词及其使用规律,揭示词与词之间的逻辑关系,是信息标引和检索的重要依据。然而,由于标题词汇表中主题词和副标题词的固定组合,索引和检索在一定程度上受到限制。因此,标题语言已经不能满足现代信息检索系统的发展需要。例如,标题叙词表EI (SHE)已经不能完全满足工程索引(EI)的检索要求。所以工程叙词表(缩写为EIThesaurus)取代了EI叙词表的位置。
关键词语言
关键词语言是一种自然语言,直接来源于信息的标题、摘要和全文,对表征文献的主题内容具有实质性意义。除了禁用词(比如一些冠词、介词、副词、连词),所有概念上有意义的词都可以作为关键词。以关键词为词条的检索语言称为关键词语言。常用关键词可以直接表达事物的概念,不受词库的控制,能及时反映新事物和新概念。关键词语言在计算机检索中得到了广泛的应用。撰写学术论文和毕业论文时,会在期刊的格式要求中列出3~5个关键词,方便信息检索。
单位词语言
单位词也称为元词,是能够表达主题的最小的、不可分割的词汇单位。它是由标题词发展而来的检索语言。单位词相对独立,但特异性低,对精度影响较大。
叙述/描述性语言
描述性语言是以自然语言为基础,经过标准化后,通过词语的组合来识别主题的检索语言。它借鉴了其他检索语言的优点,并进行了改进。在直观性、特异性和兼容性方面,叙述语言优于其他检索语言。
检索技术
布尔逻辑检索
布尔逻辑检索是检索系统中应用最广泛的检索技术之一,也是最早的检索理论之一。其理论基础是集合论和布尔逻辑。它使用布尔逻辑表达式来表达用户的检索需求。布尔逻辑运算符有三种基本运算符:AND、OR和NOT。这些操作符可以用来连接两个以上的搜索词,以表达搜索需求。
拦截检索
在西方语言中,一个词的不同形式往往只有语法意义,对使用者来说都是一样的。因此,为了减少漏检,大多数检索系统都采用截词检索的方法。截取检索是指截取搜索词,只检索其中的一部分。这种截断操作可以通过使用特定的截字符号来执行,例如“*”、#”和“$”。
受限检索
在文档记录中,当同一个词出现在不同的位置时,它在表达文档主要内容时所起的作用会有所不同。常见的字段限定符包括“in”,“”和“=”。其中“in”是一个字段限定符,表示检索的内容必须出现在特定的字段中。例如,“洛杉矶的英语”意味着搜索结果的语言仅限于英语。和“.”和“=”分别表示在特定字段中查找单词或字段的内容。
位置检索
位置检索是指使用位置运算符来指定搜索词在原始文档中的相邻位置关系。位置运算符都隐含了逻辑运算符AND的含义,即它们所连接的两个搜索词(或搜索表达式)必须出现,但位置运算符还进一步定义了连接的两个搜索词(搜索表达式中单词的位置关系)。
倒排索引
倒排索引是一种在特定应用中根据属性值查找记录的索引方法。在索引表中,每一项都包括一个属性值和具有该属性值的每条记录的地址。因为记录的位置是由属性值决定的,而不是由记录本身决定的,所以它被称为倒排索引。
散列索引
HashIndex是一种特殊的索引,它基于哈希表。哈希索引只对精确查找有用,适合使用索引中的每一列。对于每一行,存储引擎都会计算被索引的哈希代码。哈希码是一个小值,可能和其他行的哈希码不一样。存储引擎将哈希代码保存在索引中,并将一个指针指向哈希表中的每一行。如果多个值具有相同的哈希代码,索引会将行指针存储在链表中哈希表的相同记录中。
查询扩展
查询扩展的目的是用与用户检索意图一致的词对初始的、不成功的查询进行扩展,或者生成一个最有可能检索到更多相关文档的相关查询。当用户提交的原始查询较短且有歧义,需要话题相关词的帮助时,查询扩展机制对检索性能的提升作用显著,这也符合微博检索面临的困难。查询扩展的基本思想是在信息检索过程中通过与用户的交互来提高最终的检索效果。
Web查询处理
Web查询处理是搜索引擎信息检索的关键步骤,也是用户与搜索引擎交互的核心环节,主要体现在以下两个方面:
首先,为用户提供准确的查询信息是搜索引擎的重要研究方向。由于查询的特点,目前基于关键词匹配模式的搜索引擎不能完全满足用户的查询需求。此外,随着搜索引擎中结构化和半结构化数据的日益增多,对这些数据资源进行检索可以得到更直接、更准确的结果。
其次,从提供信息到提供服务的转变是当前搜索引擎的一个发展趋势。搜索引擎致力于成为提供信息、资源(如音频、视频、图像等)的服务平台。)和互动应用(如地图、购物、本地生活服务、新闻、社交等。)在网上。这种基于服务平台的搜索引擎迫切需要准确理解用户的查询需求,为用户提供更加个性化、场景化的精准信息搜索服务。
检索模型
布尔型
布尔检索模型是一种经典的信息检索模型,广泛应用于传统的信息检索系统中。它将文档表示为布尔表达式,然后通过与用户查询的表达式进行逻辑比较来检索相关文档。在布尔检索模型中,用户可以使用逻辑运算符(AND)和(OR)和(NOT)将多个关键字连接成一个逻辑表达式来提交查询。匹配函数由布尔逻辑的基本规律决定,通过文档表达式与用户查询表达式的逻辑比较进行检索。检索到的文档或者与查询相关,或者与查询无关。
向量空间模型
向量空间模型(Vector Space Model,VSM)是Salton于1975年提出的信息检索理论框架,旨在解决布尔模型中二进制权重的局限性。VSM使用特征词的表达方式,使用TF-IDF($ TERM-frequency/inverse document frequency)为特征词分配权重,使用倒排文件建立索引,使用余弦夹角作为距离度量,使用查全率和查准率来评价检索系统的性能。这些成果已成功应用于基于关键词的中英文信息检索。
向量空间模型最大的优点是在知识表示上有很大的优势。在向量空间模型中,通过从文档资源中提取它们的特征词并以某种方式对特征词进行加权,将文档资源转换成一组特征向量。与文档资源的表示方法类似,用户简档也可以用向量空间模型来表示,即基于相同的特征词将用户简档表示为n维空间中的向量,向量中的每个一维元素由对应的特征词及其权重组成,权重值表示用户对特征词的兴趣。
概率模型
概率模型是基于概率排序原理的信息检索方法。它根据与查询相关的概率对文档资源进行排序,将最有可能的文档资源放在最前面。概率模型旨在解决信息检索中相关性判断的不确定性和查询信息表示的模糊性。在概率模型中,我们可以通过概率计算来分析特征词之间的依赖关系以及特征词与文档资源之间的关联关系。这有助于预测文档与用户查询的相关概率,进而根据相关概率对检索结果进行排序。
检索方法
根据内容特征
主题方法:主题法是一种根据文档内容的主题来查找文档的方法。它以确定的主题词作为搜索条目,按照主题词顺序进行搜索。通常利用文献检索工具中的主题目录和主题索引来实现。选择主题词的参考系统是词库。用主题法检索文献的优点是直观,适合于特征检索,不需要考虑文献的主题体系。
分类方法:分类方法是一种根据主题类别检索文档的方法。它以分类号(或类别)为检索条目,按照分类号(或类别)的顺序进行检索。通常,使用文献检索工具中的分类目录和分类目录,基于参考分类系统,例如分类和分类目录。使用分类方法检索文献的优点是同一学科领域的文献可以一起检索,便于系统检索特定学科领域的研究资料。通过主题分类系统,可以快速定位相关文献的类别,提高检索效率。然而,分类方法存在一些缺点。新兴学科、交叉学科、边缘学科在分类时往往难以明确识别,给查找带来不便。另外,一定要了解学科分类体系的构建,以及概念转化为分类号的过程,否则容易出错,导致漏检。
根据外观特征
作者方法:按作者姓名查找文献是以已知作者(个人作者、团体作者或公司、机构)的姓名为检索入口,通过作者目录、个人作者团体作者索引等途径查找所需文献的方法。
所有权方法:根据文章或书刊的标题进行检索,是根据标题(包括标题、期刊、文章)查找文献的一种方式。这种方法将标题作为检索条目。只要知道文档的标题,就可以通过文档的标题索引(目录)找到所需的文档。
序列号方法:按文献序号检索是利用序号(如专利号、标准号、报告号、合同号、文献登记号或人存号等)查找文献的一种方式。)出版时编为检索入口。在序号索引中,只是数字的序号按数字大小排列,字母和数字混合的序号先按字母顺序排列,再按数字大小排列。如果文献号已知,使用这种检索方法不仅简单,而且不易造成误检或漏检。通过文献序号进行检索,可以准确找到所需文献,提高检索的准确性和效率。根据文献序号进行检索时,要保证所使用的索引或数据库完整可靠,避免因索引或数据库不完整而造成漏检或错检。
引用方法
通过参考文献或附在文献末尾的引文检索工具找到被引用的文献。
搜索方法
追溯性法律:追踪法可分为前向追踪法和后向追踪法。
向前追踪法:前向追溯法是一种传统的获取文档的方法,它利用相关文档所附带的参考文档进行回溯搜索。因为附在作者文献上的参考文献一般比作者文献早5-10年,所以只能用回溯法检索作者文献之前5-10年内的文献。此外,由于作者文献所附参考文献数量有限,提取年份不连续、不系统,参考文献较多时,可能会混杂一些参考价值不大的文献,影响文献检索的效果。因此,只有在文献检索工具不全或计算机网络环境不好的情况下,才会采用这种方法。
反向追踪法:回溯法又称引文法,是利用文献检索工具引文索引(如美国出版的《科学引文索引》)对文献进行追溯的方法。引文索引是按照期刊论文所附参考文献的作者姓名的顺序排列的。在该索引中,引用文献的作者及其文献来源按年份列在被引用作者的名字下。如果要查找被引用文献的标题,可以重用源索引。引用文献的标题和寻找原文的线索可以在源索引中找到。来源索引中所列的引用文献,就其内容而言,必须比被引用文献新,有些论点具有创新性。如果我们继续从引用的文件中搜索,我们可以找到一些比原始文件内容更新颖的相关文件。这种方法可以避免文献分类和主题检索的困难。有时候,只要知道一篇论文的作者,也可以检索到所需的文献。此外,检索边缘学科和交叉学科的文献也是一种非常有效的方法。
工具方法
工具法是利用文摘、索引、标题等各种文献检索工具(文献数据库)查找文献的方法。因为这种方法是文献检索中最常用的方法,所以也叫常用方法。工具法有三种方法:直接检查、反向检查和抽查。
后续方法:顺序搜索法是一种按时间顺序从前到后查找文档的方法。它从课题研究开始,利用文献检索工具逐年查找,直到最近。顺序搜索法的优点是漏检少,找到的文档可以及时筛选,所以查全率和查准率都比较高。其缺点是检索工作量比较大,需要一套完整的文献检索工具和充足的检索时间。用这种方法检索到的文献比较系统有助于了解该学科的产生、演变和发展。
向后搜索方法:向后搜索法与向前搜索法相反,即从近期逐年向长期搜索。反向搜索法的检索效率比正向搜索法高,耗时少,但能检索到内容新颖的文档。
测试方法
抽查法是根据学科发展特点,选取学科发展较快、文献发表较多的年份进行集中检索的方法。它的优点是检索时间相对较短,但可以获得更多的相关文档。但使用抽查法要求检索者熟悉学科发展特点,了解学科文献集中发表的时间和范围,才能达到最佳检索效果。
交替法:交替法又称循环法,实际上是回溯法和工具法的结合。根据组合的不同,可分为复合交替法和区间交替法两种。
复合交替法:复合交替法是一种结合了工具法和回溯法的文献检索方法。首先利用文献检索工具找到若干有用的文献,然后利用这些文献所附参考文献提供的线索进行回溯,扩大搜索范围(即第一种工具法和第二种追溯法)。或者,先掌握一批文献所附参考文献的线索,分析各种检索途径(如作者途径、分类途径、主题途径等。)适合查找这些文献,然后使用相应的文献检索工具扩大检索范围,获取新的文献线索(即第一种回溯法和第二种工具法)。
区间交替法:区间交替法是一种结合工具法和回溯法的文献检索策略。首先通过文献检索工具找到若干有用的文献,然后利用这些文献所附的参考文献进行回溯检索,扩大检索范围。之后跳过一定时间(一般是5年),再用工具法找出一批新的有用的文献,再回溯。这个循环用于检索。之所以可以跳过五年,直接从工具书上找文献,是因为根据文献出版的特点,重要文献会在五年内被引用,也就是说会出现在参考文献中。
应用领域
文档检索:文献检索(Archie)为用户提供了搜索和获取电子目录资源的功能。它实际上是一个大型数据库,以及与这个数据库相关的检索方法。文档检索最初是由麦吉尔大学的学生开发的计算机科学项目。文档检索的核心是数据库,数据库中包含了可以通过FTP获取的资源信息,包括文件名、文件长度、计算机名、文件存放的目录名等详细信息。文档检索数据库大约每月与每个站点进行一次FTP连接,并生成站点提供的内容列表。然后,这个数据库将被发布到各种文档检索服务器,以便每个人都可以使用它进行查询。
网络搜索:在众多的网络主机和网页中,如果你想链接到某个特定的网站,但又不知道网址,你必须先搜索网页。一般来说,网络搜索是利用门户网站中的搜索引擎来完成的。只要在搜索引擎的查询栏输入关键词,就可以查询到相关的网站和网页。Web索引技术是按照一定的逻辑规范或排列顺序组织和管理文献数据库的方法。应用网页搜索的本质特征是只揭示网页内容的大致主题和网页来源的“来源或线索”信息。对于数据组织或用户查询,web搜索并不直接提供网页本身的完整内容信息。搜索引擎利用网页搜索的主要作用是为广大网络搜索用户快速获取海量网页全文内容提供准确高效的线索引导。
社交媒体分析:社交媒体数据挖掘源于人们对社交媒体数据分析的需求。社交媒体上的用户,因为自身的“社交属性”,形成了一个网络社会。在这个社会中,用户之间有许多不同类型的“交流”,包括一般的交谈,给予评价,分享自己的状态更新,以及对他人的分享和信息表示赞赏。通过在社交网站上收集用户信息,营销人员可以更好地了解客户行为、目标受众细分和受众粘性。