江苏《12577智能数据处理》自学考试大纲:第2章信息检索
2015-06-15 09:56
来源:江苏省教育考试院
第2章 信息检索
一、学习目的与要求
本章主要学习数据处理中的信息检索技术。信息检索是一个具有鲜明交叉研究特性、与数据科学相关的学科领域,本章从计算机科学领域的视角,面向信息检索工具的原理与方法,针对信息检索领域中的三个关键问题,讨论信息检索建模、系统设计与实现的支持技术。
通过本章学习,要求学生熟悉三个方面的知识:首先掌握如何从信息检索问题的核心和本质出发,忽略实现细节,构建以信息分析为中心的模型,这是信息检索建模问题,也即信息检索的基础;其次学会根据自然语言文本中词汇的频率和分布情况进行文本信息的预处理、构建检索模型、实现高效准确的文本检索,这是文本信息检索问题,这部分内容是信息检索和搜索引擎的主要组成部分;第三是针对当前以用户为中心的Web2.0时代,Web资源具有海量数据、分散无序、动态变化、形式多样、非结构化或半结构、质量控制缺乏、使用方式个性化等特点,要求学生学会构建有效的Web搜索引擎,这是Web信息检索问题,也是信息检索技术的重要应用领域;最后,要求学生熟悉衡量检索系统效率的性能指标,了解各种检索技术优劣的性能比较法、理解改进现有检索系统和开发新兴应用领域的技术,这是信息检索评价问题,也是信息检索领域一项有前景的研究内容。
本章是课程的重点和难点所在,要求学生高度重视本章知识内容的熟悉和掌握。对相关知识从识记概念到领会技术和算法内涵到掌握计算方法进行应用处理都要全面深入学习和掌握。
二、课程内容
1. 掌握信息检索的基本概念和基本原理
2. 领会信息检索的相关性学科和研究内容
3. 领会信息检索的发展史
4. 掌握信息检索系统的形式表示
5. 掌握信息检索中的布尔模型和向量空间模型
6. 领会经典概率模型
7. 掌握文本信息检索中词汇的频率域数量分布规律
8. 掌握文本信息预处理
9. 掌握文本信息的倒排索引
10.掌握布尔检索
11.领会相关反馈和提问式扩展
12.掌握Web信息搜索的概念
13.掌握Web搜索引擎的工作原理
14.掌握Web搜索引擎的关键技术
15.掌握信息检索评价指标
16.掌握单个查询的评价指标
17.掌握多个查询的评价指标
18.领会面向用户的评价指标
19.领会搜索引擎性能评价指标
20.领会TREC评测
三、考核知识点与考核要求
1. 信息检索概述
识记:信息检索的基本概念、信息检索的基本原理、信息检索的基本流程(两个步骤)。
领会:信息检索的主要研究内容、信息检索的发展史。
2. 信息检索模型
识记:信息检索系统的形式表示(四元组和解释)、词频的概念、匹配函数的概念。
领会:匹配函数的选择所考虑的原则、布尔模型的思想、布尔模型的优缺点、词的Zipf分布、向量空间模型的优点、经典概率模型的基本思想、经典概率模型的基本假设、概率模型的优点。
应用:布尔模型中利用析取范式和匹配函数求与提问式相关的文档、求解包含若干个文档的索引词集所对应的向量文档、词的tf/idf权重、匹配函数的计算及检索结果的确定与排序。
3. 文本信息检索
识记:词汇频率与齐普夫分布模型,齐普夫定律、词汇数量与Heaps分布模型、倒排文件的概念、布尔逻辑运算符、检索提问式等价处理方法。
领会:文本信息预处理操作、文本信息的倒排索引、倒排索引的建立、倒排索引的使用、倒排索引的维护、多种布尔运算符下,检索系统进行检索运算的规则、逆波兰式处理的基本思想、相关反馈的步骤。
应用:倒排索引的使用(利用倒排索引查找单词)。
4. Web信息检索
识记:Web信息搜索的概念、Shingle的概念。
领会:Web搜索引擎的工作原理、数据收集和预处理的过程、数据检索和信息挖掘的过程、数据预处理中的网页去重(发现重复或近似网页对搜索引擎的好处、网页去重所包含的技术要点、网页去重方法分类)、使用Shingle方法判断重复网页的步骤、数据检索中的结果排序、基于网页链接结构分析的相关排序、PageRank算法(特点、基本观点、计算公式)、HITS算法(两类网页、基本思想、HITS的不足之处)、PageRank算法和HITS算法的比较(相似、差异)。
应用:基于PageRank计算各个网页的PR值。
5. 信息检索评价指标
识记:信息检索评价的基本步骤、单个查询的评价指标及公式(查全率和查准率、查全率查准率曲线、调和平均数、E测度指标)、多个查询的评价指标及公式(平均查准率、平均查准率均值、微平均查准率)、面向用户的评价指标(覆盖率、新颖率、相对查全率、查全努力)。
领会:评价和比较检索系统的检索性能时所需要的条件、搜索引擎性能评价指标、TREC评测。
应用:单个查询的查全率计算、单个查询的查准率计算、多个查询的平均查准率均值计算、多个查询的微平均查准率计算。
四、本章重点、难点
本章重点为信息检索模型中的布尔模型、向量空间模型,文本信息检索中的文本信息预处理、文本信息的倒排索引、布尔检索,Web信息检索中Web搜索引擎的工作原理和关键技术、信息检索评价指标、单个查询和多个查询的评价指标。本章难点为信息检索模型中的布尔模型、向量空间模型,文本信息检索中的文本信息预处理、文本信息的倒排索引、布尔检索。