欢迎您访问江苏自考网!  今天是
当前位置: 网站首页 > 考试大纲 >

江苏《12577智能数据处理》自学考试大纲:第4章数据挖掘

2015-06-15 09:57来源:江苏省教育考试院
第4章  数据挖掘
一、学习目的与要求
本章主要学习数据分析中的数据挖掘,以数据挖掘过程和算法为主线,介绍数据挖掘的概念、代表性预处理和挖掘方法。数据挖掘建立在多个学科的基础之上,是人工智能和数据库领域的重要内容。传统的数据挖掘主要针对趋势和行为自动预测、关联、聚类、关联规则、特征、变化和偏差分析以及Web挖掘等方法,而本章迎合当前数据挖掘方法和技术不断向支持大数据分析方向发展、衍生的趋势,针对非结构化数据大量出现的实际情况,数据分析和处理技术上,增加了这部分数据的挖掘方法和技术的内容。预处理、挖掘、评估和应用,是数据挖掘的基本流程。在学习中,要把握住数据挖掘的主线进行研究与掌握。
通过本章学习,要求学生数据挖掘的概念,了解数据挖掘的内涵,领会数据挖掘的任务,掌握数据挖掘的过程,领会数据清理的基本思想,掌握数据清理的三个步骤,领会相似重复数据、不完整数据、错误数据的数据清理方法,了解数据分析的两种方法,了解数据分类分析和数据聚类分析的概念和目的。总体来说,要了解以下四个问题:第一,通过填补数据、消除异常数据、平滑噪声数据以及纠正不一致的数据,来保证数据质量,这是数据清理问题,是数据挖掘和数据仓库构建预处理的重要内容;第二,在给定其他变量的条件下对感兴趣的未知变量值做出预测,这是数据的分类问题;第三,将数据对象分解或划分为多个类或簇,使同一个类中的数据对象之间具有较高的相似度、但与其他类中的数据又有较大的差异,这是句聚类问题;第四,通过实验来测试数据挖掘算法的性能,验证算法的有效性和有用性,这是算法评价问题。
本章属于数据科学的前沿知识部分,涉及到多个交叉学科和多种基础知识,作为数据处理的延伸性内容,对学生的考核要求不高,以基本概念、基本知识的识记,相关技术的简单领会为主。
二、课程内容
1. 领会数据挖掘前言
2. 领会数据挖掘基本的内涵和任务
3. 掌握数据挖掘的过程
4. 了解数据质量管理的基本思想
5. 领会数据清理流程
6. 掌握数据清理的三个步骤
7. 领会相似重复数据、不完整数据、错误数据的数据清理方法
7. 了解数据分析的两种方法
8. 了解数据分类分析的概念和目的
9. 了解数据聚类分析的概念和目的
三、考核知识点与考核要求
1. 数据挖掘概述
识记:数据挖掘的过程。
领会:数据挖掘的内涵、数据挖掘的几类主要任务、数据挖掘的过程中确定分析对象、数据准备、数据挖掘、结果评价、结果应用、数据预处理的几个步骤。
2. 数据清理
识记:数据质量、全面数据质量管理及其四个环节的任务。
领会:影响数据质量的几个方面因素、数据清理的步骤、 数据清理方法中的相似重复数据清理(问题提出、识别、清理算法)、不完整数据清理(问题、填充方法及举例)、错误数据清理(问题、清理步骤)。
3. 数据分析
识记:聚类的概念、分类的概念。
领会:数据分类的目的、聚类的目的。
四、本章重点、难点
本章重点为数据挖掘的过程,数据清理流程和数据清理方法。难点为相似重复数据、不完整数据、错误数据的数据清理方法。
上一篇:江苏《12577智能数据处理》自学考试大纲:第3章XML数据管理

下一篇:江苏《12577智能数据处理》自学考试大纲:第5章数据仓库