帮助中心 > 操作文档 > 功能说明 > 系统组件

系统组件


TipDM大数据挖掘建模平台—python系统算法使用.pdf




1. 输入\输出(下载)

1.1 输入源(下载)

图标:

1.png

描述:读取表数据组件。当输入表名后,会自动读取表的结构数据,在字段信息中可查看。当数据源是来源于数据库时,表字段修改后,如增加或删除某个字段,在工程内是无法时时更新的,需要用户重新同步该数据。

1.2 输出源(下载)

图标:

2.png

描述:将数据表中的数据导出到指定的数据库中。

2. 预处理

2.1 缺失值处理(下载)

图标:

1.png

描述:缺失值处理是数据预处理的一部分,由于采集的数据存在一些属性值的缺省,如果不做处理,将直接影响后续算法的挖掘效果,严重时甚至得到错误的结果。处理方法有删除缺失值、中位数插补、众数插补、均值插补、线性插值、多项式插值。

2.2 记录选择(下载)

图标:

2.png

描述:记录选择是对数据表的行进行筛选,只留下满足条件的数据行。

2.3 表合并(下载)

图标:

4.png

描述:表合并是指两张表通过行或列合并成一张表,不需要关键字段。

2.4 表连接(下载)

图标:

5.png

描述:表连接是指两张表通过某列进行关联,合成一张表。

2.5 平稳性检验(下载)

图标:

6.png

描述:平稳性检验是为了确定序列是否存在确定趋势,否则将会产生“伪回归”问题。伪回归是说,有时数据的高度相关仅仅是因为二者同时随时间有向上或向下的变动趋势,并没有真正联系。这样数据中的趋势项,季节项等无法消除,从而在残差分析中无法准确进行分析。

2.6 纯随机性检验(下载)

图标:

7.png

描述:纯随机性检验又称为白噪声检验,是专门用来检验序列是否为纯随机序列的一种方法。纯随机序列的序列值之间没有任何相关关系,也就是没有什么统计规律可言,各项之间也就没有任何关联,这样的序列没有挖掘的意义。

2.7 数据离散化(下载)

图标:

9.png

描述:某些模型算法,特别是某些分类算法如ID3决策树算法和Apriori算法等,要求数据是离散的,此时就需要将连续型特征(数值型)变换成离散型特征(类别型),即连续特征离散化。常用的离散化方法主要有三种:等宽法,等频法和通过聚类分析离散化(一维)。

2.8 数据拆分(下载)

图标:

11.png

描述:数据拆分对全量数据进行简单随机抽样,将数据拆分为训练数据和测试数据。

2.9 数据标准化(下载)

图标:

16.png

描述:数据标准化处理是将数据按比例缩放,使之落入一个小的特定区间。

2.10 衍生变量(下载)

图标:

17.png

描述:衍生变量是指将一列或多列通过基本运算生成新列。

2.11 修改列名(下载)

图标:

18.png

描述:修改列名是指对数据表中的字段名进行修改。

2.12 修改类型(下载)

图标:

19.png

描述:修改类型是指对数据表中的字段类型进行修改,目前平台提供的类型有数值型(numeric)、字符型(text)、日期(date)、时间(timestamp)。

2.13 排序(下载)

图标:

10.png

描述:根据某一列的顺序将所有数据重新排序。

2.14 记录去重(下载)

图标:

8.png

描述:记录去重是去除数据表中的重复的行数据,只保留其中一行数据。

2.15 频数统计(下载)

图标:

12.png

描述:频数统计对某种特征的数(标志值)出现的次数进行统计。

2.16 Python脚本(下载)

图标:

20.png

描述:Python脚本是指可直接将Python脚本按照一定格式粘贴至脚本区作为组件运行。

3. 统计分析

3.1 卡方检验(下载)

图标:

1.png

描述:计算单向卡方检验。

3.2 相关性分析(下载)

图标:

2.png

描述:相关性分析是指对两个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。

3.3 正态性检验(下载)

图标:

3.png

描述:检验观测值是否服从正态分布。

3.4 主成分分析(下载)

图标:

4.png

描述:指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。

3.5 因子分析(下载)

图标:

5.png

描述:因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量,是用来分析隐藏再表面现象背后的因子作用的一类统计模型。

3.6 全表统计(下载)

图标:

6.png

描述:全表统计是对选取的各列进行描述性统计,并检验是否存在缺失值。

4. 回归

4.1 线性回归(下载)

图标:

1.png

描述:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

4.2 CART回归树(下载)

图标:

2.png

描述:使用Cart决策树算法的回归树。

4.3 SVR(下载)

图标:

3.png

描述:SVR(支持向量回归)是使用支持向量机解决回归问题。支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时,才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。

4.4 KNN回归(下载)

图标:

4.png

描述:KNN进行回归。

5. 分类

5.1 SVM(下载)

图标:

1.png

描述:SVM(支持向量机)方法是通过一个非线性映射,把样本空间映射到一个高维乃至无穷维的特征空间中使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。

5.2 KNN(下载)

图标:

2.png

描述:KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

5.3 朴素贝叶斯(下载)

图标:

3.png

描述:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

5.4 CART决策树(下载)

图标:

4.png

描述:CART(Classification And Regression Tree)算法是一种决策树分类方法。它采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。

5.5 BP神经网络(下载)

图标:

5.png

描述:BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。

5.6 逻辑回归(下载)

图标:

6.png

描述:逻辑回归是广义线性模型的一种。广义线性模型是一般线性模型的推广,即因变量均值的函数与解释变量是线性关系,即 g(E(Y))=βX+ε。其中g 被称为连接函数。连接函数为 Logit 函数的广义线性模型就被称为逻辑回归。逻辑回归方程用解释变量预测事件发生的概率,所以可以用来处理分类问题。

6. 关联规则

6.1 Apriori(下载)

图标:

1.png

描述:Apriori是关联规则里一项基本算法,目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis)。

6.2 FP-growth(下载)

图标:

2.png

描述:FP-growth将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。

7. 聚类

7.1 K-Means(下载)

图标:

1.png

描述:K-Means是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。

7.2 密度聚类(下载)

图标:

2.png

描述:密度聚类的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。对于噪声样本,其簇标记为-1。

7.3 层次聚类(下载)

图标:

3.png

描述:层次聚类也叫系统聚类,分类单位所处的位置越低,其所包含的个体越少,但这些个体间的共同特征越多。

8. 时间序列

8.1 ARIMA(下载)

图标:

1.png

描述:ARIMA模型全称为自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。

9. 模型

9.1 模型评估(下载)

图标:

1.png

描述:针对分类算法而言,可对训练集构造的模型使用测试集进行评估。

9.2 模型预测(下载)

图标:

2.png

描述:对分类算法模型进行预测。