吴恩达《机器学习》课程总结(15)异常检测

  • 时间:
  • 浏览:0

(最后一项应该把1改成n)

以上你一种生活 妙招 叫密度评估:

(2)高斯分布的概率密度函数:

将正常的样本绘制成图表(假设还还都能否),如下图所示:

(1)首先求出每个形态学 的均值和方差:

多元高斯分布计算过程(计算均值、协方差、概率密度函数):

30000台正常作为模型构建

30000台正常和10台异常作为交叉验证集

(1)异常检测是假设形态学 符合正态分布(都是当然不还还都能否用,但不好),故须要将非正态分布的形态学 转上加正态分布,类似使用对数函数x=log(x+C),其中C是非负常数,常用1;不可能 x=xc,c为0-1之间的另有一一1个 分数。下图以后另有一一1个 通过对数转换得到的正态分布

简要的讲以后先用数据集计算均值和协方差,或者计算p(x),利用测试数据带入到p(x)中求得的值与阈值作比较,小于阈值则判断为异常。

均值影响水平移动;方差越大,分布越矮胖,方差越小,分布越瘦高。

(4)原高斯分布模型(特例)与多元高斯分布模型(一般)的比较:

(2)获取新数据完后 根据模型计算密度(注意此处算的是密度,而都是概率):

以下的三维图是表示密度估计函数:

(1)高斯分布也称为正态分布,其记为:

(5)形态学 之间具有相关性时,除理妙招 有二,其一通过 多元高斯分布,其二通过形态学 组合形成新形态学 。

(3)根据设定的判断边界,当p(x)小于判断边界是则判别为异常。

通常还还都能否通过其他相关形态学 的组合获得很好的新形态学 ,如在检测数据中心的计算机情形,使用CPU的负载与网络通信的比例作为新的形态学 ,该值异常大时因为老出问题报告 图片。

(2)误差分析:另有一一1个 常见问题报告 图片是其他异常的数据不可能 也会有较高的p(x)值,因而被认为是正常的,你一种生活 情形下还还都能否做误差分析,从中找到其他新形态学 ,是异常的p(x)变小。如下图中另有一一1个 异常样本在另有一一1个 形态学 中p(x)值很大,或者寻找其他形态学 ,使其p(x)变小。

(2)原本的高斯分布计算过程:

2.对交叉验证集,尝试用不同的ε值作为阈值,并预测数据是是是不是异常,根据F1值不可能 查准率与查全率的比例来挑选ε;

3.选出ε后,针对测试集进行预测,计算异常检测系统的F1值,不可能 出准率与查全率之比。

(1)当形态学 之间具有相关性时,原本的高斯分布不可能 无法正确的边界(当然通过形态学 组合成新形态学 还还都能否一定的除理该问题报告 图片),如下图紫色的线是原本的高斯分布,浅蓝色的线是多元高斯分布:

具体评价妙招 如下:

(3)协方差矩阵的影响:

通常来说,正例(异常)样本太大,甚至为0,也以后说,老出了太大没见过的不同的异常类型,对于哪些问题报告 图片,通常应该使用的算法是异常检测算法。

(1)异常检测是另有一一1个 非监督学习,故必须能根据结果变量y的值来高斯大伙数据是是是不是真的是异常。

30000台正常和10台异常作为测试集

案例:300000台正常的引擎数据,20台异常引擎数据,分配如下:

其中均值和方差的计算公式:

1.根据训练集数据,大伙估计形态学 的平均值和方差并构建p(x)函数;

当新的测试样本同样绘制到图标上,不可能 偏离 中心越远说明越不可能 不正常,使用某个不可能 性阈值,当低于正常不可能 性阈值时判断其为异常,或者做进一步的检查。异常检测常用于工业生产、异常用户等实际场景中。

(2)异常检测系统开发的妙招 :从含高标记(正常和异常)的数据着手,挑选偏离 正确数据集构建模型,或者剩余正常和异常构成交叉验证集和测试集,交叉验证集作为挑选阈值ε

(3)在求均值方差是到底用1/m还是1/(m-1)不做深究,二者差别很小(除非数据样本有点儿少),机器学习上习惯用前者。