贝叶斯分类器处理连续属性分类问题

注:在这里就不写贝叶斯分类器的原理了。
当属性为连续值时,若直接计算先验概率,很容易造成p(x|c)=0的情况。

那么,处理连续属性,一般采用两种方法处理该问题。
1.把属性离散化。这种方法对于划分区间粒度大小要求较高,太小会造成p(x|c)=0的情况还是很多,太大会也会造成各个标签区分度不够明显。
2.假设连续的属性满足一种分布(一般采用正态分布)。先使用测的的样本数据计算出各个标签对应属性的均值和方差,则p(x|c)就可以用正态分布的公式求出。