第27卷第7期2010年7月计算机应用研究ApplicationResearchofComputersVo.l27No.7
Ju.l2010
一种基于母函数的JPEG2000隐写分析方法
李鹏,蔡晓霞,陈红,王欣
(电子工程学院,合肥230037)
摘要:针对JPEG2000图像小波系数一般统计特征在BPCSJPEG2000隐写前后变化不明显的问题,提出了一种基于小波系数母函数的隐写分析方法。通过对JPEG2000图像三级小波系数低频子带进行主分量提取,计算出相应的母函数,分析它在隐写前后的变化,提取出九个母函数值作为特征向量输入到SVM分类器中。实验证明在嵌入比例为30%以上可得到80%以上的真阳性率,同时假阳性率很低。关键词:隐写分析;JPEG2000;母函数;分类器
中图分类号:TP391文献标志码:A文章编号:10013695(2010)07266802do:i10.3969/.jissn.10013695.2010.07.076
SteganalysismethodologybasedongeneratingfunctionforJPEG2000
LIPeng,CAIXiaoxia,CHENHong,WANGXin
(ElectronicEngineeringInstitute,Hefei230037,China)
Abstract:ResponsetothechangeofthecommonstatisticcharacterofDWTcoefficientsinJPEG2000miagewasunconspicuous,thispaperproposedainformationsteganalysismethodologybasedongeneratingfunctionofDWTcoefficients.Thealgorithmextractedtheprincipalcomponentoflowfrequencypatchofthe3thDWTcoefficientsinJPEG2000miage,andcalculatedthegeneratingfunction.Accordingtoanalyzingthechangeofthegeneratingfunctionbeforeandafterembedding,extractedninevalueofthegeneratingfunctionasaneigenvectorandinputittoSVMclassifier.Theexpermientalresultshavedemonstratedthecorrectratetodetectthehidingmessageachievesmore80%abovetheembeddingrate30%.Keywords:steganalysis;JPEG2000;generatingfunction;classifier
0引言
近些年,随着信息科学的发展和互联网的普及,数字多媒体如文档、图像、声音和视频被广泛运用。以这些数字多媒体为载体的隐写术成为信息安全的重要手段,尤其是以图像为载体的隐写术层出不穷,目前在因特网上已经发布了200多种隐写软件,而且很多是免费的,因而很容易被犯罪分子所利用,这对国家、企业和社会来说都是一种潜在的威胁。因此作为隐写术的对抗技术隐写分析成了信息安全领域的一个重要研究课题。隐写分析是指对隐写术的检测和攻击技术。其目的是检测隐密信息的存在性、估算隐密信息的长度以至提取隐密信息。JPEG2000编码标准[1]作为一种新的图像压缩标准,正在得到学者和商家的研究与应用。在现实生活中出现了以JPEG2000格式图像为载体的隐写术
[2~4]
1隐写术对母函数的影响
11母函数的计算
在离散随机变量中,非负整数值随机变量(即取值为0,1,2, 的随机变量)占有很重要的地位,如二项分布、几何分布、泊松分布等都是取非负整数值的。
定义若随机变量取非负整数值,其相应的分布率为
012p0p1p2
∀
设G(s)=!pksk,则称G(s)为随机变量的母函数。
k=0
由于!pk=1,由幂级数的收敛性知道G(s)至少在|s|#1时
k=0
∀
一致收敛且绝对收敛。母函数对于任何整数随机变量均存在。12隐写术对小波系数的母函数的影响
以JPEG2000图像为载体的信息隐写算法大多选择将秘密信息嵌入到量化后的小波系数中,来达到信息隐写的目的。如果在设计隐写算法时没有考虑到小波系数的分布特征,则必然导致隐写后图像的小波系数分布发生变化。
当前以JPEG2000图像为载体的信息隐写算法汲取了以JPEG图像隐写算法的不足,在嵌入秘密信息到小波系数时,采取了必要的措施,保持了小波系数的分布特征,预防了基于小波系数统计特征的攻击。本文研究了BPCSJPEG2000隐写前
。其中Noda等人
[2]
把BPCS隐写术与JPEG2000图像结合起来,提出了第一个以JPEG2000图像的隐写术,其在高压缩图像中嵌入秘密信息,得到良好的图像质量。另一方面,隐写分析方法很多[5~7],但针对基于JPEG2000格式图像的隐写术的隐写分析研究,还鲜有学者涉足。
本文基于JPEG2000图像小波系数一般统计特征在隐写前后变化不明显的问题,在深入分析小波系数主分量统计特征的基础上提出了一种基于母函数的JPEG2000隐写分析方法。
收稿日期:20091105;修回日期:20091223
作者简介:(1982),男,陕西蒲城人,硕士研究生,主要研究方向为通信与信息系统(lipeng46558@yeah.net);蔡晓霞(1965),女,安徽淮南人,教授,硕士,主要研究方向为通信与信息系统的科研和教学工作;陈红(1965),女,安徽东至人,副教授,硕士,主要研究方向为通信和信息系统的科研和教学工作;王欣(1986),男,安徽蚌埠人,硕士研究生,主要研究方向为卫星通信对抗.
第7期李鹏,等:一种基于母函数的JPEG2000隐写分析方法
(2669(
{+1,
后小波系数的变化。以Lena图像为例,取三级小波系数低频
子带作为分析对象,研究隐写前后九个母函数值,如表1所示。
表1隐写前后低频小波系数母函数值对比
s隐写前隐写后
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
2.4414e1691.1418e1191.2973e0905.3729e0705.3633e0546.6671e0418.9542e0305.1397e0203.6149e0112.4414e1691.1418e1191.2973e0905.3729e0705.3633e0546.6671e0418.9542e0305.1398e0203.6156e011
使用两类线性可分情况下的SVM。
设训练样本集为(xi,yi),i=1, ,n,x%Rd,y%
-1},d维空间中线性判别函数的一般形式为g(x)=w∃x+b,分类面方程为w∃x+b=0。为了使所求得的最优分类面能够对所有样本正确分类,且分类间隔最大,则对于样本点(xi,yi)应满足以下两个条件:
min1/2&w2&
yi[(w∃xi)+b]-1∋0;i=1,2, ,n(2)
从表1中可以看出,隐写前后低频小波系数的母函数值基本上相同,也就是说明了BPCSJPEG2000隐写算法对低频小波系数母函数的影响很少,因而本文提出对小波系数的主分量进行母函数值分析。图1是隐写前后主分量的变化图。
这是一个二次凸规划问题,由于目标函数和约束条件都是凸的,根据最优化理论,这一问题存在惟一全局最小解。应用Lagrange乘子法并满足KKT条件(KarushkuhnTucher):
i{yi[w∃xi+b]-1}=0
(3)
最后得到SVM的分类器具有以下形式:
f(x)=sign[!
n*i=1i
yiK(x,xi)+b*]
(4)
其中:i∋0是拉格朗日乘子,K(x,xi)表示核函数。本文在此选用径向基核函数:
K(x,xi)=exp(- &x-xi&2), >0
(5)
从图1中可以看出,小波系数主分量的母函数在隐写前后的变化很大,可见小波系数主分量上母函数可以作为判断图像中是否含有秘密信息。因而,本文采用小波系数主分量上的母函数作为特征向量。
由于径向基函数具有较好的分类特性,选它作为SVM分类器的内核函数。其中涉及到两个参数的选取:a)惩罚因子 ,当值选取较大时,强调训练数据点的相称性,而当选取的值较小时,注重的是模型复杂度的降低;b)径向基函数中的!2,其值的大小对应滤波平滑性的强弱。在实验中可采取网格搜索法选择这两个参数的最优值。
2基于母函数的JPEG2000隐写分析方法
21小波系数主分量
为实现对JPEG2000图像小波系数的主分量分析[8],必须先把数据的协方差矩阵对角化。随机试验的自协方差函数为
C(i,j)=
1NN
!!{(xi(k,l)-xi0)(xj(k,l)-xj0)}N2k=1l=1
(1)
3仿真与分析
仿真选取了200幅JPEG2000载体图像,秘密信息采用随机生成的二进制数据,采用BPCSJPEG2000隐写术对300载体图像进行信息隐写,得到200幅载密图像。总共400幅图像,选取300幅图像(在载体图像中选取15000幅,在载密图像中选取相应的150幅)组成训练样本,剩下的100幅图像作为测试样本。通过把300幅训练样本的特征向量输入到SVM分类器中进行训练,得到训练好的分类器,然后把测试样本的特征向量输入到分类器中,得到判断结果:+1代表载密图像;-1代表载体图像。
表2是在嵌入率从20%~100%得到的真阳性率变化图,真阳性率是测试样本中被检测出载密图像个数占总载密图像的比例。
表2在不同嵌入比例下平均检测真假阳性率
嵌入率真阳性率假阳性率
2077.62.6
30
812.8
40
88.72.7
50
92.42.8
60
95.62.9
70
98.43.0
80
99.83.3
90
1003.5
其中:xi(k,l)为像素点(k,l)在i频带的值;xi0为i频带的平均值;xj(k,l)为像素点(k,l)在j频带的值;xj0为频带的平均值。
因为JPEG2000彩色图像有R、G、B三个频带,所以变量i和j只有三种取值,协方差矩阵为3∃3矩阵。主分量分析的步骤如下:
a)计算三个频带的均值,记为(R0,G0,B0);b)在每个相应的频带上减去平均值;
c)计算自相关矩阵C(i,j);
d)找出矩阵C(i,j)的特征值并降序排列,用相应的特征向量作为行,得到特征向量矩阵A;
e)用矩阵A变换原数据分布,用y=Ax把每个三维向量
P1R
x=G变换为y=
B
P2,即yi=!iakixi。P3
%
1001003.4
从表2中可以看出,在嵌入率为30%以上,真阳性率可以达到80%以上,同时,通过实验得到载体图像误判为载密图像
的概率(也就是假阳性率或虚警率)大概在3.3%左右。可见本文方法在保持对载密图像高检测率的条件下能保持较低的虚警率。
22基于主分量母函数的分析算法
对JPEG2000图像三级小波系数低频子带提取主分量成分,计算出母函数,s取0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9九个数,通过母函数计算公式算出九个母函数值组成的九维向量作为特征向量。
对载体图像和载密图像的小波系数提取主分量的母函数得到的特征向量作为训练集,以待测图像的小波系数提取主分量的母函数得到的特征向量作为检测量,构造基于SVM的分类器[9]。SVM的理论基础是统计学习理论,其基本思想是构造出一个最优超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力,即使训练误差最小化。本文4结束语
本文提出了一种基于母函数的JPEG2000隐写分析方法。该方法针对JPEG2000图像三级小波系数子带的主分量的母函数分布特征在BPCSJPEG2000隐写术前后的变化,运用SVM分类器对载体图像和载密图像小波系数主分量的特征向量进行分类,通过实验在不同秘密信息嵌入比例下可以得到较高的真阳性率。(下转第2673页)
第7期唐和平,等:漏洞数据库的文本聚类分析
(2673(
大;相反,如果类别中的实例数量巨大,特征词的主导度趋小,在领域主导词汇选取门限一定的情况下,领域内主导词汇变少,聚类的主导度急剧降低。
聚类质量评估指标(clusterqualityindex)在总体上反映了聚类的质量好坏,是聚类结果选取的一个综合性指标。聚类质量评估指标从聚类内容上评估了聚类类别的质量。
通过设置漏洞聚类质量指标大小,选择有代表性的漏洞类别。设置最大领域描述覆盖率、最小描述主导度和最小聚类相
对大小分别是0.36、0.015和0.003,对NVD进行聚类分析后,选择符合条件的主导漏洞类型有45类,占聚类总数(100)的45%,共包含了23870个漏洞实例,占据总漏洞数(38299)的62.33%,因此对主导漏洞类型的分析主要集中在这45%的漏洞分析上。
漏洞类型树分层次展示了漏洞聚类分析的结果。在聚类的结果中,典型的漏洞共有45类,它们组成目前漏洞数据库中绝大多数的漏洞类型。具体对45类漏洞进行区分,可以分为特殊字符处理缺陷、程序逻辑缺陷、配置缺陷和其他未指明漏洞四大类。主导漏洞类型树结构如图4所示。
5主导漏洞类型分析
聚类完成后并不意味着对漏洞数据分析完毕,更重要的是对聚类的结果进行分析。在大多数情况下聚类结果不像人们想象中那样,能够按照需要将对象区分,满足人们认识事物的需要。聚类分析的结果还不能满足分类的惟一性、完备性要求,它总是忠实地反映了所给的实例的特征。换句话讲,特征明显的实例在聚类过程中凸现出来,而不管它是否能够成为单独的一类,因此对聚类结果的细致分析是十分必要的。
漏洞聚类结果是对软件漏洞信息初步的分类,由于聚类结果缺少分类的完备性、互斥性,聚类的结果还远不能作为软件漏洞分类的依据,但聚类结果大致反映了漏洞中突出类别,如缓冲区溢出、跨站攻击漏洞、文件包含漏洞和目录遍历漏洞等,这些常见的漏洞类型在漏洞成因描述、漏洞发生位置、漏洞利用方式和漏洞利用结果方面具有明显的特征。
主导漏洞类型是指漏洞类型中,涵盖了大多数漏洞的典型漏洞类型,也是漏洞分类中的主体类型。主导漏洞类型涵盖了绝大多数的漏洞,这些漏洞具有明显的特征,因而在聚类分析时能够聚集成类,同时主导的漏洞类型也是造成网络安全的主要因素,这类漏洞分布广泛,漏洞利用的方法也相对简单。主导漏洞类型选择必须满足一定的标准。
主导漏洞类型选择必须既符合聚类定义的覆盖率,又能满足主导度要求。如同前面提到的,覆盖率表示该漏洞描述是否涵盖漏洞各个方面,因此,选择主导漏洞类型首先满足小于最大领域覆盖率(maxdomaindescriptorcoverage),这样才能显示出主导漏洞类型的独特性。其次漏洞类型的主导度必须大于最小的领域主导度(mindescriptordominance),主导度越高表示了该类的漏洞描述越集中、特征越鲜明。
主导漏洞类型包含的漏洞数量应该占据了漏洞实例总数的大部分,主导漏洞类型包含的漏洞数目也必须达到一定的阈值(minclustersize)。
综合上述三点,主导漏洞类型必须满足以下条件:a)domaindescriptorcoveragemindescriptordominance;c)clustersize>minclustersize。(上接第2669页)
另外对45类漏洞描述分析,发现漏洞描述信息具有相似
的模式,相对固定的描述模式中容易抽取出漏洞的描述信息,一般的描述模式是) (漏洞类型)in (存在漏洞的软件)allow***(利用位置)userto (权限变化)via/by (利用方法)∗。相对固定的漏洞描述模式有利于提取漏洞的细节信息,如漏洞类型、漏洞存在软件的位置、利用方法、权限方法等。
6结束语
受到软件漏洞信息发布策略的,大量的软件漏洞细节信息被隐藏。本文使用了文本聚类的方法对NVD漏洞类别和潜在的描述模式挖掘,并且对挖掘的结果有针对性地分析,提出了主导漏洞类型及其选择标准,使得对单个漏洞的人工分析转移到对漏洞类别的分析上。参考文献:
[1]赵亭.计算机漏洞数据挖掘关键技术研究[D].合肥:电子工程学院,2008.
[2]张毓敏,谢康林.基于SOM算法实现的文本聚类[J].计算机工
程,2005,30(1):7576.
[3]胡影,郑康锋,杨义先.利用NVD漏洞数据库挖掘网络攻击效
果[J].计算机科学,2008,35(3):5557.
[4]单松魏,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146148.[5]DIAsDEMWorkbench2.0[EB/OL].http://www.hypknowsys.
org/.
whichpreserveshistogramsofDWTcoefficients[J].IEICETransIn
formationandSystems,2007,E90D(4):783786.
[5]程小艳,孙星明,秦姣华.新的利用相邻像素相关性的盲隐写分
析算法研究[J].计算机应用研究,2007,24(10):128130.[6]HANGTao,PINGXijian.ReliabledetectionofspatialLSBsteganog
raphybasedondiferencehistogram[J].JournalofSoftware,2004,15(1):151158.[7]KERAD.ImproveddetectionofLSBsteganographyingrayscaleima
ges[C]//Procofthe6thInformationHidingWorkshop.Berlin:SpringerVerlag,2004:97115.
[8]GONZALEZRC.数字图像处理[M].赖剑煌,冯国灿,等译.北
京:机械工业出版社,2005.
[9]边肇祺.模式识别[M].2版.北京:清华大学出版社,2000.
参考文献:
[1]
TAUBMANDS,MARCELLINMW.JPEG2000图像压缩基础、标准和实践[M].魏江力,柏正尧,等译.北京:电子工业出版社,
2004.
[2]NODAH,SPAULDINGJ,SHIRAZIMN,etal.Applicationofbit
planedecompositionsteganographytoJPEG2000encodedimages[J].
IEEESignalProcessingLetters,2002,9(12)410413.[3]
SUPC,KUOCCJ.SteganographyinJPEG2000compressedimages[J].IEEETransonConsumerElectronIcs,2003,49(4):824832.NODAH,TSUKAMIZUY,
NIIMIM.JPEG2000steganography[4]