期刊信息
 

刊名:世界知识
主办:世界知识出版社有限公司
主管:中华人民共和国外交部
ISSN:0583-0176
CN:11-1502/D
语言:中文
周期:半月
影响因子:0.1957606
被引频次:554
数据库收录:
北大核心期刊(1992版);北大核心期刊(2000版);北大核心期刊(2008版);期刊分类:文化传媒

现在的位置:主页 > 期刊导读 >

基于世界知识的深网数据源增强分类模型

来源:世界知识 【在线投稿】 栏目:期刊导读 时间:2021-04-27 03:35

【作者】网站采编

【关键词】

【摘要】6第3卷 第8期36 No8.计算机工程ComputrEngnerngeiei00年4月21li20Apr 01?软件技术与数据库? 0220&m0章号l 380) 6-文编

6第3卷 第8期36 No8.计算机工程ComputrEngnerngeiei00年4月21li20Apr 01?软件技术与数据库? 0220&m0章号l 380) 6-文编:0_4(100_4文标码t献识AT3圈类 3中分号tP9基于世界知识的深网数据源增强分类模型黄黎 ,赵朋朋,方巍,崔恚明,孙振强1苏州大学智能信息处理及应用研究所,(.1062江苏广播电视大学,苏州250;.南京201;.南大苏富特科技有限公司,1073106苏州250) 捕NepWe)(epWe数据源增强分类模型,通要:针对传统词袋方法在深IDe b数据源分类应用中的局限性,提出一种基于世界知识的De b过对外部知识库的主题分析,建立特征映射,构造基于领域概念的辅助分类器,eWe查询表单的特征集合。基于Wipd百科p丰富De biakeib 知识库对真实We数据进行分类。实验结果证明该模型有效。关健诃:深网;数据源分类;主题分析;特征映射;世界知识hne e bDaaSucsClsicto dliEnacdDepWe t ore asfainMoesd0rdKnoeeBae nWolwldgLiZHAO egpn FHUANG  ,Wi, imig,UN e.inPn—eg,ANG e CUIZh.n SZhnqag1Isito tlgn frt rcsi  pit,oco nvri,uhu2 0;t IiIonn(.ntuefneletnomainPoesgadAplainSohwUiesySzo  06cot15.iguRdoa VUiesyNaj 1073NadsfCoayLd,uhu250)antnl2Jns ai dT nvri,nig201;.nao mpn t.Szo 106Abtat a frshdue  epWe ore aiai hwsyltisTipprooe nvlepWe oremenicsfo[srelBgowod to sdiDe bsucslsctnso n mitn.hsae rpss oeDe bsucsmaiao pa nacn lsiainmoe e nwol nwldeI osu h etr pisb oi nlsso xelkoeg,osrsaibaucehnigcasfcto dlsdo rdkoeg.tst ptefauemapng ytpcaayi fetma nwldecntt nuiaycsrbsdo oi ocpsn nie etestfDepWe omsxeitsefrdbsdo kpdaiaficaxlr lsie ae ndmancnet,aderhsfar eo e bfr.Eprniprome ae nWiieiu me  nycoei,adeprmetlslvrytsmto efci n clbersihsveclpdan xeina eut ef i ehdi feteadsaal.Ke rs epWe;aaore asfai;oinlsfaescio [ywodlDe bdt ucslsictntpcaayi;etr pigwol oegsdndumapn;rkwle1概述De e)深网(epWb信息量高速增长,大规模的De eepWb数据集成亟待一种高效的数据源分类技术以优化信息检索。 De b与普通的静态网页相比,epe的信息量更大,W主题更专rNt4在且Wode有限的词汇量制约了聚类的效果。文献[]文本pakd分类中利用了Wiiii中的概念构造辅助分类器计算语义O5】相似度,增强了BW对特征信息的描述程度。文献[从Wkei抽取关系并构造一个相对规模较小的词库,iaipd实现了 一信息质量更高,结构化更好。因此,epb, DeWe成为人们 获取信息的一个重要途径。然而其隐藏性、动态性和异构性epWe 特征给De b数据源分类带来巨大的挑战。查询接口作为获取信息的唯一途径,已成为众多学者研epWe究De b数据源分类的重要手段。epWe传统的De b数据O源分类方法通常基于传统的BW方法,孤立地度量各个特征的权值,而忽略特征项间重要的语义关联,造成了重要特征信息的丢失。因此,O 传统的BW方法分类精度并不理想。尤其当查询接口特征稀疏时,其性能会大大降低。 O本文针对传统BW方法的不足,提出一种使用世界知e b数据源增强分类模型,通过语义分析产生新识的DepWe的特征空间,将特征集合的分析提高到语义级别,旨在提高eWe Depb数据源分类的性能。2相关工作epWee bDe b数据源分类是DepWe数据集成中的重要步l骤,目前已提出了一些比较有效的分类方法及模型。文献【】 epWe根据查询接口模式提出了一种层次结构的De b数据源2提分类方法。文献[]出一种基于上下文感知的表单聚类方法,将WeepWeb表单的文本内容和表单内容综合,对De b数据源进行聚类。文献【]3利用了Wode同义词库作为文本rNt特征表示的依据,进行文本聚类,但是忽略了词义消歧,并文本的有效分类。  epwe查询表单特征的构造3De bDe bepWe查询接I特征服从齐夫分布(ifirui):IZpdsitn,tbo即查询接口的领域特征往往只通过少数频繁的特征子集表现出来,并且每个领域中的特征数量随查询接口数量的递增而J趋于稳定 。因此,表单特征的领域指向性为数据源按领域 分类提供了依据。.13查询表单能力分析..311查询表单定义Atiu ae和属re)查询表单中的特征通常以属性标签(tbtLb1Atbtau)r性值(tiueVle的形式存在,属性标签具有文本描述的T功能,属性值是指HML标记中的一个或多个表单控件,包基金项目:(0702;国家自然科学基金资助项目6639)江苏省科技支撑B2004;20年度江苏省“计划基金资助项目(E084)06 六大人才高峰”(6E07;20基金资助项目0一一3)08年度江苏省高校研究生科研创新计C8_9Z)划基金资助项目(X0B09作者筒介:18-,硕黄黎(92)女,士研究生,主研方向  深网技术,数据挖掘;赵朋朋,博士;方崔 巍,博士研究生;志明,教授、博士生导师;孙振强,高级工程师、硕士2收稿日期:20—00091-lhiloEma:sunlma.m-izag@gicnu,Sltetaer括Iptec,Txae。查询接口可形式化定义为 a, ,a表示表单上的控件属性。在逻辑上,一…,F=, a}epWe个控件和它关联的标签构成了一个属性,对应于De b数据库中的一个字段。通常一个标签可以与其关联的一个或多个表单控件共同构成一个特征属性。那么,查询表单可以 VL …,形式化地描述为F={。0(2)( ),其中,代(,,,, ,}  表标签值;={ 一 )示与标签对应的一个或多个控E,表件;E代表控件。Depb查询表单的检索能力通常取决于Wee表单特征的领域指向性,经过分析,表1中的特征将作为特 征提取的对象。 epWe查询表单特征表1DebO 本文将查询表单中的可视化特征集合称为BW特征。利用机器学习和自然语言处理的方法虽可以改善BOW方法 的局限性,但是并未从根本上产生新的特征。..231查询表单特征选择查询接口表单产生的高维特征空间会造成较大的分类代价,nnIoi方法从特征集合中选择决策本文利用信息增益(fGa)性特征。信息增益越大, 对数据源领域归属的决策程度越高, 公式如下:n (:1c)P(i 圭c)掣c)f)i i1 i1iI ,np,IGf圭(t丛C)+ (Tnp( ==1() 其中,t3中的一个特征项;pcf为查询接1 表示特征项,(,)在 第 类中出现的频率。同时,对表单特征的分析可得,反应主题性的多个属性特征常常频繁出现,构成特征共现模型。利用不同特征词共 同出现的频率进行衡量,共现的频率越高,其关联越紧密。 特征间的相对共现度可计算如下:Oti- C(t)± 2f1,,2  分类器的覆盖面,在数据格式的一致性上并未做严格要求, 提高了分类模式的灵活性。kpda是b知识库,包含近10万篇Wiiei目前最大的We0文章,约超过3kpda已应用于信息检索和自然亿词汇。Wiieikpda作为外部语言处理领域中作为语料库。本文选择WiieiO知识库,利用其层次概念知识库克服BW方法在传统分类将=q…,,中的不足,其形式化表述为一个概念的集合c ,, }i每个概念C对应于一个文档集合 ,T={…,},并将t ,ti.mi2L r…,, 概念之间的关联集合R表示为R={,,r}其中,代表对应于第i个概念的文档中第 fr={ } ,个特征词,k<c>。..322基于世界知识的特征集合的生成对知识库中的每个文档,LA)可利用基于潜在语义分析(D 的隐含主题分析模型,获得主题的特征集合描述。对知识库中庞大的文档集合,D利用最大似然法估计LAbs采的参数几乎无法实现,因此,本文采用Gib样的近似方 法实现对参数的估计。假设 和z分别代表所有词汇向量及其数据集合 中的主题分布向量,那么,一个词汇f的主题分布可以由如下公 式计算:(iz ,PZ=kl =+ + 【 。+2【 。 一1∑ ”屈卜1∑,+] 3 () 【表示词汇t】其中,,分配给主题k∑ 1的出现频率; :一表 示分配给主题k的所有词汇的数量;表示分配给主题k’ 的文档m中词汇数量;∑ 表示文档m中所有词汇的L1 iclit参数 和 是对称的,即所有的数量。通常Drheki…,(=,,/2 vl…, -20都是相等的,(=,, 也类似。层次结构中的每个节点对应一个概念,每个概念都有一个关联的文档集合,其中的每篇文档都可以利用上述方法构i ,…,,c表示文档的隐造出概念的特征集合,即C={ , }   含概念,C即概念集合,∈c,表示概念的特征项。..323表单特征与概念之间映射的建立通过对查询表单的特征分析发现,同义词、多义词,以及上位词都有助于扩展特征信息,因此,需要一种有效的方 法以建立表单特征与隐含主题特征的概念之间的映射关系。,r,,、 (f=,其中,R I),f(j表示特征项f和f在查询表t)it ,t)J[jft表示特征项t在表单中出现的频,单中共同出现的频率,()j  l,)( 。j率,(,一般不等于Rt)本文从主题词开始入手按照主题词的共现程度,分别计算与其频繁共现的特征项,并为决策特征和共现词的判定设.,严格限制特征集合的规模。定阈值 和 ,均为05 .32查询表单特征产生器的构造epWel针对De b查询接E中的特征稀疏问题,利用外部O 知识库构造辅助分类器可以为BW增加新的特征集合。..321知识库构造为分类模型选择一个合适的外部知识库应满足如下条1外部知识库必须满足资源量大、知识丰富的特征,才件:()2知识库能为分类任务提供相关的词汇、概念和主题特征;()利还必须满足层次化的结构关系,用概念上下文的广义概括, 扩充特征关联信息的描述。同时,巨大的外部知识库可以解决标记样本集合有限的局限性,利用大量的未标记数据扩大由于概念项之间关系的多样性,知识库存在多个领域交叉的情况,因此外部知识库的结构层次不是一个简单的树结构,而是一个有向无环图,父类概念可以为子类概念提供更加概括的描述。当2个概念具有共同的父类概念时,它们之7中的基于网络间必然存在一定的语义关联。本文使用文献【】连通性和词典句法匹配的方法,获得知识库的概念之间的ia— “s”关系,使表单特征与概念之间的映射更具有通用性, 产生泛化概念集合。为了提高表单特征与外部知识库中概念的映射效率,本文采用倒排索引的方法,基于词频统计为表单中的每个特征k,,m。那么,对于k…,产生相应概念的倒排索引序列K={l2k}(,)a,2, ,}aw,…, 查询表单特征F={ 1( w)( ),其中,a表示 ,特征属性,表示属性a的权值,可以通过匹配获得与特征j,,,a对应的概念c的索引序列k,并且对概念特征C进行权 重度量,计算如下:Ⅵ  =∑qF4()当特征属性与上层泛化概念之间存在映射关系时,将对泛化概念的权值计算进行调整,为不同层次的上层概念分配VepWe利用SM分类方法对大量数据建立分类模型,对De b一个呈递减趋势的影响因子 。显然,层次越高,其概念对特征属性的影响越低,即关联性越弱,将影响度定义为 ̄) L(/c=?c=()以‘c, ̄(=1fc?()/l)那么上层概念的权重可以表示为nnx=∑qF’JvdWlle  k’()c5()数据源进行分类,实验结果如图1所示。并分别对在2个数据集上的实验结果进行比较,如表2所示。 0O置一 80-= —-// —-—.\.二一’、◆,,、—一  0萋6祷 0羹4机票汽车图书汽车租赁宾馆工作电影音乐 E-数据集分类策略准确率比较圈1TL8表2数据舞分类结果比较e b数据源分类中,在DepWeO实验分别采用基于BW和BW+UG进行分类性基于世界知识模型的增强分类方法(OA)能的比较。从图1可知,利用知识模型的主题特征在BOWe b查询表单的固有特征特征的基础上进行扩展,使DepWeO得以丰富,其分类准确度明显优越于传统的BW方法。实V验结果表明,运用SM方法分别对表单内容特征和表单的超链接特征训练分类器并相互迭代可以获得更好的分类性VM的最终决策函数只由少数的支持向量所确定,能。S计算 的复杂性取决于支持向量的数目,而不是样本空间的维数,在某种意义上避免了“,维数灾”在本文的分类任务出显示出 良好的鲁棒性。epWe由于De b数据具有领域异构性特征,不同领域中的表单属性呈现出不同的特征规律,因此造成某些领域的表 单特征主题不突出,缺乏规律性,造成分类特征较为稀疏。但是通过外部知识库中概念的主题特征分析,克服了特征稀疏的局限性。由表2WRno可见,随机数据集Iadm的性能提E一,是由于本身Iadm的特征规律性高程度略大于TL8WRno 较弱,因此,通过特征构造可明显突出特征集合的主体性,E一从而提高分类性能。本文在TL8上做进一步分析,利用—auekpdaFmesr评价方法,将基于Wiiei的数据源分类方法与O 传统的BW分类方法在各分类之间进行比较,结果如表3 所示。 epWe增强分类策略的性售比较表3不同De b%)(kpda由表3可以看出,不同的领域其适用于基于Wiiei 的增强分类的程度不同,电影和音乐领域在经过基于主题分..432基于层次结构的相似性度量kpda概念之问建立的映射关系可以为表单特征与WiieiOBW方法提供丰富的基于概念的特征信息,因此,e bDepWe查询表单的固有特征集合就扩充为一个基于多个概念主题特A  …,,A表示BW征下的多元特征集合,即F={,,, }O 特征集合,C表示满足一定阈值要求的相关概念的特征集合。 当查询表单中的若干特征均与某一概念存在映射关系时, 则其权值可计算如下:=∑口’』eC)xj ( w d()6 ().dE, w,表示特征属性a的权重; ~(,表示概念c其中,Aa)i}c), , 相对于a的权重。通过外部知识库的主题分析和B OW表单特征的扩充, 本文采用余弦相似度的计算方法进行度量。4实验与分析本文在真实的WeepWeb数据集上对基于世界知识的De b数据源分类策略进行验证,并分析实验性能和实验结果。 .41实验数据实验采用UU的We集成仓库中的TL8和1CbE一Iadm数据集。E一WRnoTL8包含47De b数据源的查4个epWe:询接I表单,涉及机票、汽车、图书、汽车租赁、旅馆、工1作、电影、音乐共8个领域。该数据集中的查询接口表单多为结构化多属性模式,领域的异构性使得某些领域中存在特征稀疏的情况。WRnonibebtIadm是从IvslWe.e从随机获取i—n的3Depb数据源样本。3个eWe .4外部数据构造2i在本实验中选择Wipdakei作为DepWee b数据源分类模型中的外部知识库。首先,需要获得Wiieikda层次结构中p涉及各个领域的概念节点,R将节点的UL称为种子地址,作为¥eUL参数,edR并提供给爬虫程序JkDcWiios以获得相应kpda 的Wiiei页面以及具有链接关系的相关页面集合。实验对爬虫程序的执行过程设置了相应的参数,将针对P每个概念爬取的文章数量ttlae设置为10篇,并且默oags0认的最大爬取深度设置为4.G。爬取完毕,共获得了2 B的8Wiiei文档数量,其中存在概念交叠的情况,因此,需要kpda进一步进行去重处理,获得1 B的外部数据量,然后再进.G6行内容的解析和特征去噪。将最终所获得的数据做为数据源 产生新的特征所必需的领域知识。.43结果分析实验采用LA的主题分在上述2个数据集合的基础上,Dkpda文档集合进行主题分析,并获得相应的析方法对Wiiei特征集合。为避免无关主题的影响,笔者在实验中只选择前0个相关主题概念,并对每个概念的中的特征基于统计的方10个特征属性,法获得其前2过滤噪音特征。为提高表单特征kpda概念之间的映射效率,采用建立倒排索引的方与Wiiei/0的法。在实验数据集中采用十折交叉验证,将数据集中91epWeDe b查询接口组成训练集,其余的数据作为测试集。并析的特征扩展之后,分类性能有了明显的提高,究其原因在数据源增强分类策略,有效地改善了传统B OW方法的不足。基)糌苴『一, 垦静嚣于固有特征的稀疏以及特征集合的规律性较差,利用知识库 黯蛇帅epWe实验证明,该策略在De b数据源分类研究中获得了良跖料跎帅 弭 进行特征扩充则克服了原有方法的不足。但是,对于某些特 好的效果和明显的性能提升。如何更准确地获得主题特征,征呈现一定规律性的领域,例如图书和工作,其表单特征具 以及如何有效建立映射关系是下一步的研究工作。 有明显的领域区分性,因而分类性能的提高并不明显。可见,kpda的增强分类策略更加适用于特征较为稀疏的基于Wiiei参考文献 分类应用。1HeBi,a a,agKCC.uti tte bSucsenuu [] nToToChn   ClsrgSrcrdWe ore:实验分别采用准确率和召回率对增强型分类模型在数据ce—ae,dlfrnii prahC]Po.fdao/A ShmabsdMoe—ieettnApoc[/rcoE?上进行评价,如图2所示。结果分析可得,其平均集TL8DB".rki,ec:sn】0456560o, EJ’4HealnGree[..20:3—4.78准确率可达8.49%,平均召回率为8.%,可见基于外部知[]roaLFer ,iaA.rain de—bDtae y2Babs ,riJSl OgnzgHidnWe aassevibb识库的特征构造方法可以获得较好的分类精度,明显优越于lsr iiebDounsC/rcoenbCutigVslWe cmet[]Po.fIDE’71tnu,/Ca0.sbl O该epwlb数据传统BW方法,因此,方法是一种有效的De eTre:EEECoue oit273635ukyI mptrScey,00:2-3. ’ 源分类模型。3DaeK,arneSMiigt entlyOpno xrthGaeao[]v Lwec .nn ePau lr:iinEtcinn Smat Casai o PouteiC/rcfcifows/adenilsictnfrdc Rve[]Po.o日■i嗣 0.uaetnay[..03,, www’3BdpsHugr:sn]20.4bivcElhcroi .Cmpt eniRlens[]Garoi ,MakvthSouigSmat eadesnct i kpdaae Epitmat ayiC/rcfn—c Scs/UsgWiieibsdxlieniAnls[]Po.oJI’.drbdIda[.070., CAI7Hyeaa,ni:sn]20.5HuJ,agLjnCoYn,t.nac etsr yaanClen[] inFn uu,a age 1EhnigTx utigbeeaigWkpdaSmatsC/rco GI0.igpr:c/SLvrgn iiei eni[]Po.fIR’8Snaoe s.08., [n】20.6hn hnHeBi,CagK  UnesnigWe ety[】ZagZe, nhn CC.dradn bQur机票汽车图书汽车租赁宾馆工作 电影音乐nefe:BetEfrPrigwi de yt[]Po.faItrcsonhx/s ftas tHidnSnaC/rcoepWe数圈2基于知识模型的De b据源分类结果I0.aiFac:sn】04s,SGMOD’4Pr,rne[..20.7ozU ,SreMuein  ag cl aoo rvo[]PneoStb .DrigaLreSaeTxnmyfm5结束语ktdaC/rcoA)/’.acue,aaa[..070, Wiiei[]Po.fAAI7VnovrCnd:sn]20.kpda知识库,结合特征语义分析和构造本文基于Wiiei编辑金胡考提epWe辅助分类器,出一种新型的基于世界知识模型的De b上接第5( 9页)阈值和最佳阈值的比随之增加,即估计效果在变差。同时, 本算法估计的阈值还是比较接近实际值的,所以在本算法中 的估计方法是有效的。?3O?25.————J / 2.0 l0O5? 0O010200300400500个的数目,图3在蘑菇数据集上最佳■值和估计舅值的比?3O 255结束语o—为了有效解决关系数据库上的TpK强相关项目对的挖o—掘问题,本文提出了基于阈值估计的TpK强相关项目对挖掘算法。理论分析表明本算法得到的结果集相对较小且在阂aeR值估计后进行了有效剪枝,执行效率要优于Tpr挖掘算法。实验结果验证了本算法的高效性,能够快速有效地得到 挖掘结果。参考文献[]ZagJapiiQin.AnAloim frMiigSrnl1hn ine,L ag grhtoo nn tgyetr RloaCrle Pi ieainlal[]Po.o nentnloradasnt/i TbeC/rcfItraoaofrneo cieLann n yetsS1:EEnc]Cneec nMahn erigadCbrei_【..IErs,05Pes20.I hS2Cen  ,uAW .nn rqettmstWiu po[]hugYLF  CMiigFeun eestotuprt02.—一一, hehl:thnhtu teTrsod Wi adWiotIm Cntit[]IEosas.EErnJP—  lO?O5 00【【jll2000300400504K的数目/"图4在大豆数据集上估计闶值和最佳曩值的比从上述实验结果可见,本算法在进行关系数据库上的o—TpK强相关项目对挖掘时,具有良好的效果,适合在实际 的关系数据库系统中应用。rnatso nwleadDaanier,20,1()od n6Tascin nKoeg n tEgneig07 9:0216.15—09 ’3L e,hnHogPiad只t1Fnigt ags eesSt hNI[】ihnSe n,rhrea.idn eLrettmst ina/otMiigC]Po.o nenta neec o ta Da nn[/rcfItrainlCofrnenDann.oeaerBais. 8 Jo:.,9MiigRid ni,rzl[n】19.4zekva fga i.S:nn o-Coeowe[]Tvto YnXin,HnJaiTPMiigTpK lsdeuni atn[/rco neaia frneo tae/roCoaSqetlPtrsC]Po.fItntnlneec nDann.S1:EEPes20.]Miig【..IE rs,03 编辑顾逸斐

文章来源:《世界知识》 网址: http://www.sjzszzs.cn/qikandaodu/2021/0427/468.html

上一篇:北美展预测玩具大潮流趋向
下一篇:北京中自汉王科技公司的汉王笔荣获北京国际发

世界知识投稿 | 世界知识编辑部| 世界知识版面费 | 世界知识论文发表 | 世界知识最新目录
Copyright © 2019 《世界知识》杂志社 版权所有
投稿电话: 投稿邮箱: