叨叨游戏网
您的当前位置:首页新闻热度预测数据挖掘模型的构建与实证分析

新闻热度预测数据挖掘模型的构建与实证分析

来源:叨叨游戏网
200论述

2019年1月新闻热度预测数据挖掘模型的构建与实证分析钱佳慧(浙江省萧山中学)

提高新闻热度成为媒体运营重心。本文将C4.5决策树分类算法应用于新闻【摘要】随着互联网发展,各式新媒体涌现,“流量之争”愈演愈烈,

从中选取决策属性构造决策树,预测新闻是否会成为热点,并据此提供热度预测,分析挖掘规律。对新闻类别、图文设置、词语运用等进行处理,

易实行的优化方案,对提高热度有很大的帮助。

热度预测【关键词】决策树;C4.5;

【中图分类号】【文献标识码】【文章编号】(2019)TP311.13A1006-422201-0200-02

1研究背景和意义1.1研究背景

我们身处于一个信息爆炸的时代袁五花八门的新闻时刻都在产生遥大到政局变动尧科技研究尧金融形势袁小到邻里纠纷尧气象变化尧明星八卦袁各类不断更新的信息充斥着我们生活的每一个角落遥然而袁随着互联网发展袁各式新媒体涌现袁我们在接收信息的过程中常会受到无用冗余信息尧重复繁琐信息的困扰遥对新闻受众来说袁需要能够更智能尧更具有针对性的筛选过滤新闻信息的工具曰而对于新闻传播者来说袁则需要提高新闻热度袁拓展新闻扩散范围袁在愈演愈烈的野流量之争冶中胜出袁在行业中取得优势遥与此同时袁当广告投放与大众传媒结合袁便需要广告商有效利用信息传播优势袁最大化运用已有受众资源并对他们进行诱导和渗透袁以刺激信息受众的消费行为袁最终达到营销的目的遥由此可见袁新闻热度正扮演着越来越重要的作用袁对这些数据的预测对新闻生产者来说具有重要意义遥除了提高总体的效益袁新闻热度预测还可以为新闻内容的针对性优化提供方向袁让新闻更贴合读者需求袁有时还能通过图片尧文字等潜移默化的影响目标受众的生活方式尧消费态度乃至价值观念袁为媒体的长足发展打下坚实的基础遥当新闻报道越来越离不开数据袁甚至计算机在某些新闻题材前已经比人更加具备竞争优势袁新闻生产者就应当因时而变袁通过提高新闻热度努力创造自身优势遥运用数据分析挖掘相关技术袁对新闻热度进行有效的预测袁不仅可以使新闻更具针对性袁更有效地被受众接收袁更能为媒体积累受众资源袁有利于未来发展遥热度的预测为新闻内容的优化提供思路袁也为广告信息的有效传播提供了保障遥在全球范围内袁预测新闻热度正在成为一种趋势遥依据社交网络中的交互数量袁例如互联网点赞尧分享尧评论数量袁以及传统纸媒的销售量袁新闻生产者可以合理有效地开展热度预测袁提升自身竞争力袁加快发展进程遥

1.2研究意义

事实上袁运用数据统计尧挖掘尧分析技术来支持新闻生产袁进行合理预测已不是一个新想法遥国外早有从事新闻与数据相关工作的研究团队认为袁预测在线新闻的流行正在成为一种趋势遥影响新闻热度的原因是多方面的袁最传统的影响因子是新闻内容遥有没有独家的消息尧见解是否独到深刻等等都会成为我们衡量一则新闻价值的参考因素遥史安斌袁廖蝶尔渊2014冤[1]曾经提到利用数据进行新闻内容优化的方法遥他们还认为当今的专业记者应当擅于挖掘数据袁致力于将新闻信息转化为生动的故事和深邃的洞见袁并且借助于新媒体使新闻报道呈现出野可视性袁纵深性袁互动性冶的特点袁满足受众对新闻报道野更准确袁更深入袁更直观冶的要求遥

2文献综述有的研究者从新闻本身的内容出发预测新闻热度袁对新闻进行分类袁从而便捷的帮助人们获得想知道的信息遥Bandari渊2012冤[2]认为用四种类型的特征渊新闻来源袁文章的类别袁主观使用的语言和文章中提到的名称冤来预测流行程度是十分可靠的遥事实上袁2004年开始袁谷歌尧百度的新闻渊或资讯冤频道袁就已经依赖搜索技术和计算机算法来进行新闻的整合以及在网页上的呈现遥即便计算机算法对新闻内容的编排原则相对简单袁并无编辑精心设计的格式版面袁但对于那些更愿意自己来进行新闻价值判断的受众来说袁这样的新闻呈现也有它独特的魅力遥

另外袁有的研究者从新闻的阅读体验出发探究对新闻传播的影响袁因为当下仅靠内容出彩已难以赢得竞争的绝对优势遥刘进渊2017冤[3]在承认新闻内容作用的基础上袁进一步阐发了他关于阅读体验对新闻热度影响的看法遥他曾经谈到袁野我们不要死抱着耶内容为王爷这唯一的法宝不放袁用户的需求尧用户的体验是我们不得不面对的问题遥冶而想要提高用户满意度袁更精细化的设计和考虑是不可缺少的遥比如袁新闻的版面是否简洁清爽袁图片插入是否喧宾夺主袁等等都需要被充分考量遥Petrovic等渊2011冤[4]提出袁转发使用与推文内容相关的功能渊例如袁主题标签的数量袁URL袁长度袁单词冤应当被密切关注遥吴林锡渊2015冤[5]则认为新闻当中图片的选择意义重大袁野只有尽可能简单尧直接尧有趣地将信息呈现给受众才会获得用户注意力遥冶这就充分体现了新闻配图的作用遥毕竟袁图片以其直接的特点能充分刺激受众想象袁使新闻更加生动形象遥

通过对多元数据集的研究袁探寻影响新闻流量的主要因素袁可以准确的对新闻热度进行预测袁从而对如何优化新闻尧更有效提升新闻竞争力有一个更好的了解遥热度预测也将涉及决策上的强化袁使新闻投放效果更理想遥本课题通过对大量可能影响新闻热度的因素进行数据挖掘袁以数据挖掘的经典模型决策树C4.5为理论支撑与分析方法袁探究了热度高低与众多因素之间的关联性袁并力求将其应用到新闻预测与决策优化上去遥

3数据来源和模型介绍3.1数据来源

本文的数据来源于UCI数据http院//archive.ics.uci.edu/ml/datasets/Online+News+Popularity袁包含了30000左右条数据遥具体的变量解释如表1遥

在数据挖掘中袁决策树是一个常用分类模型遥它是一种类似于流程图的树形结构袁每一个内部的非树叶节点代表了一个特定属性上的测试袁每一个分枝则代表了相应的测试输出袁这样就完成了对不同标签的分类遥决策树最顶端的节点称为根节点袁它通常囊括了所有涉及的样本点遥树叶节点中存放类

3.2模型介绍

2019年1月表1

标签名称标签描述

n_tokens_title标题的单词数目n_tokens_contentn_tokens_titletimedelta院文章发布和标数题据中的集获取单词之间数的天数num_hrefs内容中num_imgs链单词的数量图接像数数average_token_lengthnum_videos内容中单视频数词data_channel_is_lifestylenum_keywords元数据中的关的键平字均数量长度data_channel_is_entertainment数据数频道是野生活方式data_channel_is_socmeddata_channel_is_bus数数据据据频通道道是是野野娱商业乐冶冶吗冶吗钥吗钥钥data_channel_is_worlddata_channel_is_tech数频道是野社交媒体冶weekday_is_monday文数据章据通是频道在道是星是野期野科一世界技冶发表冶吗吗吗钥钥的钥吗钥weekday_is_wednesdayweekday_is_tuesday这篇文文章章是是在在星星期期三二发发表表的的吗吗钥钥weekday_is_thursdayweekday_is_saturdayweekday_is_friday这篇文文章章是是在在星星期期五四发发表表的的吗吗钥钥weekday_is_sunday这篇is_weekend文文这章章篇是是文在在章星星期期天六发表的吗钥share阅周读末量发发表表的的吗吗钥钥标号袁和决策的结果相对应遥这样袁一个根节点尧若干内部节点3.2.1和若干ID3叶模节型

点就构成了一棵完整的决策树遥

法袁以ID3从树算顶法向是下决递策归树的分学习枝方方式构造法中最具决影响策树和袁最最为核典心型的的关算键步骤是属性的选择袁即选择准则遥其中袁应用最广泛的准则是信息增益遥信息增益的度量标准是看特征X能为分类系统带来信息的多少遥信息增益越大袁该特征越重要遥在介绍信息增益之前袁先对熵的概念进行以下阐释遥

熵渊Entropy冤袁即信息量袁是度量样本集合纯度最常用的一种指标袁它是信息的期望值袁计算的是所有类别中所有可能值所X包含信息的期望值遥设离散型随机变量X的概率空间为P=xp1x2噎x

pn1p2噎n

袁X的所有取值的自信息的期望称为X的平均自蓘蓡信蓘息量袁即为蓡熵遥其公式为院H渊X冤=E[I渊X冤]=n

当前ID3节点的的测优点移i=1

PilogPi1试在属于性可袁以那么选择对后具有续最划大分的信息子集增益进行的属再性分作为类所需信息量最小遥这样就可以减少分类次数袁产生结构最简单尧分类速度最快的决策树遥然而袁ID3也具有显而易见的缺点遥它偏向于选择取值较多的属性袁但这一属性常被证明不那么重要袁且对该属性的测试并不能带来相应需要的信息遥它倾向3.2.2于忽略C4.5小数模据型

量的组分袁再具体运用中显得不够全面遥

差遥在C4.5继承算ID3法能算很法好优点的弥地补基ID3础上算袁法C4.5在实算际法应用用中产信息增生益的率误作为选择属性的标准袁有效弥补了ID3算法中趋向于选择取值多的属性的不足遥

信息增益率的公式为院GainRatio渊S袁A冤=4SplitInfoGain渊S渊袁SA袁冤A冤4.1实数据证分析预处理

论述201

在将数据代入weka分析之前分段袁分别处理如下院标题为n_tokens_title的数据袁把取值为2-8的赋值为1袁9-10的赋值n_tokens_content为2袁11-12的赋432的值数为据袁3袁将大所于有13小于的数433据赋的值赋为值为4遥标题为赋值小为于4遥721对的题为赋值num_hrefs为2袁720-1200的数据的组赋袁将值取为值3袁为大1于1袁21200袁大于的分的别记为1袁2袁大于2的记为3遥对标题为num_imgs的数据袁取值为0袁1袁2的分别记为0袁1袁2袁大于等于3的通通记为3遥标题为num_videos的数据袁值为0的记为0袁大于0的记为1遥最终结果标签为share袁取值在0-999的记为D袁1000-1599的记为4.2C袁1600-3100记作B袁大于3100的则记为将数数据分析据代入过A遥

weka.classifiers.trees.J48-C0.25-M2程

分类器进行处理袁经过反复尝试之后袁最终选择以下7个变量袁其中以下style6ekend尧个作为data_channel_is_entertainment自变量院num_hrefs尧num_imgs尧尧data_channel_is_life折交叉袁shares验证的作为方式提高模因变量遥型采的用准10-folddata_channel_is_bus确性袁结cross-validation尧is_we果如图1所示遥

即十图1

最后模型的准确度在35%左右袁均方误差为0.3左右袁准确度并不高袁可见新闻预测的复杂性遥虽然如此袁该模型也具有一定的解释性河借鉴意义遥

可以看到图1中袁影响新闻阅读量最重要的因素是是否为周末发表袁其次是新闻的类型袁新闻中图片的数目对新闻的阅5读结量论与建也有很大的议影响遥

由图1发现袁在工作日发表娱乐性的文章的阅读量并不好袁发布图片多的非娱乐性新闻有利于提升阅读量遥值得注意的是在周末发表商业类的文章阅读量较高遥

可见平台在发布文章时不仅仅要考虑文章的质量袁还要综合考虑发布的时间袁文章的题材等多种因素袁以此来提高阅读量遥

[1]参考文献

[2]Roja史安斌袁廖蝶尔.野数据新闻学冶的发展路径of[3]newsBandariinsocial袁mediaSitaram院Asur袁andBernardo与A前景Huberman..2014.

Thepulse[4]Sasa刘进.探究新技术对新Forecasting闻传播的popularity.InICWSM袁2012.PredictingPetrovicConferenceMessage袁MilesPropagationOsborne,inand影响Twitter.Victor.2017.

InFifthLavrenko.InternationalRTtoWin!2011.

onWeblogsandSocialMedia渊ICWSM冤袁pages586~5AAAI袁[5]吴林锡.现代信息技术大数据对新闻传播的影响分析.2015.

收稿日期:2018-12-12

因篇幅问题不能全部显示,请点此查看更多更全内容