什么是舆情监测?通过什么途径实现舆情监测?舆情监测系统的特点

作者:网络 时间:2018-07-19 22:31:10

什么是舆情监测?

  • 一、人工监测
  • 人工,是进行全网的搜索,通过关键词的信息量,人为判断舆情产生,这种方式需要在全网铺开来做,比如新闻网站、论坛、贴吧、微博、微信都是属于舆情滋生之地,皆有可能产生舆情。但人工搜索工作量大而且容易遗漏存在巨大风险,最关键的是你所遗漏的可能正是关键事件。
  • 二、专业的舆情监测平台。
  • 专业舆情平台,是借助专业机构的舆情相关软件,利用技术获取海量信息,再利用中文分词技术、自然语言处理技术、中文信息处理技术,对信息进行垃圾过滤、去重、相似性聚类、情感分析、提取摘要、自动聚类等处理,及时发现舆情。

舆情监测,舆情监测系统,舆情监控


通过什么途径实现舆情监测?

一、使用搜索入口作为捷径

搜索入口有两类:一类是搜索引擎的入口, 一类是网站的站内搜索。

做舆情监测往往是有主题、有定向的去做, 所以很容易就可以找到监测对象相关的关键字,然后利用这些关键字去各类搜索入口爬取数据。

当然也会遇到反扒的问题,例如你长时间、高频次的爬取搜索引擎的结果页面,网站的反扒策略就会被触发,让你输入验证码来核实是否是人类行为。

使用搜索入口作为捷径也会带来一些好处,除了爬取门槛低,不需要自己收录各类网站信息外,另一个特别明显的好处是可验证性非常好,程序搜索跟人搜索的结果会是一致的, 所以人很难验证出你获取的数据有偏颇。

舆情监测,舆情监测系统,舆情监控

二、爬虫根据网站入口遍历爬取网站内容

第一步要规划好待爬取的网站有哪些? 根据不同的业务场景梳理不同的网站列表, 例如主题中谈到的只要监测热门的话题,这部分最容易的就是找门户类、热门类网站,爬取他们的首页推荐,做文章的聚合,这样就知道哪类是最热门的了。思路很简单,大家都关注的就是热门。至于内容网站怎么判断热门,这个是可以有反馈机制的:一类是编辑推荐;一类是用户行为点击收集,然后反馈排序到首页。

第二步是使用爬虫获取数据。爬虫怎么写是个非常大的话题,在这里不展开说明,需要提一嘴的是, 爬虫是个门槛很低但是上升曲线极高的技术。难度在于:网站五花八门;反扒策略各有不同;数据获取后怎么提取到想要的内容。

三、数据检索与聚合

数据获取下来后哪些是你关心的、 哪些是垃圾噪声,需要用一些NLP处理算法来解决这些问题。这方面门槛高、难度大。首先大规模的数据如何被有效的检索使用就是个难题。 比如一天收录一百万个页面(真实环境往往比这个数量级高很多),上百G的数据如何存储、如何检索都是难题。值得高兴的是业内已经有一些成熟的方案,比如使用solr或者es来做存储检索, 但随着数据量的增多、增大,这些也会面临着各种问题。

通常对热门的判断逻辑是被各家网站转载、报道的多, 所以使用NLP的手段来做相似性计算是必须的,业内常用的方法有Simhash或者计算相似性余弦夹角。有些场景不单单是文章相似,还需要把类似谈及的文章都做聚合,这时就需要用到一些聚类算法,例如LDA算法。从我们的实践经验来看,聚类算法的效果良莠不齐, 需要根据文本特征的情况来测试。

如何判断一个舆情监控系统的是否优秀?如何选定舆情监测系统?市面上舆情监控系统鱼龙混杂,那么优秀舆情监控系统的判断标准是什么?优秀的舆情系统必须有以下三个方面的特点:

  1. 1. 反应速度快。互联网信息繁多,时效性是最显著的特点。特别是微博的出现使信息传播效率提高到了分钟级。很多时间十几分钟就得到了广泛的传播。所以我们需要的舆情监测系统的第一个要求就是有快速的响应时间。
  2. 2. 数据质量高。互联网信息杂乱无章,从杂乱的信息里找到精准有用的舆情非常重要。优秀的舆情系统能自动过滤垃圾,发现重要的信息。
  3. 3. 后续服务好。仅给客户提供一推文章显然是不够的。客户需要得到的是每天发生了什么,什么是重要的,跟竞争对手相比如何,跟上个月有什么变化,应该如何应对等问题。优秀的舆情监测系统还需要能提供舆情监测的服务,而不仅仅是一个软件。

版权声明: 【TOOM舆情通】舆情监控是一家专注于网络舆情监控软件开发研究,大数据分析智能分析处理。致力于为客户提供从全网信息监控到危机事件应对和品牌宣传推广的一整套解决方案。公司树立以客户需求为核心的经营宗旨,全心全意为客户服务,努力打造最贴心、最专业的互联网服务公司。公司总部位于北京,拥有多个服务器机房中心和专业的舆情分析师团队。如需要舆情监控网络公关,品牌维护,舆情监控需求请联系我们在线客服QQ:1169226953。 本文由舆情监控原创,转载请保留链接: http://www.yuqingtong.org/zhishi/2083.html,部分文章内容来源网络,如有侵权请联系我们删除处理。谢谢!!!

相关文章