全网爬虫系统
红麦软件自主研发了专为舆情系统设计的智能网络爬虫(spider)系统,可以实现高质量和快速的抓取,还支持对新浪微博、腾讯微博、搜狐微博、网易微博等主要微博平台信息的实时抓取。
15万定向抓取源
红麦舆情监测系统对于人工定义的15万重点站点中的新闻、论坛、博客等实现全面的抓取,同时支持对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数、回帖内容的抓取。
搜索引擎结果
红麦智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对于系统抓取进行补充,确保信息全面无遗漏
垃圾信息过滤
基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。
智能去重
采用“文章相似性技术”,根据文档内容的匹配程度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。
HTML内容提取
采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。
快照保存
对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子。
文章权重计算
综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息。
传播轨迹分析
系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现。
自动分类与情感分析
将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析。
相似文章算法
基于自然语言处理技术,系统根据文章内容相似程度计算相似文章,方便获取同一内容文章的所有传播网站。
媒体覆盖分析
系统可以对于监测信息的媒体类型情况进行展示,同时对于信息的主要传播媒体自动识别,进行整合分析,以图表呈现。
倾向性分析
采用文本聚类和倾向性分析技术,对论坛帖子等网民评论进行聚类分析和倾向性分析,归纳网民观点,并自动进行褒贬倾向性的分析。
爆发趋势分析
对于重要的热点新闻信息,系统会进行分析和追踪,自动统计相关的新闻和论坛传播情况以及舆情的走势,进行爆发趋势分析.
WEB客户界面
基于云计算模式,用户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。
客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。
导航栏清晰明了,方便用户查看各种分类;栏目定制功能,用户可以在首页自行删、减、增添所需要的功能模块。
实时搜索功能,用户可以自定义搜索条件查看系统内抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。
舆情预警
预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息列表。
建立多个舆情指标,对于突发舆情自动发出预警信号,在最短时间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导。
舆情分析报告
根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,并且可以导出生成为Word、PDF等格式的本地文档。
专业行业分析师辅助提供相关日报、周报、月报,方便客户对不同时段的重点和热点进行把握。
对于突发事件提供详细的事件专题分析报告,对事件舆情数据进行有针对性的解读。