汇高网讯主要功能简介舆情监测|竞争情报|大数据|云服务|舆情报告

设为首页| 加入收藏

定向采集、全网监控

定向采集，简而言之就是对指定网站、指定栏目的采集；

全网监控，简而言之就是通过主流搜索门户，把指定关键词的检索结果采集下来进行监控。

WebSpider蓝蜘蛛互联网定向采集系统、WebSpider蓝蜘蛛互联网全网采集系统等是我们开发的其他系统，可以实现定向采集、全网采集，这里就不展开介绍，详情请参考http://www.webspider.cn/

中文分词、智能处理

中文分词：对输入的文章内容进行分词处理，例如，我爱北京天安门，可以分成我/爱/北京/天安门四个词。分词底层有词库支撑，词库中包括词性、词频等词条属性值，用户还可以添加自己的用户词库或者外挂专业词库。

词性标注：通过对文章内容分词、统计分析、语义分析等计算出分词后结果词的词性。

关键词提取：计算出文章中主要的关键词、词频、重要性等数据指标，并过滤出核心关键词。

人名/地名识别：识别出在词库中尚未登录的人名、地名等。

内容指纹：通过对文章内容分词、关键词提取等方法分析出代表文章内容特征的内容指纹，可以用于内容排重等。

自动摘要：计算出文章中的关键词、核心语句等并形成文章摘要。

内容相似性分析：基于内容相似性算法，计算文章间的相似度指标并排序，提示人工进行干预处理或者根据设定的阈值自动处理，可以应用于相似性关联标识、相似性去重等功能点中。

自动分类：根据样本训练得出分类的特征向量空间模型，然后根据文章的特征向量实现对文章的自动分类。

自动聚类：把一批文章根据它们在特征向量空间中的距离远近进行分组。

敏感词识别：根据用户定义的敏感词词典，识别出文章中的敏感词并标识这些文章，实现对包含敏感词的文章的过滤。敏感词涉及"政治问题"、"负面报道"、"贬义词汇"、"赌博迷信"、"民族宗教问题"、"暴力色情"、"台湾问题"等类别。

主题追踪：对给定的文章进行主题分析，并追踪与该主题相同的其他文章。

正负面识别：根据积累的正负面语料库、词库，自动识别出文章的正负面。

全文检索：对分好词的文章建立起索引，帮助使用者在查全查准间取得平衡，使用者输入感兴趣的关键词即可进行精准的查询检索。

数据挖掘：通过数据抽取、数据管理、数据展现等关键技术，从大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

重点关注、分类导航

对于重点事件、重点人物、重点地区、负面新闻等，系统可以通过设置词库、规则、语料训练、特征关键词等多种方式进行重点关注；系统可以通过新闻分类、地区分类、站点分类、正负面分类、人物分类等多种分类方式进行导航浏览。

最新资讯、热点信息

通过系统可以看到互联网上最新的资讯消息，也可以看到各大网站争相报道、争相转载的热点信息，可以方便看到当天内、3天内、一周内、一个月内、一个季度内、一年内等时间范围内的最新资讯和热点信息。热点关键词可以以浑天仪的形式展示。

传播路径、转载态势

对于热点信息，可以看到该文章被转载的传播路径图、转载态势图等。

主题追踪、相关关联

可以对给定的文章种子进行主题分析，并追踪与该主题相同的其他文章；浏览一篇文章时，可以关联到与之内容相似的其它文章，便于延伸阅读。

自动分类、动态聚类

系统根据训练语料训练，可以得出自动分类模型，然后实现对文章的自动分类；系统还可以定时对热点资讯按照一天、三天、七天、一个月等时间跨度进行聚类，并自动产生聚类图。

舆情报告、预警通知

系统支持定期产生舆情报告等统计分析数据，也可以设置在突发事件发生时以短信、邮件等方式及时通知相关人员，实现及时报告、快速预警的处理效果。

个性订阅、随心收藏

系统通过portal技术实现个性化、可定制、可拖放的信息门户，用户可以方便订阅自己希望看到的、希望重点关注的信息，系统也提供收藏功能，可以把感兴趣的文章收藏到自己的私人收藏夹中。

多元统计、直观图表

对于舆情的地域分布、时间分布、网站分布等，可以进行各种方式的统计，统计结果可以以列表、表单、饼图、直方图等多种方式直观呈现。

专题加工、成果发布

基于系统，可以方便进行编辑、标引操作，可以加工制作自己的专题，专题可以在系统浏览，也可以以成果的方式提供给自己的领导、客户、会员等。

协同分工、权责分明

不同组别的用户具有不同的权限，不同级别的用户具有不同的审批、处理权限，既有利于大家分工明确、协同工作，也有利于权责分明。

　

©2003-2009汇高网讯科技（北京）有限公司版权所有京ICP备09021118号-2 京公网安备110108003169号