
- 定向采集、全网监控
定向采集,简而言之就是对指定网站、指定栏目的采集;
全网监控,简而言之就是通过主流搜索门户,把指定关键词的检索结果采集下来进行监控。
WebSpider蓝蜘蛛互联网定向采集系统、WebSpider蓝蜘蛛互联网全网采集系统等是我们开发的其他系统,可以实现定向采集、全网采集,这里就不展开介绍,详情请参考http://www.webspider.cn/
- 中文分词、智能处理
中文分词:对输入的文章内容进行分词处理,例如,我爱北京天安门,可以分成我/爱/北京/天安门四个词。分词底层有词库支撑,词库中包括词性、词频等词条属性值,用户还可以添加自己的用户词库或者外挂专业词库。
词性标注:通过对文章内容分词、统计分析、语义分析等计算出分词后结果词的词性。
关键词提取:计算出文章中主要的关键词、词频、重要性等数据指标,并过滤出核心关键词。
人名/地名识别:识别出在词库中尚未登录的人名、地名等。
内容指纹:通过对文章内容分词、关键词提取等方法分析出代表文章内容特征的内容指纹,可以用于内容排重等。
自动摘要:计算出文章中的关键词、核心语句等并形成文章摘要。
内容相似性分析:基于内容相似性算法,计算文章间的相似度指标并排序,提示人工进行干预处理或者根据设定的阈值自动处理,可以应用于相似性关联标识、相似性去重等功能点中。
自动分类:根据样本训练得出分类的特征向量空间模型,然后根据文章的特征向量实现对文章的自动分类。
自动聚类:把一批文章根据它们在特征向量空间中的距离远近进行分组。
敏感词识别:根据用户定义的敏感词词典,识别出文章中的敏感词并标识这些文章,实现对包含敏感词的文章的过滤。敏感词涉及"政治问题"、"负面报道"、"贬义词汇"、"赌博迷信"、"民族宗教问题"、"暴力色情"、"台湾问题"等类别。
主题追踪:对给定的文章进行主题分析,并追踪与该主题相同的其他文章。
正负面识别:根据积累的正负面语料库、词库,自动识别出文章的正负面。
全文检索:对分好词的文章建立起索引,帮助使用者在查全查准间取得平衡,使用者输入感兴趣的关键词即可进行精准的查询检索。
数据挖掘:通过数据抽取、数据管理、数据展现等关键技术,从大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
- 重点关注、分类导航
对于重点事件、重点人物、重点地区、负面新闻等,系统可以通过设置词库、规则、语料训练、特征关键词等多种方式进行重点关注;系统可以通过新闻分类、地区分类、站点分类、正负面分类、人物分类等多种分类方式进行导航浏览。
- 最新资讯、热点信息
通过系统可以看到互联网上最新的资讯消息,也可以看到各大网站争相报道、争相转载的热点信息,可以方便看到当天内、3天内、一周内、一个月内、一个季度内、一年内等时间范围内的最新资讯和热点信息。热点关键词可以以浑天仪的形式展示。
- 传播路径、转载态势
对于热点信息,可以看到该文章被转载的传播路径图、转载态势图等。
- 主题追踪、相关关联
可以对给定的文章种子进行主题分析,并追踪与该主题相同的其他文章;浏览一篇文章时,可以关联到与之内容相似的其它文章,便于延伸阅读。
- 自动分类、动态聚类
系统根据训练语料训练,可以得出自动分类模型,然后实现对文章的自动分类;系统还可以定时对热点资讯按照一天、三天、七天、一个月等时间跨度进行聚类,并自动产生聚类图。
- 舆情报告、预警通知
系统支持定期产生舆情报告等统计分析数据,也可以设置在突发事件发生时以短信、邮件等方式及时通知相关人员,实现及时报告、快速预警的处理效果。
- 个性订阅、随心收藏
系统通过portal技术实现个性化、可定制、可拖放的信息门户,用户可以方便订阅自己希望看到的、希望重点关注的信息,系统也提供收藏功能,可以把感兴趣的文章收藏到自己的私人收藏夹中。
- 多元统计、直观图表
对于舆情的地域分布、时间分布、网站分布等,可以进行各种方式的统计,统计结果可以以列表、表单、饼图、直方图等多种方式直观呈现。
- 专题加工、成果发布
基于系统,可以方便进行编辑、标引操作,可以加工制作自己的专题,专题可以在系统浏览,也可以以成果的方式提供给自己的领导、客户、会员等。
- 协同分工、权责分明
不同组别的用户具有不同的权限,不同级别的用户具有不同的审批、处理权限,既有利于大家分工明确、协同工作,也有利于权责分明。