NLPIR大数据分词技术行业信息挖掘的推动者

  • 时间:
  • 浏览:1
  • 来源:大发11选5_大发11选5官网

版权声明:本文内容由互联网用户自发贡献,版权归作者所有,本社区不拥有所有权,只是承担相关法律责任。因此 您发现本社区所含涉嫌抄袭的内容,欢迎发送邮件至:

  随着计算机的日益普及,互联网的快速发展,文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长,因而对文本作智能化解决以获取所需信息的需求日益迫切。在只是的社会需求下,自然语言解决技术的地位和作用日益重要。分词作为自然语言解决的第有一一个多多步骤,是只是高层应用的基础,起着极其重要的作用。

  词是最小的不能独立活动的有意义的语言成分 。在中文中,词与词之间不趋于稳定分隔符,词 某种也欠缺明显的形状标记,因此 ,中文信息解决 的特有什么的什么的问题只是如保将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言解决的第一步,这是不同于只是语言的自然语言解决系统的重要特点,也是影响自然语言解决在中文信息解决中应用的重要因素。分词系统是中文信息解决中的有一一个多多主要组成每段,是中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统中最基本的一每段。汉字的简体/繁体转换、信息检索和信息抽取、搜索引擎、Web文本挖掘、文本分类、文本校对等中文信息解决系统都首先不能 分词作为其最基本的模块,因而对汉语词法分析技术的研究就显得至关重要。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准分类整理、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容解决的全技术链条的共享开发平台。

  NLPIR大数据语义智能分析平台十三大功能:

  精准分类整理:对境内外互联网海量信息实时精准分类整理,有主题分类整理(按照信息需求的主题分类整理)与站点分类整理某种模式(给定网址列表的站内定点分类整理功能)。

  文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,下行效率 达到大数据解决的要求。

  新词发现:从文本中惊现新词、新概念,用户可不不能 用于专业词典的编撰,还可不不能 进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。

  批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

  语言统计:针对切分标注结果,系统可不不能 自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。

  文本聚类:不能从大规模数据中自动分融化热点事件,并提供事件话题的关键形状描述。共同适用于长文本和短信、微博等短文本的热点分析。

  文本分类:根据规则或训练的法律措施对几瓶文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

  摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

  智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

  友情分析:针对完后 指定的分析对象,系统自动分析海量文档的友情倾向:友情极性及友情值测量,并在原文中给出正负面的得分和搞笑的话样例。

  文档去重:快速准确地判断文件集合或数据库中与否趋于稳定相同或例如内容的记录,共同找出所有的重复记录。

  全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

  编码转换:自动识别内容的编码,并把编码统一转换为只是编码。

中文分词技术应时代的要求应运而生,在很大程度上满足了一群人对自然语言解决的不能 ,解决了人和计算机交流中的只是障碍;但中文分词技术也趋于稳定只是困难,一群人相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并不利于自然语言理解系统的广泛应用。

进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。