NLPIR大数据分词运用智能语义解决词语识别

2019-04-30 网站灵玖软件1050

核心提示：NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

随着信息技术的不断发展，互联网上的信息也在急剧膨胀，在这海量的信息中，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果由人来做这项工作，已经是不可能的，而如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不能充分利用。通过引入分词技术，就可以使机器对海量信息的整理更准确更合理，使得检索结果更准确，效率也会大幅度的提高。

中文分词是中文信息处理的基础，也是中文信息处理的关键，中文分词，通俗的讲就是由机器在中文文本中词与词之间自动加上空格。一提到中文分词，就会有两类人对此产生质疑，一类人是外行，对此技术不是很了解，认为中文分词很简单，另一种来自圈内人，也可以讲是行家，虽然中文分词已经研究了将近三十年，可是到现在为止并没有退出一个很好的中文分词系统，中文分词这个难题到底还能不能解决。无论是哪一方面的质疑，中文分词的研究不能放弃，因为这是中国计算机发展的关键，是其它中文信息处理的瓶颈。

由于中文词与词之间不象西文那样有明显的分隔符,所以构成了中文在自动切分上的极大困难。在现有的中文自动分词方法中,基于词典的分词方法占有主导地位。而中文分词的主要困难不在于词典中词条的匹配,而是在于切分歧义消解和未登录词语的识别。在中文分词过程中,这两大难题一直没有完全突破。

1、歧义处理

歧义是指同样的一句话,可能有两种或者更多的切分方法。目前主要分为交集型歧义、组合型歧义和真歧义三种。其中交集型歧义字段数量庞大,处理方法多样;组合型歧义字段数量较少,处理起来相对较难;而真歧义字段数量更为稀少,且很难处理。分词歧义处理之所以是中文分词的困难之一,原因在于歧义分为多种类型,针对不同的歧义类型应采取不同的解决方法。除了需要依靠上、下文语义信息;增加语义、语用知识等外部条件外,还存在难以消解的真歧义,增加了歧义切分的难度。同时未登录词中也存在着歧义切分的问题,这也增加了歧义切分的难度。所以歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个最困难也是最核心的问题。

2、未登录词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过词。未登录词可以分为专名和非专名两大类。其中专名包括中国人名、外国译名、地名等,而非专名包括新词、简称、方言词语、文言词语、行业用词等。无论是专名还是非专名的未登录词都很难处理,因为其数量庞大,又没有相应的规范,而且随着社会生活的变迁,使未登录词的数量大大增加,这又为未登录词的识别增加了难度。

北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

中文分词技术应时代的要求应运而生，在很大程度上满足了人们对自然语言处理的需要，解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难，我们相信在未来的几年里，通过对中文分词技术的深入研究，必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。