非结构化文本处理系统iNLP

产品概述

iNLP自然语言处理分析平台，提供了丰富的语言学和分析建模工具，用来从繁多的非结构化数据中发现提炼有用的信息并进行预测。文本经过转换后会变成结构化数据，可以提供给后续的数据挖掘引擎进行分析。主题和话题也被识别出来，形成明确的关联关系，这样就可以对数据进行聚类，划分到相关的群组中，用于后续的评分或者预测型模型。本软件平台可以解决诸如：极性分类、多主题标注、情感分析、用户画像等。

产品定位

Ø 揭示以前未知的关联关系，加强发现处理能力

Ø 通过自动化处理，缩短决策时间

Ø 以一整套预测模型工具帮助您识别趋势和把握商机

产品架构

优势特点

1、基于分布式平台的数据挖掘，提供准实时和实时挖掘的能力，大大提升了数据的时效性价值；

2、应用先进的自然语言处理技术，使解析海量的互联网内容信息和交互信息成为可能；

3、将海量数据挖掘的成本降低，使企业能够广泛享受数据挖掘带来的无所不在的价值。

iNLP产品是基于J2EE的B/S架构，可以构建于主流的Hadoop分布式文件系统之上，支持多层级模型的分布式数据挖掘引擎。

目前产品功能主要包含：分词标注，实体抽取，自动摘要，文本分类，时间转换，关键词抽取，文本相似性等各类组件。支持第三方语料补充、在线数据建模等；

产品算法包：

词典：Double-ArrayTie（双数组Trie树）

自动分词：最短路径、CRF（条件件随机场）、MMSEG正向最大匹配、逆向最大匹配、双向最大匹配、Viterbi二元分词

词性标注：HMM（隐马尔科夫模型）

实体识别：HMM（隐马尔科夫）、层叠隐马尔科夫模型

关键词提取、自动摘要：TextRank，奇异值分解SVD

依存句法分析：神经网络分类模型、最大熵模型

文本相似度：SimHash、最小编辑距离、空间向量余弦算法、最长公共子串

短语提取：互信息、左右信息熵

文本分类：K最近邻(k-Nearest Neighbor，KNN)、朴素贝叶斯模型（Naive Bayesian Model，NBM）、决策树模型(Decision Tree Model)、支持向量机SVM(Support Vector Machine）。

情感分析：基于情感词库，基于人工评价，基于极词表与人工相结合

分词标注：

实体抽取：机构

关键词云：

产品与服务

非结构化文本处理系统iNLP