产品概述
iNLP自然语言处理分析平台,提供了丰富的语言学和分析建模工具,用来从繁多的非结构化数据中发现提炼有用的信息并进行预测。文本经过转换后会变成结构化数据,可以提供给后续的数据挖掘引擎进行分析。主题和话题也被识别出来,形成明确的关联关系,这样就可以对数据进行聚类,划分到相关的群组中,用于后续的评分或者预测型模型。本软件平台可以解决诸如:极性分类、多主题标注、情感分析、用户画像等。
产品定位
Ø 揭示以前未知的关联关系,加强发现处理能力
Ø 通过自动化处理,缩短决策时间
Ø 以一整套预测模型工具帮助您 识别趋势和把握商机
产品架构

优势特点
1、基于分布式平台的数据挖掘,提供准实时和实时挖掘的能力,大大提升了数据的时效性价值;
2、 应用先进的自然语言处理技术,使解析海量的互联网内容信息和交互信息成为可能;
3、 将海量数据挖掘的成本降低,使企业能够广泛享受数据挖掘带来的无所不在的价值。
iNLP产品是基于J2EE的B/S架构,可以构建于主流的Hadoop分布式文件系统之上,支持多层级模型的分布式数据挖掘引擎。
目前产品功能主要包含:分词标注,实体抽取 ,自动摘要,文本分类,时间转换,关键词抽取,文本相似性等各类组件。支持第三方语料补充、在线数据建模等;
产品算法包:
词典:Double-ArrayTie(双数组Trie树)
自动分词:最短路径、CRF(条件件随机场)、MMSEG正向最大匹配、逆向最大匹配、双向最大匹配、Viterbi二元分词
词性标注:HMM(隐马尔科夫模型)
实体识别:HMM(隐马尔科夫)、层叠隐马尔科夫模型
关键词提取、自动摘要:TextRank,奇异值分解SVD
依存句法分析:神经网络分类模型、最大熵模型
文本相似度:SimHash、最小编辑距离、空间向量余弦算法、最长公共子串
短语提取:互信息、左右信息熵
文本分类:K最近邻(k-Nearest Neighbor,KNN)、朴素贝叶斯模型(Naive Bayesian Model,NBM)、决策树模型(Decision Tree Model)、支持向量机SVM(Support Vector Machine)。
情感分析:基于情感词库,基于人工评价,基于极词表与人工相结合
分词标注:

实体抽取:机构

关键词云:
