千家论坛--智能建筑-智慧安防-智慧社区-智能家居论坛

人工智能
收藏本版 (4) |订阅

人工智能 今日: 2756 |主题: 1010|排名: 24 

发新帖

配置Hanlp自然语言处理进阶...

[复制链接]
hadoop小学生 发布于: 2018-12-7 11:51 35 次浏览 0 位用户参与讨论
跳转到指定楼层
中文分词
中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。
下载jarpropertydata文件
下载jar文件,(下载hanlp压缩包)解压之后获得jarproperty文件如下:
其中property问配置文件,jar文件为外部引用文件。
然后下载data文件:
https://pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)
解压压缩包之后就能获取data目录了。
一切就绪之后下面就是配置了。
配置hanlp
新建一个空项目,包括一个新建的java文件的test.java
1.package com;
2.import com.hankcs.hanlp.HanLP;
3.public cl** Test {
4.public static void main(String[] args) {
5.    System.out.println(HanLP.segment("你好,欢迎使用HanLP"));
6.    }
7.}  
目录结构如下图:
如果是在linux中的话,你可以将property文件放在cl**path中,windows中也可以,配置环境变量,将property文件的绝对路径加上就可以了,然后运行一下这个java文件:
你会发现如下错误
1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
2.严重: 没有找到hanlp.properties,可能会导致找不到data
3.========Tips========
4.请将hanlp.properties放在下列目录:
5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\cl**es
6.Web项目则请放到下列目录:
7.Webapp/WEB-INF/lib
8.Webapp/WEB-INF/cl**es
9.Appserver/lib
10.JRE/lib
11.并且编辑root=PARENT/path/to/your/data
然后将property放到相应的目录就可以了,注意property配置只需要修改root的配置就行了。
1.本配置文件中的路径的根目录,根目录+其他路径=绝对路径Windows用户请注意,路径分隔符统一使用/
2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java
就比如我的解压后的data文件夹是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目录下的那我就改这个就可以了,其余的配置不用修改
运行成功如下图:
---------------------
作者:学zaza

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆 千家通行证登陆

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆 千家通行证登陆

本版积分规则

千家智客微信号
千家智客微信
玩物说商城
玩物说商城