千家论坛_弱电智能化技术与工程讨论(建筑智能,家居智能,人工智能)

人工智能
收藏本版 (4) |订阅

人工智能 今日: 2828 |主题: 1070|排名: 24 

发新帖

在Hanlp词典手动添加未登录词的方式介绍...

[复制链接]
hadoop小学生 发布于: 2019-1-25 11:24 188 次浏览 0 位用户参与讨论
跳转到指定楼层

在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:
一,在Hanlp词典中添加未登录词
1.找到hanlp内置词典目录
位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom 也就是Hanlp安装包中的data\dictionary\custom下目录
2. 将未登录词以词名,词性,词频的格式添加到文件中(句首或者句尾都可以)

3.将字典的同名bin文件删除掉
执行文件时读取的是bin文件,必须删掉后等下次执行时重新生成,新字典才发挥作用
图3
4.使用新字典重新执行文件
执行时会遇到没有相关bin文件的提示,不过放心,程序会自动生成一个新的bin文件,骚等片刻,就好了。
图4
验证结果是否正
图5


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆 千家通行证登陆

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆 千家通行证登陆

本版积分规则

千家智客微信号
千家智客微信
玩物说商城
玩物说商城