NLP入门学习中关于分词库HanLP导入使用教程
倚梦为码 人气:0大家好,时隔多年再次打开我的博客园写下自己的经验和学习总结,开园三年多,文章数少得可怜,一方面自己技术水平局限,另一方面是自己确实想放弃写博客。由于毕业工作的原因,经常性的加班以及仅剩下少的可怜的休息时间实在是想好好休息。但现在又回到了校园,在2019年4月份我选择了辞职考研,如愿考取了计算机科学与技术的硕士研究生,目前在长春理工大学就读,在导师的建议下我选择NLP(自然语言处理)这个研究方向。对于自己重新开始写博客,一方面是为了巩固自己学习的成果,另一方面是自己在摸索的过程中经历了一些问题,走了一些弯路,写博文是希望同样遇到这个问题的兄弟姐妹看到我的博文后自己的问题能够顺利解决。
作为NLP的入门学者,为了能够学得更好,我们需要将理论学习与实践相结合。我们在学习 <<自然语言处理入门>> 这本书时需要导入作者何晗开发的中文语言处理类库 HanLP。 我是自学过一段时间得java语言,所以本篇博客采用java方式导入。
导入之前需了解的基础知识:java运行环境的配置、maven项目的创建以及系列操作
步骤:
1.创建一个文件夹作为maven工程存放的父级目录 例如:nlpProject
2.在此目录下新建一个maven Module
选择好安装好的JDK之后给你的maven Module取一个名字
3.配置pom.xml文件,将下列代码加到文件中
1 <dependencies> 2 <dependency> 3 <groupId>com.hankcs</groupId> 4 <artifactId>hanlp</artifactId> 5 <version>portable-1.8.1</version> 6 </dependency> 7 </dependencies>
4.安装依赖
5.运行
上面是一帆风顺情况下的步骤,当然,真实情况并不是那么完美。你有可能会出现以下几种问题,对应解决方案如下:
问题1:报找不到加载类的编译错误
解决方案:你需要在这个地方更改一下你的编译设置
问题2:明明你导入了依赖,而且idea未编译之前不报错。但是为什么报 HanLP无法找到的错误
乱码情况如下图:
加载全部内容