2.2、Lucene开发准备



目录

  1. 官网
  2. 下载Lucune文件库
  3. 下载Luke——查看索引的GUI工具
  4. 下载 IK 分词工具 —— 轻量级中文分词工具包
  5. 工程搭建

-—————————————————

官网

http://lucene.apache.org/

下载Lucune文件库

https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/java/8.0.0/

或者在工程中添加maven依赖

https://mvnrepository.com/artifact/org.apache.lucene/lucene-core/

1
2
3
4
5
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>8.0.0</version>
</dependency>

下载Luke——查看索引的GUI工具

主要功能:

  • 查看文档和分析字段内容;
  • 搜索索引;
  • 执行索引维护;
  • 从HDFS读取索引;
  • 将全部或部分索引转换为XML格式导出;
  • 测试自定义的Lucene分词器;

注意:Luke的版本要跟Lucene保持一致

项目地址:https://github.com/DmitryKey/luke/releases

下载 IK 分词工具 —— 轻量级中文分词工具包

独立于Lucene,面向Java的公用分词组件

同时提供了 对Lucene的默认优化实现

IK Analyzer2012的特性:

  1. 采用“正向迭代最细力度切分算法”,支持细粒度和智能分词两种切分模式;
  2. 具有 160万字/s 的高速处理能力,i73.4G双核、4G内存,win7 64位,jdk1.6;
  3. 支持简单的分词排歧义处理、数量词合并输出;
  4. 多子处理器分析模式,支持英文字母、数字、中文词汇等分词处理、兼容韩文、日文字符;
  5. 优化词典存储,更小的内存占用。

下载地址(需要翻墙):https://code.google.com/p/ik-analyzer/downloads/list

也可有上我的 oschina上下载:

安装包文件列表:

  • drwxr-xr-x 1 doc/ —— API 文档说明
  • -rw-r–r– 1 IKAnalyzer.cfg.xml —— 分词器扩展配置文件
  • -rw-r–r– 1 IKAnalyzer2012_u6.jar —— 主jar包
  • -rw-r–r– 1 IKAnalyzer中文分词器V2012_U5使用手册.pdf
  • -rw-r–r– 1 IKAnalyzer中文分词器V2012使用手册.pdf
  • -rw-r–r– 1 LICENSE.txt —— Apache版权申明
  • -rw-r–r– 1 NOTICE.txt —— Apache版权申明
  • -rw-r–r– 1 stopword.dic —— 停止词典

部署步骤:

把 IKAnalyzer2012_u6.jar 放在部署项目的lib目录下

把 stopword.dic 和 IKAnalyzer.cfg.xml 放在 class根目录,对于web工程时 WEB-INFO/classes 目录下

工程搭建

1、maven 安装 IKAnalyzer2012_u6.jar

mvn install:install-file -Dfile=D:\java\oschina\lucene-learn\lucene-chapter2\lib\IKAnalyzer2012_u6.jar -DgroupId=org.wltea.analyzer -DartifactId=IKAnalyzer -Dversion=2012_u6 -Dpackaging=jar -DgeneratePom=true -DcreateChecksum=true

2、在pom.xml中添加

1
2
3
4
5
<dependency>
<groupId>org.wltea.analyzer</groupId>
<artifactId>IKAnalyzer</artifactId>
<version>2012_u6</version>
</dependency>

3、 stopword.dic 和 IKAnalyzer.cfg.xml 放在 src\main\resources 目录下

这样编译完成后,它就会放在 classes 目录下