how2j.cn

-->
下载区
文件名 文件大小
IKAnalyzer6.5.0.jar 5m
lucene.rar 9m

解压rar如果失败,请用5.21版本或者更高版本的winrar

点击下载 winrar5.21
步骤 1 : 分词器概念   
步骤 2 : IKAnalyzer6.5.0.jar   
步骤 3 : 代码演示 TestAnalyzer   

分词器指的是搜索引擎如何使用关键字进行匹配,如 入门 中的关键字:护眼带光源。 如果使用like,那么%护眼带光源%,匹配出来的结果就是要么全匹配,要不都不匹配。
而使用分词器,就会把这个关键字分为 护眼光源 3个关键字,这样就可以找到不同相关程度的结果了。
步骤 2 :

IKAnalyzer6.5.0.jar

edit
IKAnalyzer 这个分词器很久都没有维护了,也不支持Lucene7。 IKAnalyzer6.5.0.jar 这个是修改之后的的,可以支持Lucene7的jar, 在右上角下载(已经包含在右上角的lucene.rar中了)。
步骤 3 :

代码演示 TestAnalyzer

edit
如代码所示,使用IKAnalyzer 中文分词器就会把 护眼带光源 分为这么如图所示的3个小关键字进行匹配
代码演示 TestAnalyzer
package com.how2java; import java.io.IOException; import org.apache.lucene.analysis.TokenStream; import org.wltea.analyzer.lucene.IKAnalyzer; public class TestAnalyzer { public static void main(String[] args) throws IOException { IKAnalyzer analyzer = new IKAnalyzer(); TokenStream ts= analyzer.tokenStream("name", "护眼带光源"); ts.reset(); while(ts.incrementToken()){ System.out.println(ts.reflectAsString(false)); } } }
package com.how2java;

import java.io.IOException;

import org.apache.lucene.analysis.TokenStream;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class TestAnalyzer {

	public static void main(String[] args) throws IOException {
		
		IKAnalyzer analyzer = new IKAnalyzer();
		TokenStream ts= analyzer.tokenStream("name", "护眼带光源");
		ts.reset();
		while(ts.incrementToken()){
			System.out.println(ts.reflectAsString(false));
		}
	}
}


HOW2J公众号,关注后实时获知最新的教程和优惠活动,谢谢。


问答区域    
2018-08-20 怎么划分的?
MJ

为什么是护眼 带 光源 而不是护 眼带 光源 它是一个什么机制?




5 个答案

peterjxl
答案时间:2023-05-16
为什么是护眼 带 光源 而不是护 眼带 光源? 其实就是我们定义了一个词典,词典里写了护眼是一个词语,光源是一个词语,所以分词器就根据词典来分词 就好比我们的新华字典,里面的词语都是有意义的,无意义的词语不会演示

鸡你太美噢北北
答案时间:2020-09-14
看词汇呗,就比如说"护眼睛海带光源",它匹配的就是护眼、眼睛、海带、光源

我会努力学JAVA的
答案时间:2019-02-24
怎么分的感觉也不重要,反正我们用一套搜索引擎就行了,我估计怎么分的是一种智能匹配的结果,可能和人工智能的相关算法有关,比如svm,神经网络,遗传算法,and so on.

马鹿
答案时间:2019-01-12
这个可能需要看一下 向量机 了,有一整套公式在那边,中文分词,还有,支持向量机(SVM)

hubspring
答案时间:2018-12-27
是啊,看不明白



回答已经提交成功,正在审核。 请于 我的回答 处查看回答记录,谢谢
答案 或者 代码至少填写一项, 如果是自己有问题,请重新提问,否则站长有可能看不到








提问之前请登陆
提问已经提交成功,正在审核。 请于 我的提问 处查看提问记录,谢谢
关于 工具和中间件-搜索引擎技术-分词器概念 的提问

尽量提供截图代码异常信息,有助于分析和解决问题。 也可进本站QQ群交流: 578362961
提问尽量提供完整的代码,环境描述,越是有利于问题的重现,您的问题越能更快得到解答。
对教程中代码有疑问,请提供是哪个步骤,哪一行有疑问,这样便于快速定位问题,提高问题得到解答的速度
在已经存在的几千个提问里,有相当大的比例,是因为使用了和站长不同版本的开发环境导致的,比如 jdk, eclpise, idea, mysql,tomcat 等等软件的版本不一致。
请使用和站长一样的版本,可以节约自己大量的学习时间。 站长把教学中用的软件版本整理了,都统一放在了这里, 方便大家下载: https://how2j.cn/k/helloworld/helloworld-version/1718.html

上传截图