分词结果过滤单个字符 #16

lyle-w · 2021-03-18T06:37:25Z

请问分词结果怎么过滤单个字符呢？如果源词就只有一个字符那么就直接返回源词，如果原来的词是多个字符例如 “我是中国人”，那么分词结果只保留 “我是中国人”， “我是”，“中国人”， “中国”，不再要“人”

magese · 2021-03-25T06:57:06Z

请问分词结果怎么过滤单个字符呢？如果源词就只有一个字符那么就直接返回源词，如果原来的词是多个字符例如 “我是中国人”，那么分词结果只保留 “我是中国人”， “我是”，“中国人”， “中国”，不再要“人”

这个需求可以使用solr自带的 Length Filter 过滤器来实现。

示例如下：

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.LengthFilterFactory" min="2" max="7"/>
</analyzer>

参数名	参数值	描述
min	int 必填	指定最小的token长度
max	int 必须大于min	指定最大的token长度

将该过滤器配置在 ik 分词器的过滤器列表里即可。

lyle-w · 2021-03-30T04:46:05Z

十分感谢🙏

Provide feedback