分词器
文本字段的分词器配置在 schema.xml 中的 <analyzer> 元素下的:
<br /> <fieldType name="text" class="solr.TextField"><br /> <analyzer type="index"><br /> <tokenizer class="solr.StandardTokenizerFactory" /><br /> <filter class="solr.StandardFilterFactory" /><br /> </analyzer><br /> </fieldType><br />
这个class属性指明一个工厂类,这个工厂类在需要的时候可以产生一个分词器的实例。分词器工厂类实现了 org.apache.solr.analysis.TokenizerFactory ,TokenizerFactory 的 create 方法接受一个 reader 然后返回一个 TokenStream。当 solr 创建了分词器,通过一个 reader 传递文本的字段内容给分词器。
可以通过设置 <tokenizer> 元素的属性给分词器传递参数。
<br /> <fieldType name="semicolonDelimited" class="solr.TextField"><br /> <analyzer type="query"><br /> <tokenizer class="solr.PatternTokenizerFactory" pattern="; " /><br /> <analyzer><br /> </fieldType><br />