想法占位

Solr cache sizes should be tuned to the number of documents in the
index, the queries, and the number of results you usually get from Solr.
我想,我应该做一个自动调整缓存的功能。先占个位,等全面了解完 solr 后再行实行。

Solr自带分词器,过滤器,语言分析

占位

接下来本来应该讲解 Solr 自带的分词器、过滤器和语言分析,鉴于这一部分内容多而繁琐,很多在中文处理中用不到,暂时先略过,以后有时间补上。

分词器

文本字段的分词器配置在 schema.xml 中的 <analyzer> 元素下的:

<br />
&lt;fieldType name=&quot;text&quot; class=&quot;solr.TextField&quot;&gt;<br />
	&lt;analyzer type=&quot;index&quot;&gt;<br />
		&lt;tokenizer class=&quot;solr.StandardTokenizerFactory&quot; /&gt;<br />
		&lt;filter class=&quot;solr.StandardFilterFactory&quot; /&gt;<br />
	&lt;/analyzer&gt;<br />
&lt;/fieldType&gt;<br />

这个class属性指明一个工厂类,这个工厂类在需要的时候可以产生一个分词器的实例。分词器工厂类实现了 org.apache.solr.analysis.TokenizerFactory ,TokenizerFactory 的 create 方法接受一个 reader 然后返回一个 TokenStream。当 solr 创建了分词器,通过一个 reader 传递文本的字段内容给分词器。

可以通过设置 <tokenizer> 元素的属性给分词器传递参数。
<br />
&lt;fieldType name=&quot;semicolonDelimited&quot; class=&quot;solr.TextField&quot;&gt;<br />
	&lt;analyzer type=&quot;query&quot;&gt;<br />
		&lt;tokenizer class=&quot;solr.PatternTokenizerFactory&quot; pattern=&quot;; &quot; /&gt;<br />
		&lt;analyzer&gt;<br />
&lt;/fieldType&gt;<br />

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress   闽ICP备18020075号-1