Solr Cell 主要概念
在使用 Solr Cell 框架式,需要注意以下几个有用的点:
- Tika 会自动尝试解析输入文档(Word、PDF、HTML)的类型,并正确的抽取文本。如果你愿意,你可以使用 St.rema.typ 参数给 Tika 明确设置一个 MIME 类型
- Tika 运行时产生一个 XHTML 流提供给 SAX ContentHandler。SAX 是通用的 XML 解析器。
- Solr 回应 Tika 的 SAX 事件,然后创建字段给索引库。
- Tika 依照像 DubinCore 这样的规格,产生如标题、主题和作者这样的元数据
- Tika 添加所有抽取出来的文本放入 content 字段
- 可以把 Tika 的元数据字段和 Solr 的字段做映射,也可以设置这些字段的 boost。
- 可以传递一些常量给字段的值
- Tika 的 XTML 支持 XPath 表达式,可以通过表达式限制其内容的产生