Solr Cell 主要概念

在使用 Solr Cell 框架式, timberland 需要注意以下几个有用的点:
  • Tika 会自动尝试解析输入文档(Word、PDF、HTML)的类型, vente privee ugg 并正确的抽取文本。 bottes ugg soldes 如果你愿意,你可以使用 St.rema.typ 参数给 Tika 明确设置一个 MIME 类型
  • Tika 运行时产生一个 XHTML 流提供给 SAX ContentHandler。 ugg australia pas cher SAX 是通用的 XML 解析器。 moncler
  • Solr 回应 Tika 的 SAX 事件,然后创建字段给索引库。
  • Tika 依照像 DubinCore 这样的规格, ugg enfant 产生如标题、主题和作者这样的元数据
  • Tika 添加所有抽取出来的文本放入 content 字段
  • 可以把 Tika 的元数据字段和 Solr 的字段做映射,也可以设置这些字段的 boost。 ugg outlet france
  • 可以传递一些常量给字段的值
  • Tika 的 XTML 支持 XPath 表达式,

Solr Cell

早先的 Solr 发行版可以很容易地索引已经存在的 XML 格式的文件, timberland femme 但是索引非 XML 数据,像 二级制文件或者 Office 文档,需要额外的处理。Solr 使用了 Apache Tika 来提供解析框架,该框架中整合了像 Apache PDFBox 和 Apache POI。使用了这个框架, ugg soldes Solr 的 ExtractingRequestHandler 可以使用 Tika 来支持二级制文件的上传, Timberland Pas Cher 包括了常见的 Word 和 PDF 文件。 Moncler doudoune pas cher

当这个框架在开发时, chaussures puma 它叫 Solr 内容抽取库 (Solr Content Extraction Library or CEL), soldes puma chaussure 后来采用了缩写, magasin uggs pas cher en ligne 取名为 Solr Cell。

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress · 闽ICP备18020075号