Solr Cell

早先的 Solr 发行版可以很容易地索引已经存在的 XML 格式的文件,但是索引非 XML 数据,像 二级制文件或者 Office 文档,需要额外的处理。Solr 使用了 Apache Tika 来提供解析框架,该框架中整合了像 Apache PDFBox 和 Apache POI。使用了这个框架,Solr 的 ExtractingRequestHandler 可以使用 Tika 来支持二级制文件的上传,包括了常见的 Word 和 PDF 文件。

当这个框架在开发时,它叫 Solr 内容抽取库 (Solr Content Extraction Library or CEL),后来采用了缩写,取名为 Solr Cell。

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress   闽ICP备18020075号-1