在 Solr 示例目录中尝试 Tika

首先启动 Solr 示例的服务:

java -jar start.jar

新开一个命令行窗口, ugg pas cher 定位到 docs 目录下,通过 HTTP POST 向 Solr 发送一个文件。

cd docs
curl “http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true” -F “myfile=@tutorial.html

curl 的安装请参看前面的章节, timberland femme 在windows下, moncler femme 建议将 curl 安装目录放入环境变量的 Path 中。

上面的 URL 调用了 Extraction Request Handler, Soldes Timberland 上传了 tutorial.html 这个文件,并制定它的 ID 为 doc1.以下是这个命令各个部分的解释:
  • literal.id=doc1 参数为被索引的文档提供必需的唯一 ID
  • commit=true 这个参数发送了一个提交请求(commit),让数据马上就能被搜索到。 moncler Doudounes 为了性能考虑,在提交大量文档时, ugg australia pas cher 不要每个文档都发送提交请求。
  • -F 参数提示 curl POST 数据时使用 multipart/form-data 这个 Content-Type, basket timberland 这样能支持二进制文件上传。
  • myfile=@tutorial.html 参数需要一个正确的路径。

Solr Cell

早先的 Solr 发行版可以很容易地索引已经存在的 XML 格式的文件, timberland femme 但是索引非 XML 数据,像 二级制文件或者 Office 文档,需要额外的处理。Solr 使用了 Apache Tika 来提供解析框架,该框架中整合了像 Apache PDFBox 和 Apache POI。使用了这个框架, ugg soldes Solr 的 ExtractingRequestHandler 可以使用 Tika 来支持二级制文件的上传, Timberland Pas Cher 包括了常见的 Word 和 PDF 文件。 Moncler doudoune pas cher

当这个框架在开发时, chaussures puma 它叫 Solr 内容抽取库 (Solr Content Extraction Library or CEL), soldes puma chaussure 后来采用了缩写, magasin uggs pas cher en ligne 取名为 Solr Cell。

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress · 闽ICP备18020075号