在 Solr 示例目录中尝试 Tika

首先启动 Solr 示例的服务:

java -jar start.jar

新开一个命令行窗口,定位到 docs 目录下,通过 HTTP POST 向 Solr 发送一个文件。

cd docs
curl “http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true” -F “myfile=@tutorial.html

curl 的安装请参看前面的章节,在windows下,建议将 curl 安装目录放入环境变量的 Path 中。

上面的 URL 调用了 Extraction Request Handler,上传了 tutorial.html 这个文件,并制定它的 ID 为 doc1.以下是这个命令各个部分的解释:
  • literal.id=doc1 参数为被索引的文档提供必需的唯一 ID
  • commit=true 这个参数发送了一个提交请求(commit),让数据马上就能被搜索到。为了性能考虑,在提交大量文档时,不要每个文档都发送提交请求。
  • -F 参数提示 curl POST 数据时使用 multipart/form-data 这个 Content-Type,这样能支持二进制文件上传。
  • myfile=@tutorial.html 参数需要一个正确的路径。
现在可以通过这个链接查询刚刚上传的文档:

评论当前被关闭。

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress · 闽ICP备18020075号