在 Solr 示例目录中尝试 Tika
首先启动 Solr 示例的服务:
java -jar start.jar
新开一个命令行窗口,定位到 docs 目录下,通过 HTTP POST 向 Solr 发送一个文件。
cd docs
curl “http://localhost:8983/so ” -F “myfile=@tutolr/update/ex tract?litera l.id=doc1&co mmit=true rial.html “
curl 的安装请参看前面的章节,在windows下,建议将 curl 安装目录放入环境变量的 Path 中。
上面的 URL 调用了 Extraction Request Handler,上传了 tutorial.html 这个文件,并制定它的 ID 为 doc1.以下是这个命令各个部分的解释:
- literal.id=doc1 参数为被索引的文档提供必需的唯一 ID
- commit=true 这个参数发送了一个提交请求(commit),让数据马上就能被搜索到。为了性能考虑,在提交大量文档时,不要每个文档都发送提交请求。
- -F 参数提示 curl POST 数据时使用 multipart/form-data 这个 Content-Type,这样能支持二进制文件上传。
- myfile=@tuto
rial.html 参数需要一个正确的路径。
现在可以通过这个链接查询刚刚上传的文档:
标签:Apache Tika, curl