curl 工具

以后章节中的许多例子会用到 curl 这个工具来通过 URL 发送数据给 Solr 索引库。curl 通过 HTTP、FTP 等其他协议来发送和接收数据。大部分的 Linux 发行版中包含了一个 curl。在网上(curl 的官网可能需要翻墙才能打开)可以用下载到 Linux、Windows 和其他操作系统版本的 curl 工具 ,这里有一个 Windows 版本的 curl

Solr Example 目录

在 Solr 发行包中,有一个 example 目录,这个目录中包含一个 Solr 运行实例,和上传到索引库所用的实例文档。实例文档在 solr_home /example/exampledocs 中找到。

什么是索引

索引是指添加内容到 Solr 的索引库,必要的时候,会修改或删除索引库中的数据,通过将数据加入索引库,我们就可以通过 solr 搜索这些数据。

Solr 索引库可以接受多种类型的数据源,包括 xml 文件,CSV 文件,从数据表中提出出来的数据,类似Word 和 PDF 这些常见的文档。
这里有三个常见往索引库添加数据的方式:
  • 使用构建在 Apache Tika 之上的 Solr Cell,Tika 可以提取二进制文件或者像 Office、Pdf 这样的结构化文件。
  • 通过 HTTP 方式,将 XML 文件上传给 Solr 服务器。
  • 写一个 Java 程序,通过 Solr 的 Java 客户端 API 。在应用程序中,使用 Java API 提交数据可能是最好的方式。

不管通过什么方式来抽取数据,但是往 Solr 索引库送数据有一个基本数据结构:document,一个document包含多个字段,每个字段包含一个名称和数据,数据有可能为空。其中的一个字段通常会被设置成唯一ID字段,尽管这个唯一ID字段在 Solr 中不是必须的。

如果字段名称在 schema.xml 文件中有定义,在分析阶段,字段的内容将会按配置中的说明进行处理,如果字段名称在 schema.xml 没有明确定义,将去动态字段中匹配该字段。

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress