从服务器复制索引过程

主服务器并不能感知到从服务器的存在。从服务器会按照 pollInterval 参数的设置,不多从主服务器中检查索引版本。如果从服务器发现主服务器有新的版本存在,将启动索引同步进程。步骤如下:
  • 从服务发送一个 filelist 的命令,从主服务中获得文件列表,这个命令会返回文件名以及 metadata,包括大小,最后修改时间等
  • 从服务检查本地的索引中是否包包含这些文件,然后发送 filecontent 命令下载本地不存在的文件,该过程使用一种类似 http 块编码方式下载全部或者部分文件内容,如果过程中断,下次将从断点处继续。每次断开后,从服务器最多会重试 5 次
  • 文件下载下来后会放入临时目录,这样在复制过程出错也不会导致索引库不能使用。
  • 下载完成后,新的文件将会替换到现在的索引库中,新文件的时间戳也将跟服务器的同步
  • 最后将发生一次commit,新的索引将被加载

索引复制(Index Replication)

索引复制这种分布式方式,是由一个主索引和多个从索引构成,从索引从主索引复制索引。主索引负责更新索引,从索引复制同步索引和查询。一个主索引可以复制索引到多个多个从索引库。

索引复制

solr 伸缩性和分布式介绍

分布式解决的问题:
当搜索执行的时间太长,或者索引太大,此时要考虑使用 solr 的分布式了。solr 分布式中,将一个大的索引分成几个小的索引(shards,分片),放在不同的机器上。当执行搜索时,将查询划分成多个子查询,在不同机器的索引库中执行搜索,然后将查询结果合并。这个拆分查询和合并结果的过程对用户是透明了。
索引复制解决的问题:
  • 当单机的查询性能不济时,可以考虑复制出多台索引来分别承担压力,如做一个全国性的搜索,可以将索引库复制30来个,每个省分一个,每个省请求过来时,分别在自己省所分配的索引库中进行搜索
  • 将索引的读写分离,也可以很好的提供性能。由一个负责写索引,然后同步到其他索引,其他索引只读,仅提供搜索。
  • 备份索引,详见利用 Replication Handler 备份索引

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress