咨询热线:4006-75-4006

售前:9:00-23:30    备案:9:00-18:00    技术:7*24h

Sorl 6.6.0 实现定时更新索引

2018-02-28 23:57:09 2240次

Solr 定时更新索引

– solr 6.6.0 
– dataimport.scheduler

这里先重点说下,定时更新引用的org.apache.solr.handler.dataimport.scheduler.ApplicationListener不是sorl源码自带的,需要另外去下载,下载地址为:dataimport.scheduler,因为源码年久没人维护,所以并不兼容现有版本,需要做稍微的修改。

一、打开WEB-INF下的web.xml文件,在 前添加下面的配置,配置定时更新计划


    org.apache.solr.handler.dataimport.scheduler.ApplicationListener
  

二、 打开solr对应的core下conf目录的data-config.xml文件,配置增量更新索引。 
具体官网地址:delta-import。 
这里说下其中比较重要的参数: 
deletedPkQuery:是指增量更新的时候,要删除的document,查询只需要返回一个document的id即可,例如:Select id From Table Where Deleted=1 
deltaQuery:同上,返回了修改或添加的document。solr会自己判断是否需要添加或修改document,依据是managed-schema文件里面配置的uniquekey,如果有相同的,那就替换旧的,不存在则添加。这里的返回结果会排除掉上面deletedPkQuery的id。另外,如果uniquekey 的field定义类型为整形的要注意下,千万不要用pint(6.6.0下定义的)这个类型,增量更新的时候会出现莫名其妙的问题,我搞了好久才发现这个uniquekey定义的是pint,改成int后就正常了。例子:`Select id From Table Where Updated=1 And UpdateAt>'${dih.last_index_time}' 
deltaImportQuery:这个配置是增量更新的重点所在,它直接返回增量更新的数据(根据deletedPkQuery和deltaQuery返回的id),例子:Select * From DocumentTable Where ${dih.delta.id}, 
这里说下${dih.last_index_time},这个变量是core下的conf目录的dataimport.properties,上面记录了索引最近更新的时候,在执行查询的时候,solr会自动替换成配置文件里面记录的时间,${dih.delta.id}是deltaQuery里面返回的字段,这里是id,也可以是其他名字,如

 deltaQuery="SELECT StudentID   FROM Student Where Updated=1 And [UpdateTime] > '${dih.last_index_time}'"
 deltaImportQuery="SELECT * FROM Student  Where StudentID=${dih.delta.StudentID}"


首页
最新活动
个人中心
XML 地图