1. Solr
1.1 Solr从数据库中读取数据并创建索引速度(使用DataImportHandler)
l 一次性创建索引
在JVM内存配置为256M时,建立索引至1572865时出现Java heap异常;增加JVM内存配置至512M,设置系统环境变量:JAVA_OPTS -Xms256m -Xmx512m,能成功建立2112890条(花费2m 46s)。
l 增量创建索引
<?xml version="1.0" encoding="UTF-8" ?> <dataConfig> <dataSource name="mysqlServer" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" batchSize="-1" url="jdbc:mysql://" user="lpuser" password="jlitpassok"/> <document> <entity name="locatedentity" pk="id" query="select id,time from locationplatform.locatedentity where isdelete=0 and my_date > '${dataimporter.last_index_time}'" deletedPkQuery="select id from locationplatform.locatedentity where isdelete=1 and my_date > '${dataimporter.last_index_time}'" deltaQuery="select -1 id" deltaImportQuery="select id,time from locationplatform.locatedentity where isdelete=0 and my_date > '${dataimporter.last_index_time}'"> <field column="id" name="id"/> <field column="time" name="time"/> </entity> </document> </dataConfig> |
l 注意:作者不推荐使用DataImportHandler,有其它更好更方便的实现可以使用。
1.2 Solr创建索引效率
l ConcurrentUpdateSolrServer使用http方式,embedded方式官方不推荐使用。ConcurrentUpdateSolrServer不需要commit,solrServer.add(doc)即可添加数据。SolrServer solrServer = newConcurrentUpdateSolrServer(solrUrl, 队列大小, 线程数)其需要与autoCommit、autoSoftCommit配置搭配使用,网上建议配置如下:
<autoCommit> <maxTime>100000(1-10min)</maxTime> <openSearcher>false</openSearcher> </autoCommit> <autoSoftCommit> <maxTime>1000(1s)</maxTime> </autoSoftCommit> |
l 17个字段,四核CPU,16G内存,千兆网络
数据量(W条) | 线程数 | 队列大小 | 时间(s) | 网络(MB/s) | 速率(W条/s) |
200 | 20 | 10000 | 88 | 10.0 | 2.27 |
200 | 20 | 20000 | 133 | 9.0 | 1.50 |
200 | 40 | 10000 | 163 | 10.0 | 1.22 |
200 | 50 | 10000 | 113 | 10.5 | 1.76 |
200 | 100 | 10000 | 120 | 10.5 | 1.67 |
l 速度:Solr创建索引速度与Solr机器CPU正相关,一般情况下CPU占用率能达到接近100%,内存占用率在默认情况下需达到接近100%,网络、磁盘占用率均小。因此创建索引的效率瓶颈在CPU及内存。当内存占用率维持在接近100%,索引大小达到物理内存大小时,插入新的数据容易出现OOM错误,这时需要使用ulimit –v unlimited命令更改virtual memory配置为unlimited再启动Solr便不会出现OOM错误。在64位机器系统上,官方推荐使用MMapDirectory。
l NRTCachingDirectory速度偏慢,会在某一时间索引添加停滞,Size先大后小,减小后索引添加继续。
l 大小:1亿索引大小约为13-16GB,2亿索引大小约为30GB。
1.3 Solr搜索方式
l 交集:{name:亿度 AND address:海淀} {text:海淀 AND 亿度}。
l 联集:{name:亿度 OR address:海淀} {text:海淀 OR 亿度}。
l 排除:{text:海淀 -亿度}。
l 通配符:{bank:中国*银}。
l 范围:{num:[30 TO60]}。
l 分页:start rows
l 排序:sort
l Group 权重中文分词 ...
1.4 亿级数据搜索速度
l 本节测试是基于1.2节创建的索引上的。
数据量(亿条) | 字段数 | 字段类型 | 时间(ms) |
1 | 1 | long | 1 |
1 | 1 | double | 80-1400 |
1 | 1 | string | 7-800 |
1 | 1 | date | 2-400 |
1 | 2(OR) | long | 2 |
1 | 2(OR) | double | 200-2400 |
1 | 2(OR) | string | 500-1000 |
1 | 2(OR) | date | 5-500 |
l 模糊搜索
数据量(亿条) | 字段数 | 字段类型 | 时间(ms) |
1 | 1 | long | 2000-10000 |
1 | 1 | double | 1000-17000 |
1 | 1 | string | 20-16000 |
1 | 1 | date | / |
1 | 2(OR) | long | 3000-25000 |
1 | 2(OR) | double | 7000-45000 |
1 | 2(OR) | string | 3000-48000 |
1 | 2(OR) | date | / |
l 范围搜索
数据量(亿条) | 字段数 | 字段类型 | 时间(ms) |
1 | 1 | long | 6-46000 |
1 | 1 | double | 80-11000 |
1 | 1 | string | 7-3000 |
1 | 1 | date | 1000-2000 |
1 | 2(OR) | long | 100-13000 |
1 | 2(OR) | double | 100-60000 |
1 | 2(OR) | string | 3000-13000 |
1 | 2(OR) | date | 7000-10000 |
l 结论: