关于全文搜索的技术方案-白红宇

关于全文搜索的技术方案

阅读量：6329 次

发布时间：2019-06-22

本文共 2776 字，大约阅读时间需要 9 分钟。

一、 MySQL FULLTEXT

1. 介绍： Fulltext是全文索引，mysql支持英文的全文索引(通过寻找某些分隔符来确定单词的起始位置和结束位置)，是mysql的一部分，如果需要建立中文的全文索引需要安装插件。

2. 使用：

CREATE TABLE 时或之后使用 ALTER TABLE 或 CREATE INDEX 在 CHAR、VARCHAR 或 TEXT 列上创建。全文搜索时通过 MATCH() 函数完成。

3. 优点： Mysql自带，实现简单

4. 缺点：仅支持MyISAM引擎表；对中文支持差；效率可能一般；

5. 参考：

MySQL 英文全文搜索和中文全文搜索

MySQL Ver5.1全文搜索官方手册

6. 补充：如果是英语系，可以考虑直接使用?

7. 加分词插件?

>> 我们用的Innodb存储引擎，排除。

二、 Lucene/Solr

1. 介绍：Lucene是一套用于和的，近几年最受欢迎的免费Java资讯检索程式库。－使用Lucene的企业搜索服务器。

2. 使用：安装jdk, tomcat等环境；

3. 优点：开箱即用；对任何文件建立索引进行搜索，速度快；使用的人多；配置等比较灵活；

4. 缺点：实现比较复杂，不支持JAVA以外的API?；索引难维护；

5. 参考：

6. 推荐书籍：《Lucene IN ACTION》

>> 该方案需要JAVA同事搭建一个通用的搜索引擎，并提供接口。看项目整体架构设计了。

三、 Sphinx(SQL Phrase Index)/ Coreseek/SphinxSE

1. 介绍：Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

Coreseek是Sphinx的本地化版本，开源的中文检索/搜索引擎。

SphinxSE是一个可以编译进MySQL 5.x版本的MySQL存储引擎，它利用了该版本MySQL的插件式体系结构。它其实是一个允许MySQL服务器与searchd交互并获取搜索结果的嵌入式客户端。所有的索引和搜索都发生在MySQL之外。

显然，SphinxSE的适用于：

使将MySQL FTS 应用程序移植到Sphinx；

使没有Sphinx API的那些语言也可以使用Sphinx；

当需要在MySQL端对Sphinx结果集做额外处理（例如对原始文档表做JOIN，MySQL端的额外过滤等等）时提供优化。

2. 使用：网上文档和资料很多。

3. 优点：开发源码为C/C++；对MYSQL， POSTGRES集成的非常好，支持原生的 mysql/xml/python等数据源；应用的人多；性能还不错；

4. 缺点：索引的实时更新不如lucene(新版有提高)；功能不如lucene强大；

SphinxSE需要对Mysql源码重编译；

5. 参考：

Coreseek官网

Sphinx+Mysql+中文分词安装-实现中文全文搜索

与lucene、MySQL's full-text search的比较