博客

2021/x/x 景泰来搜索引擎：从检索信息到挖掘信息

2021/11/4 景泰来搜索引擎 jtlsearch-0.4.0 正式发布

景泰来搜索引擎的新版本 jtlsearch-0.4.0 已经完成开发，这个新版本是景泰来搜索引擎的新起点。从这个版本开始，景泰来搜索引擎将逐渐从信息检索演化至信息挖掘。不仅支持检索文档内容的功能，更能挖掘文本中的知识。这样的演进，在 jtlsearch-0.4.0 中初步体现在：

1，支持词频排序，用户可以选择优先显示词频较高或较低的搜索结果；

2，支持文本相似度排序，用户可以挖掘关键词的常用语句搭配；

3，支持信息熵排序，用户可以挖掘哪些搜索结果是比较罕见或比较常见的信息；

4，区分文档内排序和文档间排序；

景泰来搜索引擎的其他改进包括：

1，进一步完善了搜索排序功能，并更新了网页设计；

2，支持服务器端的搜索结果缓存，用户重复搜索关键词时会得到更快的响应；

3，优化了景泰来编译系统，降低了内存占用；

4，取消了 linux manual 演示系统，以中文古典四大名著作为中文搜索及中文小规模文档搜索的演示系统；

5，修正了一些软件错误；

6，进行了较多的单元测试和基础的集成测试；

2021/9/6 景泰来搜索引擎 jtlsearch-0.4.0 进度一览

景泰来搜索引擎的新版本 jtlsearch-0.4.0 将进行一些重要改进，包括：

1，优化搜索程序运行时间，减少索引文件大小并减少索引读取时间；

2，优化排序策略，文档相似度或文本相似度的服务器端处理时间都将更少；

3，更新网页设计和用户交互，当需要返回的搜索条目较多时，和搜索用户协商进行筛选；

4，取消 linux manual 作为官网演示项目，采用四大名著作为中文搜索及小规模中文文档搜索的演示项目；

5，修正一些软件错误；

2021/7/1 景泰来搜索引擎 jtlsearch-0.3.0 发布

景泰来搜索引擎的新版本 jtlsearch-0.3.0 正式发布，有如下更新：

1，新增搜索排序功能，包括文档间排序和文档内排序，允许用户对排序策略进行配置；

2，重新设计搜索前端网页，设计搜索配置弹出框，与新增功能相整合；

3，修正了一些软件错误；

2021/6/19 景泰来搜索引擎的特点

景泰来搜索引擎是一款文档搜索引擎，它和文档搜索软件有所区别，也非通用搜索引擎。和文档搜索软件相比，景泰来搜索引擎提供文档统一的标准化管理，确保访问的用户所使用的文档一致；和通用搜索引擎相比，景泰来搜索引擎更侧重于搜索而非推荐，不对用户搜索兴趣进行假设，仅尽可能全面的返回与用户所输入的关键词或关键句相匹配的文本。

景泰来搜索引擎的研发，是我最近两三年来学习经验的很好总结。其中一些技术是我独创的。如果让我介绍景泰来搜索引擎的优势，我会首先列举这么几点（截至 jtlsearch-0.3.0）：

1，文本匹配度高。在这里，我避免使用召回率（或查全率）这个概念，因为通用搜索引擎往往关心相关性，并且将其融入评判标准。景泰来搜索引擎不对用户搜索兴趣进行假设，仅尽可能的返回与用户输入相匹配的文本。当用户输入 python 的时候，所有出现 python 的文本都会返回给用户；当用户输入“北大”的时候，无论是“北大青鸟”还是“北大荒”都会作为结果返回。这种匹配可以拓展到人名、地名、产品名等。

2，模糊查询。如果仅支持精确查询，或许一个 grep 命令足矣。景泰来搜索引擎支持模糊查询功能，对于英文而言，允许输入的关键词或关键句出现拼写差异；对于中文而言，允许用户输入的文本存在多几字或少几字的情况。模糊查询支持对英文单词的词根拆分，比如输入 cess 可能匹配 process 这个词。这个功能在用于模糊匹配化学成分、医学名词、计算机术语等方面，有独特的优势。

3，关键句匹配。景泰来搜索引擎的一个特点在于，无论是精确匹配还是模糊匹配，都可以从文档中匹配长句。长句并非没有限制，景泰来搜索引擎以句为单位返回结果给用户，因此所搜索的关键句不能横跨两个句子。关键句搜索在论文引文搜索方面十分有用。

景泰来搜索引擎所测试的数据量，目前并不大，最大负荷为 IETF-RFC 的文档约 8800 篇（460MB）。IETF-RFC 最早的文档发布于上世纪六七十年代，演进已有四五十年。这样的数据量难以称为大数据，但是也可以说是颇具规模。

目前，景泰来搜索引擎正在稳步演进，jtlsearch-0.3.0 会是第一个比较完整的景泰来搜索引擎产品形态。