本网站(www.jtlsearch.com)用于展示我所研发的搜索引擎 - 景泰来搜索引擎。

    景泰来搜索引擎是一款实现全文搜索的轻量级搜索引擎系统。创立这个项目的初衷,是我认为目前的通用搜索系统,本质上更接近推荐系统 - 搜索结果仅部分返回给用户,搜索排名或搜索排序决定哪些结果返回给用户。而我在实际的文档查阅和搜索过程中,有时更关心文档匹配是否全面。尤其是科技文档的关键词查找,科技论文的引文查找,我往往更希望查找没有遗漏。在近几年学习过一些自然语言处理的知识,并且有一些学习心得之后,我决心研发景泰来搜索引擎。

    研发过程比较顺利,目前景泰来搜索引擎已经演进到 jtlsearch-0.4.0 版本。这个版本具有如下特点:

  • 文档匹配度高。景泰来搜索引擎处理并返回所有的搜索结果。利用自研技术,无论关键词是否被索引,精确搜索或模糊搜索可以确保搜索到所有文档出现关键词的文本。
  • 全文搜索。景泰来搜索引擎处理非结构化文本,仅需要将搜索目标文本转为 txt 格式,经由景泰来搜索引擎的编译系统处理,就可以构建搜索引擎服务。
  • 科技词汇和专业词汇识别率高。景泰来搜索引擎采用自研技术,可以有效识别科技词汇和专业词汇。其词库涵盖范围广。
  • 支持模糊查询。景泰来搜索引擎实现了语句相似度评估,可以在搜索结果里返回和关键词或关键句的结构和用语相近的查询结果。
  • 支持布尔查询。景泰来搜索引擎存在两种搜索逻辑,一种是简单搜索逻辑,关键词之间是简单的逻辑与关系;另一种是布尔逻辑,支持逻辑与、逻辑或、逻辑非以及括号。
  • 支持长句查询。除了关键词查询之外,景泰来搜索引擎允许用户输入长句作为搜索对象。和关键词查询一样,长句搜索支持精确查询模式和模糊查询模式。相应的语句相似度评估会决定将哪些结果返回给用户。
  • 支持中文和英文。目前景泰来搜索引擎支持中文搜索和英文搜索两种模式,其模糊查询的策略有所区别。
  • 服务响应速度较快。景泰来搜索引擎采用 websocket 技术,在网页上即时更新搜索结果,响应时间接近桌面应用响应时间。

    本网站(www.jtlsearch.com)展示了三个搜索主题,第一个搜索主题是 IETF-RFC 搜索。IETF-RFC 是国际互联网工作组的技术标准文档。本搜索引擎共收录中英文文档 8800 篇,其中绝大多数是英文文档。第二个搜索主题是 Java JEP 文档。JEP 全称 Java Enhancement Proposals,是 Java 语言自 Java 8 之后制定的程序语言演进标准。本搜索引擎共收录文档三百多篇,全部为英文文档。第三个搜索主题是四大名著《红楼梦》、《水浒》、《三国演义》和《西游记》,总共两百四十多万字,全部为中文文档

    不同的搜索主题有不同的搜索界面,搜索主题的页面有搜索说明,请参考搜索说明进行搜索。