这两天正好有点空闲,稍稍看了一些lucene的内容。晚点可能会在link-nemo上加入相关的使用。这里先记录一个最简单的样例代码。Lucene是apache基金会里头比较有名的一个项目了,之前用过基于它的另一个全文检索框架Solr。需要的依赖jar:<groupId>org.apache.lucenegroupId>lucene-core</artifactId>5......
-
-
搜索引擎工作原理(记录)
第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一......4,725 4 2016-12-25 00:15