解读这就是搜索引擎

《走进搜索引擎》这本是是比较简单的讲解了主流搜索引擎的大体系统,主要分为爬虫系统,分析系统,检索系统,查询系统。

爬虫系统(又称下载系统):下载万维网各种类型的网页,并且保持同步。

1.采取宽度优先. 2不重复抓取策略 采用md5 或者 哈希函数 3网页抓取优先策略,主要基于链接欢迎度(数目质量,反向连接),连接重要度,平均链接深度,4.网页重访策略 ,分为统一重访策略和个体重访策略。

分析系统:下载得到的网页数据进行pagerank 和分词计算

1网页结构分析:文本(长度,位置)打分 。2网页去重 有i-match算法和single算法。3通过字典对文本进行分词。4pagerank打分

索引系统:将分析处理后的网页对象索引入库。

1通过倒排索引。[词   文档数   偏移量] [单文档数 词个数 域列表]

查询系统:分析用户查询请求从索引库中检索出相关网页并排序后以查询结果返回用户。

1计算信息熵[查询词和检索词] 2自动摘要

以上是大致的提纲,下面是我做的思维导图。欢迎各位指教。

 

SEO要怎么做

做SEO,无非就是内容和外链两个方面。

现在的SEO,常规的外链(blog comment、论坛 profile甚至web 2.0)几乎没什么用了。

另外一种方法就是买外链,买外链的难度在怎样寻找到这样的高质量外链。分辨的过程很考功夫,很可能你以为是高质量外链的,其实并不是,这就既浪费了时间,也浪费了金钱,更浪费了感情。

百度识别买卖外链详细可了解百度站长平台咨询的谈外链判断。

内容方面要怎么搞

常见的问题:收录率太低,文章不收录、网站收录持续下降等

解决的方法嘛:

第一种,据说要提高页面质量,如何提高页面质量这是个问题。

第二种,要伪原创、或是原创文章,貌似这样做也不怎么收录。

第三种,噢,我正在想