首页 > seo技术 > 搜索引擎的预处理机制
201110月1

搜索引擎的预处理机制

昨天给大家讲解的是搜索引擎的抓取机制,今天继续给力,给大家分享的是搜索引擎的预处理机制(提取关键词,消除噪音版块,加噪音)。搜索引擎抓取机制就是让我们明白那个蜘蛛是怎么干活的,怎么抓取网页的。

搜索引擎预处理就是把抓取回来的网页进行一些分析和处理,处理完了之后,存入到倒排索引当中,那么这个时候就提供查询了,这一部分工作基本上把第一个网站的排名都已经定好了,所以这一部分是我们SEO最关心的部分。

上一节课中我们提到蜘蛛把网页抓取回来,调度程序对网页的应答体(源代码)中的URL提取出来,就会把应答头和应答体存入原始网页数据库,预处理第一个工作,对原始数据库的网页建立索引,不会对关键建立索引,但对URL已经建立索引,是为了以后提供快照使用的,进行简直的数据存储。

建立原始数据库的网页索引:提高数据的查询效率,提供便利查询。
预处理机制一:原始网页数据库建立索引包括以下信息:网页id,url,title,存储的偏移量,内容长度,description摘要(网页的前多少个字符)。 

搜索引擎是动态摘要的,会根据这个关键词位置进行取。所以搜索URL和关键词摘要是不一样的,比如www.seowhy.com。
这个摘要是为了以后网页进行消重的,搜索引擎会对每一个人摘要建立MD5值,所以这个就是简直过滤算法。
  
预处理机制二:网页分词,把网页变成一组词的集合,建立正排索引,存入到索引数据库当中。

2、提取正文(过滤一些网页的标签,CSS,JS,噪音版块等。提取重要的数据版块)。

比如论坛最重要正文就是内容和回贴内容。噪音版块(与主题无关(跟当前页面的主题不相关的),不相关链接,版权信息,公司地址,并且大量重复的版块(导航)都会成为噪音版块,广告,JS等)

例:ent.sina.com.cn/v/m/2011-06-22/15423341748.shtml

   www.seowhy.com/  没有噪音的版块会认为优化过度。

加噪:为什么要增加了,为了打造一个不完美的网页,过于完美就是优化过度了。应时做的自然一些。

增加一个版块,最好的方法,增加一个版块,跟语义相关,分类相关,又不直接相关的,比如加点营销。

案例:www.seowindows.com/index.html 网络营销属于加噪的版块。
www.lady8844.com/shoushen/ 热门产品 卖的是化妆品。

预处理机制三:正文分词并建立索引  正文分词一个文档ID到索引词的关系表,每条记录中包含文档id(URL),索引词id(SEO),词的位置信息(34),特征标签信息(H1)。www.seowhy.com   seo   34   《h1》

把网页对应多少个关键词这个过程叫做正排索引。
倒排索引:把词包括多少个网页全部列出来,最高效的检查方式。

全文索引:所有的搜索引擎都是全文索引,只要不在噪音版块,只要这个词在你的网页当中出现了,都会索引。这个词在这个网页当中的重要性,决定你搜索这个词你能否看到你的网页。

分享到:

文章作者:admin
本文地址:http://www.pangziseo.com/seo_service/244.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

4 Responses to “搜索引擎的预处理机制”

  1. #1 捕鱼达人 回复 | 引用 Post:2011-10-02 00:15

    不错 很好的文章

  2. #2 邯郸网站建设 回复 | 引用 Post:2011-10-03 07:54

    呵呵。

  3. #3 河北seo 回复 | 引用 Post:2011-10-03 08:12

    学习了!

  4. #4 泉州seo 回复 | 引用 Post:2011-10-11 10:23

    谢谢分享,学习了啊

发表评论