火车头采集栏目下文章

闲话少说,这次是用火车头采集某栏目文章的教程,希望对咱们苦逼的外推猿有所帮助,
1,了解栏目页url规律,


2.采集出列表页文章的url





3.文章页标题、内容的采集规则


4.导出规则

5.采集结果

批量修改文件类型的小技巧:

在同级文件夹(需要修改文件扩展名的文件夹里)新建一个txt文件,输入以下命令:
@echo off
ren *.htm *.txt
保存,然后将该文件扩展名.txt改成.bat(批处理文件),然后运行就可以了

11.png (42.52 KB, 下载次数: 1)

11.png

HITS算法与外部链接处理

最近在研究文本聚类与文本分类这些东西,觉得这些都是seo中非常核心而且非常基础的算法和处理,如果不能好好地把握到核心,很多处理的过程并不能很好地理解HITS算法与外部链接处理,虽然很多人不屑于基础理论的建设。

HITS算法是一个非常常见的算法,无数的seoer都了解或者阅读过百度百科,不过,对于HITS算法的深层次理解的人想来却不是很多,例如最近在光年论坛上讨论的两个帖子,一个人是Hub主题确定处理现象,就是说首页由于内页的一个链接,导致在搜索内页title时候出现结果却是首页,另一个是GSA的测试,得出来的结果是含有锚链接的词域降低了TF。其实仔细想下,这两个现象都是和hits算法有关的,第二个的结论也是错误的,第一个的说法也没有说道实质上。不信,你可以仔细阅读下HITS算法就知道了。

说到HITS算法,我们可以说到两个值authority值与hub值的问题,一个是内容质量权威度一个是链接质量权威度(个人为了容易区分)。HITS算法最大的优势是基于主题关键词的计算,相对于PR仅仅计算链接关系来说,降低了内容挖掘和结构挖掘的量度,但是由于关系的复杂性和人为因素的影响,hits算法也有非常多的盲点和缺憾,其中最重要的有4点问题:
1,Hub主题难以确定-authority的主题漂移
由于hub页面的主题是由链向的页面确定的,很多时候链向页面的主题是非常复杂的,这样就导致了主题的多样性,例如光年论坛的第一个问题就是最好的证明。而且这种指向有时候是非常多的,导致首页的hub权重也非常高,影响就非常大。被指向的页面也会出现这样的事情,最常见的就是主题漂移。

其实解决这个问题,最好的办法是加大meta标签的权重,但是现实上并不理想,另外的方法就是降低hub页面的hub权重。(看到资料上有人说采用平均值降低hub页面的hub值,个人觉得很无语。谷歌PR修正算法中其实已经涉及到权重值的分配问题,所以剩下的就是主题性的确定,百度对于这个技术确实不行,所以很容易出现这些事情也是正常的。)

2,全站链接与链接农场

hits算法的如果按照常规的计算,加入一个页面链接了很多页面那么这个页面的hub值是非常高的,那么可以采用链接农场的方式作弊也就不足为怪了;全站链接是和链接农场相反的一种做法,让一个网站的链接全部链接到另一个页面,这样被链接的页面也就获得了很高的authority权威值。但是由于黑帽,hits算法才开始改变。问题是,他是如何改变的呢?如果了解了这个问题,恐怕对做外链会有很大的帮助的。

3,从无关链接到文内链接与内链是有区别的

无关链接曾经帮助很多开发者的网站权重提升很多,一些站内的无关链接如导航链接或者次导航之类的链接都曾经被很多seoer所熟悉,但是都成为了过去式。从hits算法原理上,这些原本都应该影响搜索的,后来被PASS掉了。但是另外一中的链接仍旧存在着很重要的影响,那就是文内链接。光年论坛第二铁的错误就在于他仅仅注意到了文内链接的影响,要知道内链和内链是不一样的,而我不把文内链接看作内链的。

4,低质量的链接与无关页面

曾经几何还有人在兜售说神马蜘蛛精外链工具,其实se早就发现了大量无效的聚合页面,比聚合搜索的页面,这些页面之间是没用主题相关性的,仅仅是一些其他关系而放在一起的,对于这个处理其实是蜘蛛最大的难题,一般采用web内容挖掘技术,了解数据含义,但是蜘蛛目前来说仍旧是一个难题。

第十五节:Google Analytics与数据分析

建议参加者:

对网站数据分析不熟的培训参加者。

课程内容简介:

通过Google Analytics的基础使用方法介绍,展开通常情况下的数据分析方法。并讲解正则表达式的基础运用。

课后:

使用Google Analytics分析网站现有流量数据。

上半节

定制报表

同比、环比分析

下半节

细分分析

品牌词流量辅助分析

AB测试

seovip培训排名启示录

最近很多人问快速排名的问题,其中最多人关心的就是例如seovip的20天快速排名是怎么坐上去的,觉得是一件神奇的事情。robin老大也在说了一些排名的因素,我在这里继续吐槽下自己的看法,仅仅代表个人观点。seovip培训排名能够上去的原因其实和链接的因素最大,因为他自身是没有什么内容和结构可言的,而且robin一直做seo排名的时候用的都是静态的页面,这点最好的解释就是降低主题因素的影响,因为导航页面的主题识别相对于内容识别会难一些,因此在操作上控制也就比较难度大一些,所以他采用了首页静态页面的方式,在内容上并没有大的操作之下,通过页面设计和外链整合产生一定的早期效应,而且外链起到的还是主要的因素。但是很多人却未必相信,因为百度查询外链貌似并不多,其实这点是有个误解区的问题,在于百度外链的展示的统计方式上。这点做seo的要么没有注意到,要么也陷入了一些误区,比如狗小云(我记得他博客上有写过这个)。因为采用其他的工具时候,seovip的外链数量是非常惊人的,这主要是因为seovip的外链构成。其他的不说,比如seovip曾经经历了百度的三次降权,第一次的原因是因为外链,第二次杜绝外链,第三次是外链。所以从某个意义上,seovip的外链还是比较“单一”的,不然的话外链因素的影响就会大大降低,而不会每次都会收到外链因素的影响。我讲这点,想让大家知道,seo的排名有时候真的没那么深奥的东西,比如是某某神奇的算法影响等。其实至今都没有看到有纯粹钻算法而成功的案例,只是一些普通的东西有些人操作的比较隐晦些,而有些人比较明显些,比如曾经风火一时的狼雨,后来点击器流行之后,大家都淡然了。seo没有神奇的东西,很多人做不好seo不是因为外链不多,也不是内容不好,也不是结构神马的问题很多,最主要的是整合运用上。seovip早期做起来排名是因为外链,但是稳定之后却一直居高不下,这才是我们值得思考的问题,而不是追逐什么20天神奇的排名技术。做seo有时候就如你拿奖学金一样,最后拿奖金不一定是某一课考试最好的,也有可能不是因为你学习最好的,而是你各个方面都不弱的情况下某些方面特别强,这样才有优势。从更加长远和整体上来看,我们都不是robin,一个小站采用他的模式估计一个劫难都逃不掉的,所以他的模式却不适合大多数的人,但是他的思维还是有点借鉴的地方,综合地运用一切因素,才能有不错的效果。想很好的运用他,你必须深刻地理解他。seo应该渐渐地走下神坛,每个人都淡然地处理用户需求,站在更加全局性的地方去看待这一切,而不是盲目地追求某某的技术,到最后你跌倒的地方都是你脚下最不注意的地方。seovip培训的排名是否会继续,没有人敢肯定,但是它给我们的诸多的启示还是值得思考下。

详解中文分词系列(1)

一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。

对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。

二、中文分词技术

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

三、分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

1、歧义识别

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

四、中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

五、百度的分词

百度的蜘蛛爬到的文档索引入库的时候是只进行了简单的分词处理,也就是只是简单的把中文单个字单个字的分开,要证明这点很简单,你只需要搜索单个词就可以了,你也可以找一些莫名其妙的两个字或者三个字组合在一起搜索百度看,你就会明白他入库的时候只进行了简单的把单个中文分开的处理。他把复杂的分词逻辑放到了处理用户输入查询关键字的时候。仔细一想,其实这样做能够最大限度的消除歧义。

当用户输入两个字和三个字的词进行搜索的时候百度也没有进行任何处理的,也只是把他们简单的按照单个字分开,然后查询的时候条件是这两个字或者这三个字必须连接在一起,中间没有任何其他的字。要证明这点也很简单,大家只要输入任意两个字的词或者三个字的词进行搜索就可以了,甚至你可以搜索毫无意义的词进行查询,看是不是出来的搜索结果要么是没有找到任何内容,要么是包括你输入了的任何字,而且这些字都是连接在一起的,虽然这些字他们之间的组合是毫无意义,这也同时证明了百度在索引入库的时候是只进行了简单的按照单个中文分开。

当用户的输入词大于3个字的时候,百度就开始会对查询词进行分词,测试下来,百度不单单是使用简单的分词技术,很好可能将统计数据等融入分词中。

第十二节:深入关键词分析

建议参加者:

所有培训参加者。

课程内容简介:

介绍百度指数、百度凤巢关键词工具、百度搜索推广API KRService三个常用关键词分析工具。

课后:

通过关键词分析出来的要点,针对性去修改网页的title等。

上半节

百度指数

主要用于趋势、用户数据等大局的分析。

,与+的用法

趋势分析

地域分析

百度凤巢关键词工具

主要用于日常分析。

高级设置->地域拓展词

(存在屏蔽词的情况)

百度搜索推广API KRService

主要用于拓展词,扩充数据。

下半节

批量关键词分析:Python脚本实例

电商seo培训之搜索排序规则框架

所有的人最关心的是,搜索排序规则是怎么样的?卖家也总是在问,我怎么做才能让商品排在前面?
综合排序和单维度排序
大家也都看得到,在搜索的排序有几种,除了默认综合排序之外,还有单维度排序,包括按价格排序、按销量排序、按人气排序和按信用排序。在淘宝,人气排序有一阵子占比很高,之后降到20%,到现在也全都默认是综合排序了。在拍拍,单维度排序流量很低,一方面单维度排序的体验不太好,另一方面我们很多用户还不能算是深度用户(这和我们新老用户占比有关系),使用单维度排序的用户很少,我们这里讨论的还是综合排序。
那么,综合排序怎么排?
在讲具体的影响因子之前,搜索关键词还要有命中商品的相关性问题,然后还有对搜索作弊商品屏蔽和降权的过程。
电商seo培训之搜索排序规则框架

相关性
商品的相关性,首先是命中商品的相关性。搜索中怎么命中商品呢的?这就涉及到搜索域的问题了,也就是哪些东西会被纳进搜索的范围。现在拍拍的搜索域就只有三个,标题、品牌和品类名称及上一层级名称。
在拍拍,标题最多60字符,也就是30个汉字,在淘宝设定标题的原则其实在拍拍也同样适用:1.建议尽量使用完标题的字数;2.系统会做分词,因此加不加空格都可以,当然为了用户的可读性,加空格对用户来说舒服些; 3.关键词重复没有意义,放前放后也不影响; 4. 经常带来流量的词不要轻易修改; 5.不要加无意义的符号。
品牌和所属品类也会被命中,比如说搜索“以纯”,那么属性值勾选“以纯”的所有商品都会被搜出来,搜索“T恤”,那么“T恤”这个类目下的所有商品都会被搜出来。这给卖家的启发也很显而易见,挂对品牌和品类。因为很多大流量的关键词实际上就是品类名,像“连衣裙”、“牛仔裤”等等。
当然放在正确的品类下还有一个很重要的作用,就是类目的相关性。每个关键词,系统都会通过用户的行为去计算它和类目之间的相关程度。比如,“iphone”这个关键词跟手机类目的相关性肯定要高,而跟手机壳的相关性肯定要低。卖家有没有把商品放对类目,就很可能会影响到它获取这些关键词的流量了。
标题的相关性以及品类的相关性,这两个方面就是通常所说的相关性问题。
防作弊
防作弊是另外一个前提,一方面是系统的算法一开始就有预防卖家作弊的设计,而对卖家来说更关心的可能是另一方面,就是在实际操作过程中针对搜索作弊的商品进行屏蔽和降权。
搜索作弊简单来讲就是通过欺骗的手段来获得搜索曝光和流量。这是破坏搜索这个生态系统的恶劣行为,对于这样的毒瘤是要坚决下狠手消除的。
关于搜索作弊的类型和处罚,我们已经有相关的认定和规则。作弊的方法和手段很多,处罚也有轻有重,这里要单独来讲,这里暂不展开。总之,受到处罚的商品,可能会被屏蔽,就是说商品根本搜不出来;或者会被降权,就是搜索能找到商品,但是排序在最后面。
现在总算要开始讲正常经营中影响搜索结果排序的因子了。说起来也很简单,无论是淘宝的阿基米德排序原则,还是拍拍的搜索影响因子,或者其他开放平台的影响因子,都会大同小异,包括这几个方面,商品竞争力、卖家竞争力和平台策略。可能不同平台之间,不同阶段,侧重点不同罢了。
商品竞争力
在拍拍,影响商品竞争力的因子有销量、主营类目商品、人气(浏览及收藏)、属性完整度、搜索曝光转化。
销量。销量是所有商户最直接关心的因子。但真正理解它的人却不算多。首先,很多商户会问,销量统计多长时间的销量?最初是90天,可是我们发现90天的时间太长了,夏天热卖的短袖T恤到了秋天仍然排在前面,因为2、3个月前的销量太高了,而长袖T恤的销量还没有积累上来,这就是造成了搜索出来的T恤不应季。类似这样的应季问题让我们思考如何加快商品的轮转,于是就有了30天销量因子和7天销量因子,这两个因子大大得到增强,商品的更新就更快了。然后计不计算团购、今日特价、空间直投取得的销量呢?很多商户知道,淘宝是不计算的,但其实我们仍然是计算的,我们还没有到淘宝聚划算大大影响排序的那个阶段。
主营类目商品。主营类目反映的是一个店铺聚焦的核心品类,店铺主营类目的商品相对来说是他们店铺内更有竞争力的商品。主营类目女装的卖家,他们店的女装商品会得到加分,而如果她们发布3C数码的商品,那就得不到加分。过去存在的问题是,主营类目是按一级大类来划分的,比如女装是一级大类,同时男装是另一个一级大类,那美特斯邦威作为知名的休闲品牌,它会同时发布男装、女装的商品,那怎么办呢?是不是只能一部分商品得不到加分呢?不是的,我们现在已经按大类来划分了,因此美邦所有服饰的商品都会得到加分。
人气,就是浏览及收藏。浏览及收藏是衡量这个商品是否是大家关注的商品,反映商品的人气。这里值得注意的是,这里计算的浏览并不是商品所有的浏览,而是从搜索过去的浏览,我们称之为自然流量的浏览。和销量不同的是,像今日特价、团购、空间直投过去的浏览并不计算在内。
属性完整度。这个因子是我们今年才添加的,希望卖家能够把商品的属性填写得更完整,这样给用户更多商品信息作决策。同时,这对卖家商品曝光也是有好处的。
这几个因子给卖家的启发也很简单,就是在自己的主营类目发完整信息的商品、做高流量、做高成交。那自然有人会问,那卖家上团购等活动的商品很容易满足这几个条件,是不是很容易就获得商品排前?
前面说过,平台级别的活动包括团购的成交都是计入到销量的,但人气并不算。此外,为了消除上活动的商品也可能是劣质商品。我们引入了另外一个关键的因子:搜索曝光转化。
即使是因为活动使销量、人气都很高,但如果这些商品在搜索的场景下曝光了,但点击去看这些商品的转化很低,那是会被减分的。前面三个因子都是加分项,这个是减分项,而且曝光转化率如果一直很低,就每天都会减分,减到0为止。
当然仅仅是搜索的曝光点击,像空间直投的广告这些地方曝光点击很低,是不影响搜索这个场景的。
这样就会自然淘汰低曝光点低转化的商品,让商品得到轮换,不至于让实际上不怎么样的活动商品一直排在前面。很多次核心卖家来问我,他们家的爆款为什么在搜索里面原来排第一页,后来排在三五十页,我查了之后发现,通常是因为这个因子减分导致的。
当然这个分数减到最低之后,过段时间能够满血复活,重新参与排序。并不是一棒子打到死。
卖家竞争力
卖家竞争力的因子包括,QQ在线、卖家综合分、QQ网购卖家、作弊处罚。
QQ在线是最基本的,如果QQ不在线,商品排序肯定是在最后面的。
卖家综合分是由DSR、投诉率、缺货率、多客服60秒响应率这几个指标综合决定的。这几个指标是衡量卖家服务能力的重要指标,是需要卖家长期维护的。之前也有卖家中差评数的指标,但是后来由于差评师的兴起,这个指标的影响太大了,而且现在淘宝也把这个指标取消了,我们在去年底也已经松绑了这个指标。
还有卖家作弊处罚的问题。在淘宝,很早就实现了,卖家作弊商品多,会让整个店铺搜索降权。我们一直没有做,直到最近才开始做这个关联,效果很明显。
平台策略
平台策略是一种导向,有点鼓励加分的色彩在里面了。平台策略一句话就说完了,只要是卖家推荐、假一赔三、七天免邮包退、快速发货、促销的商品都可以得到加分。
卖家推荐商品最多是12件,可以在店铺管理中设置。这是尊重卖家的意见,可以给卖家主推的商品加分,从某种角度来说有利于卖家打造爆款,这个是卖家要考虑的。促销商品,主要是店铺满立减和满立送的商品就可以获得加分。其他三点的操作就很简单,只要平台鼓励的,赶紧做,看看自己的商品有没有假一赔三、七天免邮包退、快速发货的标,没有就申请打上这个标。
当然,大家喜闻乐见的大促商品加分也是会做的,这个也就是一年中疯抢节的大促才做的事情。
排序影响因子优化
说到这里,基本上就说完了。有人为问,拍拍会不会按下架时间排序的。明确地告诉大家,不会。淘宝有这个规则,我们没有。淘宝商品实在太多,流量实在太大,轮换是有意义的。我们目前不做,这个意义不是很大,如果商品轮换影响到相关性,那就不好了。
当然,可能有些人觉得可以考虑有更多的因子,可能也有些人觉得某些因子并不十分合理。欢迎大家一起来讨论优化,搜索因子本来就不是一成不变的,它是应该不断地进行优化。而无论怎么变化,原则上都是诚信经营、货好货正及用心服务的商户得到支持和鼓励,商户只要是为消费者创造价值,就应该得到更多流量,我们不会亏待这样的卖家,因为我们最终也希望为消费者创造价值。
拍拍以及QQ网购的卖家很苦恼如何争取优质的活动资源,更多的卖家在苦恼如何努力获取多一点的自然流量。其实只要告诉他们游戏规则,卖家很聪明,都能玩得很好。所以,很想和大家一起建立一个健康的搜索生态系统,传播方法,让卖家自己努力能获得多一些自然流量,做多一些生意,有多一些信心,在电商,这光明而又苦逼的电商。

seo与田忌赛马的故事

seo这不是一项神奇的技术,只是很多人把它夸大了,比如目前seo都陷入了困境,我刚刚还听说一些医疗的企业甚至都在放弃seo,专做外推和竞价了,因为seo太坑爹了。seo这个朝阳一样的行业,就是在人们狂热的吹嘘和毫无判断的seoer的操作中渐渐走到了穷途末路。其实seo也不会短期内消失,因为搜索其实是无处不在的,以后我会专门写写这个,目前seo不好最主要的原因是因为人们的认知出了很多问题,或者说这个圈子内的人都被一些不良的想法所占据了,浮躁,夸耀和梦想非非占据了很多人的心扉。

前不久,我在我的微薄上给人说,seovip培训一直为何排在我前面的问题?感谢几位的参与,至于答案很简单的是,seovip的基础比我强,最主要的就是外链比我的多了太多,虽然我的博客做了一些优化调整,在某些方面占据略微的优势,但是作为一个核心因素的外链上我是无法和robin大神的博客比拼的,所以我的博客可能在一定的时间内都久居其下。当然想超越不是不可能,最主要的是需要一些资源的累积,不然那就没有办法了,因为seo就是那么一些事情,有些东西不是我们所想的那样,我会了seo就一定怎么样的,这里都是有前提的,那就是你和对手不能差距太大。这让我想起历史上的田忌赛马的故事,我想或许有点启发。

这个具体的故事可以百度下,里面的孙膑属于中国少有的军事大家,他最神奇的就是可以化腐朽为神奇,就像seoer们所崇拜的神一样,比如给田忌的赛马就是一例。但是田忌之所以取胜,并不能完全说孙膑厉害,假如田忌的上等马也没有对手的中等马强悍的话,即使有

N个的孙膑,田忌可以取胜吗?显然是不可能的,因为他的基础太差了。这很类似与seo的排名,你能不能超越对手不是说你的策略多牛,你的技术多先进,而是你的网站的底子至少不能比对手差太多了,否则那就回天乏力了。seo说白了也就这么一回事,当你了解了一切的情况后,你能对与对手的竞争中处于主动的地位,甚至可以知道你能所处的位置会是怎么样的。

说道基础,人们最先想到的是外链问题。对小站来说,外链确实是个很大的优势,没有外链很多核心词的排名确实很难拼过对手,但是这里也有很多问题的是,现在seo比拼的不仅仅的外链,还有很多其他的基础性因素,而且我看到的很多站自身的外链资源并不算少,最主要的是其他的因素做得太差了,甚至可以说很多的seoer除了更新内容和发外链外都不知道该做做什么了,确实很悲剧。

同时,随着检索技术的发展,外链所占据的因素在逐渐降低中,我们完全有机会通过其他的因素去取得胜利,但是由于传统seo思想的制约,很多人的seoer还停留在外链思维或者崇拜一些所谓的神秘排名技术上。其实我们现在回过头来看,seo真的没有什么神奇的技术。

即使那些玩灰色的,你看到的也都是最基本的因素控制,而且做得都不怎样而已。但据我所知的很多seoer总还想着一技成名,可以通过某些方法而不是基础的积累去换取应得的seo。

seo永远只能起到一个辅助的作用,假使一个网站不存在大的问题的话,根本没有什么神奇的地方,无论你在社区上或者QQ群内看到某某案例的神奇之处,其实只是很多的因素你不知道而已,而这些很多的都是些基础性的影响。

谈点seo排名的背后一些事

昨天一位seo给我看了几个机械页面,问我哪些页面的优化的好,我随意说了下,没有想到我说好的页面都是在百度排名好的,说差的竟然都是排名差的,他觉得我可能查询了排名之后说的。其实说句实话,我真没查询这些页面的排名,就是根据自我的认知说的;而且我说了页面优化的好和最终排名好并不是划等号的,因为最终排名页面还受到网站权重、用户行为的影响的。但是我们也可以看到,一般页面优化好的,往往其他方面也很强,所以排名好。我一直说的是,排名是一个整体因素的影响,但是某些时候也会一些看似“奇怪的现象”,一些看似不该有好的排名却排名很好,比如举几个例子:
谈点seo排名的背后一些事

这个网站,域名年龄只有16天,但是预估流量却碉堡地达到了20w,关键词库是过万。猛一看,很神奇啊,这么厉害的网站肯定是高手发明的某某手法。其实这样的例子我们经常看到,之所以会发生这样的事情,其实你了解背后因素却很简单,一个更大流量的站给它做了301,而在百度后台采用了改版工具之后,301快速生效了,所以产生了这个看似神话的效果。

再比如你在百度搜索“seo学堂”,我这个新浪博客竟然排在第一,在这个博客上没有出现过一次seo学堂相关的话题,而下面的很多站标题、描述、文内都出现了很多次:
谈点seo排名的背后一些事
但是,这个问题也很容易猜到,我在致在seo中渐渐迷失的人中说了,我把一个独立不想做的博客做了首页做了跳转,而那个独立博客由于以前seo学堂排名很好,所以在百度数据还没有完全生效之前,导致这个新浪博客排名也很好了。但是根据百度关于301的说明中说的,这个排名会随着时间而逐渐消失……

再比如前不久一个人咨询我的事情,这个新浪博客seo排名竟然有3个,他最大的疑惑是3个而不是2个或者1个,其实这个背后也是由于搜索的数据缓存还没有完全计算过来造成的,并没有多少奇怪的。
谈点seo排名的背后一些事
在这里提这个例子,也无疑是因为很多时候也会看到很多这样的例子,有的站一个页面就是有多个排名,很多人一直找不到原因。其实你不是这个站的站长,你如果是也许你根本不用去找就知道背后的seo原因是什么。

除了以上的3个小例子,我们平时还能看到很多奇怪的例子,比如某个根本和seo无关的企业站忽然seo这个词排名很好,甚至排到了前三页,其实很大部分是因为他以前是做seo的,因为历史数据和外部锚文本的存在,在一些数据更新时候就出现了这个情况。

再比如很多人喜欢关注“seo”这个词的排名,很多站的排名看似很奇怪啊,比如外链不多,比如网站很新,比如内容很少,但是seo却很好,但是你仔细分析下,很多真相马上会浮出水面,而背后的道理却非常的简单明了了……

最近我个人开始站在一个行业生态上去考虑和分析seo,而不某一些网站现在的情况与排名,觉得感触和收获颇大,可以做的seo空间顿然无限放大了。另外想说的是,其实很多的行业,seo还存在很大的空间,不说其他的,就以seo行业而论,还有很多seo流量根本没有人去做,seo可以做的空间很大很大……

详解中文分词系列(2)

一、中文分词技术综述

1、全文检索技术

所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事 先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引 和基于词的全文索引。基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英 文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高,但查准率较低。有时会出现令人啼笑皆非的检索结果,如检索货币单位“马克”时, 会把“马克思”检索出来。基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切 分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词,以达到按词索引的目的。对中文文档进行切词,提高分词的准确性,抽取关 键词作为索引项,实现按词索引可以大大提高检索的准确率。

2、中文分词技术

中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。中文分词 系统是利用计算机对中文文本进行词语自动识别的系统,对其研究已经取得了很多成果,出现了众多的算法。根据其特点,可以将现有的分词算法分为四大类:基于 字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法等。

二、中文分词方法

中文分词方法的基本原理是针对输入文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。中文分词模块的输入输出如下图1所示。

详解中文分词系列(2)
1、基于字符串匹配的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个 字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则 主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为i,则取被处理材料当前字符串序列中的前i 个字符作为匹配字段,查找分词词典,若词典中有这样一个i 字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率为1/169。
逆向最大匹配法(RMM)。该方法的分词过程与MM 法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为1/245。
逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。
设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包括单音 词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。
最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到 最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。
由上面的算法,不难看出基于字符串匹配的分词方法的优缺点:

优点:简单,易于实现。
缺点:1)匹配速度慢;2)存在交集型和组合型歧义切分问题;3)词本身没有一个标准的定义,没有统一标准的词集;4)不同词典产生的歧义也不同;5)缺乏自学习的智能性。
2、基于理解的分词方法

该方法又称基于人工智能的分词方法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子 系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理 解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

专家系统分词法。从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识 库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。
神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行 推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。
3、基于统计的分词方法

该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好反映成词 的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于 某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

该方法所应用的主要的统计模型有:N 元文法模型、隐Markov 模型和最大熵模型等。在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

4、基于语义的分词方法

语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

扩充转移网络法。该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络(RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。
矩阵约束法。其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
三、中文分词算法中的难点

详解中文分词系列(2)
1、歧义问题

歧义切分字段处理一个汉语句子是以连续字串的形式书写的。由于可能存在歧义,分词并不是一个简单的从输入串中发现合法词的过程。一个句子经常对应几个合法 词序列,因此,汉语分词中的一个重要问题就是在所有这些可能的序列中选出一个正确的结果。歧义切分是自动分词中不可避免的现象,是自动分词中一个比较棘手 的问题。对歧义切分字段的处理能力,严重影响到汉语自动分词系统的精度。实践表明,只用机械匹配进行分词,其精度不可能高,虽然有时也能满足一些标准不高 的需要,但不能满足中文信息处理高标准的要求。

2、未登录词识别问题

未登录词辨别未登录词包括中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。是种类繁多,形态组合各异,规模宏大的一个领域。对这些词语的自动辨识,是一件非常困难的事。

四、自动分词的评价准则

自动分词系统的最主要的工作是进行分词。对于分词而言,不仅要求所研制的软件在分词的正确率和速度方面满足一定的要求,而且要象开发大型传统软件那样,在各个阶段不断地进行评价,其目的主要是检查它的准确性和实用性,分词的评价主要有以下几个方面:

1、分词正确率

书面汉语的文本可以看成是字符序列,分词的正确率直接影响更高一级的处理。现有的分词系统切分错误主要集中在歧义字段和专有名词(如人名、地名、机构名和 未登录词等)。为了获得分词系统切分正确率,应该进行整体测试,歧义测试和专业词测试。因此,自动分词系统的切分正确率的基本公式为:

详解中文分词系列(2)

其中,S1,S2,S3。分别为总体测试、歧义测试和专业词测试的正确率;Bi(i=1,2,3)为三种测试加的权值。

2、切分速度

切分速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用辅助手段,诸如联 想,基于规则,神经网络,专家系统等方法更应注意这一点。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统总开销合理。在人机交互方 式下处理歧义问题的策略和人机接口的设计,有时会严重地
影响切分速度,这也是应考虑的因素。

3、功能完备性

自动分词方法除了完成分词功能外,还应具备词库增删、修改、查询和批处理等功能。

4、易扩充性和可维护性

这是提供数据存储和计算功能扩充要求的软件属性,包括词库的存储结构,输入/输出形式的变化等方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、 结构性、完备性以及自描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重要的,因为这类软件需要不断提高与改进,使之适应中文信息处理的 各种应用。

5、可移植性

可移植性是指方法能从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词方法不应该只能在一个环境下运行,而应该稍作修改便可在另一种环境下运行,使它更便于推广。

企业站全部外包给seo专家=SB

PS:此文系外部投稿,转载请联系原作者,本站仅被授权首发。
对不起,大家看这个文章标题,肯定认为是个名不见经传的菜鸟,在对网站优化无能为力后,怀着羡慕嫉妒恨的心理,对根本自己根本说不上话的seo专家进行毫无依据的攻击发泄贴。
您说对了,首先我的情况基本上上面的话已经全概括了:菜鸟,没名,对网站优化无能为力。
关于我根seo专家的关系,您可能真没猜对。
首先,专家一般是某个行业的执牛耳者。是众所周之的人物。在seo界,通过什么邮件电话找到你的肯定不是专家。我可是在seo百度后搜到的排名佼佼者。说 这些,我就是告诉你,我是通过最有效客观的形式-百度,找的是真正的百度seo专家。不是路边那种传销的。具体名字不说了。说出来谁都知道。。。
好了,下面说说我和专家的关系:我是这位seo专家的正规培训学生,并把我的一个网站交给了他的团队,全外包优化了将近两年,结果真的很sb。。。这个站在这两年中在首页天数总共加起来也就50天吧。。。也就是说两年排名没作起来。。。这下各位有点兴致了吧。
我不是seo从业者,我所从事的是建材行业中一个专项产品行业。为了不被文中要讨论的人猜出来并产生不必要的麻烦,就说到这个程度了,估且叫我企业站长吧。
先介绍我的企业站seo之路。。
想当年(2005-2007),电商那叫好作啊,在行业门户发两个堆满关键词的产品介绍和公司简介,三天左右,有时是隔夜,你的产品马上在百度和 GOOGLE首页出现,咨询哗哗的。业务那个忙。由于得过且过,没怎么想。这种状态保持了一两年,到10年左右,突然发现没什么业务咨询。打开百度一看, 哗,大家全在发,我的帖子没了,再怎么发也出不了排名了。。
马上,竞价,当时2600开了个百度账户,好在当时词也不贵,一月花个一两千也能维持一定的咨询量。就又掉以了轻心,维持了一两年,又发现没人问了,仔细 一查百度账户,词涨的那叫狠,一两千一两天没了。小本生意,这样下去不是事儿,于是开始捉摸自己建个站作seo,经历了免费空间模板找刷排名作站群链轮相 关下拉各类投机黑帽失败折腾两年后,为了不把本钱赔完,终于在2012年决定,找个高手好好学学,人家的站怎么能那么稳啊?肯定有方法。。。
最后,seo百度了一下,直接报了大师的班。当然天天在YY直接实时听课,顿感开了天眼,把以前模糊的概念全清楚了。大概二个月毕业后,信心满满的建了好 几个站。Seo不过如此,我有信心凭多年的产品专业知识,天天优质原创给同行干下来(大家可能看出来了,大师是个内容派,我深以为然,网站吗当然要给用户 提供优质内容了,那时也正好是百度大力提倡原创的时间)。
原创了一个月发现,有的站上来了,有的站由于精力有限没上来。既然找到了钥匙,咱们就大干一把,自己忙不过来,找专家啊。天天在老师的论坛转,看他一个资 深版主接优化单子。想都没想,马上联系。高手就是高手,除了嗯啊,在QQ上对我爱搭不理。有本事的人都这样。老师的版主,差不了,人家也说了无效不要 钱。。
谈好了价格(大概是百度我这个产品词半年的竞价钱),付了首付20%。等了一星期,网站上线了,我看了一下,确实比我自己作的站结构好一点。于是就等着专 家一两个月给这个大宗商品带来流量和订单了。。。同时,自己手中的几个站也没停。。。过了一两个月,没动静(当时,百度是一两个月能出词的。。),联系了 一下专家,专家还是爱搭不理的,最后说了,快了。我崇敬的期待。。。过了几天,给我打了个电话,说被攻击了。。。网站要重新作,并给我看了挂黑链的代 码。。一个新站。。。专家,我有点不放心了。于是,开始重点观察起这个站,发现确实每天更新几百字的产品文章(图和产品对不上,请大家注意这点)。当然看 了看文章,一看就不是我这个产品业内人士写的,比较生硬也有的地方说得不太对。。当时也没多想,专家吗,肯定有与我不同的方法。再说百度哪儿知道专业对不 对啊?是原创就行了。。。人专家也不容易,天天更新我这建材原创也不容易啊。。。还是没多想,两个月过去了。。网站连个泡都没冒,同时发现,又急了,业务 不等人啊。。。直接打电话。还别说,这次专家态度还行,说快了。说快就快,一周后排名真出来了,没等我打电话,专家来电了,“排名上来了,请付二期款”, 虽然离当时说的二个月差得有点远(大概已经半年了),但我也知道现在是难作,人家也更新半年了(请注意这句话),不容易,再说是老师的资深版主+助手。一 下子就付到了80%,静等排名带来的咨询。。。期间发现,专家也在作点所以前作过的一些投机排名的业务。。反正我站是天天更新的,相信专家吧。。
接着,奇迹发生了:排名,在几经震荡后,在大约一个月的时间里全没有了。。。之后偶尔出来几次,就根开玩笑一样,三天之内肯定没有,之后就是一两个月出现一次,三天后又没了。。。
这是怎么回事?联系了资深那什么(现在我打他的心都有了,肯定不能叫专家了)
态度诚实的告诉我百度调整,坚持原创(再次注意),会出来的。。直到现在2年了,总的来说,在首页的天数绝对没超过50天。。。人家现在还在天天坚持原 创。。资深那什么我是问不出来了,在业务和合伙人的压力下,我联系到了我和资深那什么共同的老师,老师说我了解他啊,我会让他负责。听了我的描述,估计也 看了我的站。老师百忙中,多次沟通后,说了一句意味深长的话:这个排名有几天就没,肯定是内容极不吸引人,跳出率太高了。。。我当时说:是哪,他又不是我 们产品业内人,写的东西怎么吸引人啊,代码优化什么的作得还行,CMS选得也可以。。。等等,写的东西。。原创。。。内部代码优化。。。全外包优化费 用。。。老师就是老师啊,一句话点醒我梦中人啊。
请大家比较一下,上面这些工作花的时间,就会明白我今天想说的问题:
代码优化内容:404,301,robots,JS封装,噪声处理(flash之类),各类标题标签处理…
代码优化工作时间:半个小时。。。。。
代码优化对工作人员的要求:懂代码操作的初级技术人员
内容优化工作内容:每天发客户需要的优质原创文章。。。
内容优化工作时间:网站终生。。。
内容优化对工作人员要求:精通产品知识,了解产品市场和客户心理,文笔好。
外部优化:外链现在作用不明朗,发不好被K,可以不发,资深那什么也没发。发也是个体力活儿。。。
结构优化:建站初期完成,也用不了多长时间,找口碑不错的CMS就行了,而且,上线后,您老改网站结构试试。。
写到这里,聪明的已经看出来了(看不出来的,不适合与seo发生任何关系):我给资深那什么的seo服务费用,有一部分支付那半个小时的代码优化,其他的 大部分被用来维持网站内容更新了,而这个建材产品内容更新,是seo人士写的,内容想当然的不会吸引我产品的目标客户。。。。。
当然,如果您是两年前的我或比我还菜的鸟,会说,那个代码优化好深奥啊,我一辈子弄不好,但我要说,那个只要是入门的,一会儿真的就处理完了。自己不会可 以想点办法也花不了多少钱,比如找我。。但那个吸引客户的专业产品文章,日理各行站的seo写手,恐怕一辈子也写不出来,客户看到外行写的产品文章只有跳 出。。。。到这里,我不多说了,只想说,在原创内容为王的今天,您的产品要想在百度中长期排在前面一定是要最专业和客户最喜欢看的才行。。seo专家们会 把您的比如纳米级高能工业净化产品打造成你行业中最专业的同时是你的客户最喜欢看的东西吗?如果能,我为他付出多少银子都行,如果不能,为最多一个小时的 代码优化和程序调整付出了半年的竞价费用,同时附送跳出率极高的垃圾原创内容。。。。SB吧。。。

SEO排名不要想太多了–焦大seo论坛排名的一些看法

前面的话:我觉得做seo不要把seo看得太神奇了,很多看着很神奇,但是你仔细分析下,原因真的好少好少。通过我们的活动,我们希望更多人脚踏实地分析一些因素,进而提升自身的seo分析水平。到了至今,我一直认为没有分析不出来的答案,只有你没有仔细注意的点。

2014年原本以为可以很平静地过去,却不料最后却被我新浪博客和seo论坛给搅了一下。听说,很多人都在谈论这次的排名,各种说法都有,很多大神也认为 很难理解或找不到原因,因此我觉得我有责任说出来我自认为的因素,不想很多人误入歧途或者说多少高明的手法,或者seo排名多么高大上难以理解。(在此焦 大也非常感谢那些参与竞猜的人,是你们的参与让比赛更加有意义。)

对于seo行业来说,影响一个类似“seo”高需求的词语来说,我们需要分析的本质因素其实很少,无非需求点*权值*点击,从排名上来说,这个seo论坛 之所以上来,点击因素基本可以忽略,原因在于他是忽然跑上来的,而之前排名是一直摇摆不定的,再上来之前是在50名之外,点击不可能起到这么强大的效果; 再分析权重,外链各个方面都没有大的波动,只有domain值一直很大,但都是历史因素,倘若是这个因素引起的,那么就会有一个别人问过的问题,为何这个 seo论坛以前没有上来,现在忽然上来了,能解释这个的也就是最后一点了,因为他现在有了一个新的需求点。
在seo论坛上来之前,论坛首页是没有任何有指数的词语在首页的,而seo上来的同时,论坛最大的特点是seo培训这个词也同时到了首页,这难道是巧合 吗?我在分析出问题的时候,有意识地出了2个问题,其中第二个问题貌似没有任何价值,但是我仍旧出了2个,我其实只是想大家能注意到论坛seo培训这个词 的排名,或许是一个很好的分析切入点。
但是再回过头来分析,这个论坛的很奇葩的一个问题是,他seo论坛或品牌词焦大seo貌似权值都不高,而且从分析排名因素上来说,seo论坛排名不上 去,seo培训这个词更加的不可能上去的,因为seo到首页的那天,焦大seo论坛连一次的seo培训在页面上都没有出现过,没有外部锚文本,没有各种和 这个有关的标签,是什么引起了这个论坛有这个词语的排名呢?其实再结合以前的数据,我觉得主要是因为反向转向的作用,因为他曾经转向给wocaoseo的 博客,而wocaoseo博客seo培训这个词主题性也很高,而奇葩的是这个seo论坛竟然也获得了seo培训这个词的主题,这个是出乎我意料之外的。而可能令外人不解的是,为何有了seo培训这个需求,seo就到了首页了了,其实背后的原因我也略知一二,只能公开说的是因为这个词的竞争……(^^)
根据百度官方的关于301的说法,当A做了301到B后,B继承A的主题的,但是却没有说当A停止解析后A是否会获得B的主题呢?百度通过这个案例给我们 一个很明确的答案。我觉得这也是这个案例给我们留下的认知的价值吧,所以我就举行了这个活动,却没有料到会产生了较大的影响,感谢诸位的参与……
再说选择一个人免费参加我们培训的事情,我一共收到了接近100封的邮件,在这些众多的答案中,站王通过排除法,认为和301有关,虽然我们知道需求点覆 盖是主因,但是引起主因的还是和反向的301有关,比较接近事实吧,所以个人倾向于他获得本次的免费名额。其中提到了301还有几位,但是最后都没有给我 发邮件,我QQ漫天弹,也找不到人了,而且他们都没有站王的时间更早,所以只能选择他一个了,希望大家以后尽量给我邮件而不是qq直接聊……

seo思维光年(上)之检索的价值观是什么

(本文系seo培训联盟焦大原创文章,任何形式的转载和传播请联系作者,焦大seo培训,做靠谱的seo培训。)
检索的价值观是什么?最近很多人咨询我这个问题,因为在百度上根本找不到相关的资料,其实这个东西也是我自己总结的,比如特征权重这类的都是我自己总结提出的一些概念,和检索价值观相近的概念有搜索引擎的价值观,搜索引擎价值观也就是常常见到的要满足用户需求、搜索结果的相关性等,这些和我所说的检索价值观是不一样的,也因此有着两个不同的seo体系,我所说的检索价值观是针对检索发展历程中核心检索需求而言的,比如最近360最近提出了第三代搜索引擎技术的问题,他们利用用户评价影响搜索结果,说这是第三代神马的等等,这个说法真的坑爹啊。

我所言的检索价值观,是基于这样的一个理解的,那就是检索技术为何会发展,会何有了第一代后会有了第二代,其各个发展的原因是什么,发展的核心是什么?这点看透了,我觉得seo的体系的基础会有颠覆式的认知,比如我问很多人的一个问题,搜索引擎的核心排名因素有哪些,其实回答这个问题的答案是很难的,因为人们很难总结的完,而且和个人的认知有很大的关系。检索的价值观我就把思考在检索各个阶段的技术上,比如第一个阶段的检索技术是什么,第二个阶段特点是什么,第三代的检索技术的特点是什么,当我们了解了各个检索阶段的核心特点之后,那么搜索排名的核心不就是检索的特点吗,难道还有什么其他的因素更能比这个更能核心和重要吗,已经没有了。

当然,检索价值观并不是那么容易的事情,其中最难得是度量化,我相信学seo的很多都是些聪明人,他们也了解过检索的技术发展的历程,但是他们没有发现检索的价值观,这里有2个大的问题,体系化和度量化。比如我们现在很多人都在说用户体验影响搜索结果,但是没有人能说清到底有哪些方面的用户体验,如果做用户体验可以提高排名的,不久前看百度的前工程师在会回答知乎的时候还在说用户体验的时候,很多人质疑这个只是个鸡肋,连他其实也解释不清楚用户体验怎么就影响了排名,所以外人一直怀疑这个问题也就不用奇怪,如何操作,如何度量化,这无疑是所有人得难题,因此seo的认知在无形中又倒退了。而我对这些的认知却恰巧进行了突破,因此写3篇文章来具体的说些东西,因为具体的操作化涉及到我的培训内容,我不能具体的说出来,但是我可以说的是,第一,检索价值观的建立是基于检索技术的发展的历程的,有多少的历程就有多少的核心排名因素,这是外人看不到的东西;第二点,我虽然不能讲具体的,但是可以给大家一些思考的启发,比如视角问题。

视角也就是看得检索价值观的一些方法,比如我敢说我的检索价值观看得很透彻,也很全面,为何我敢这么肯定,我举个最简单的例子吧,那就是视角的问题,比如检索发展了三个主要的阶段,为何发展了三个阶段,为何是这三个阶段,因为站在检索本身的观点来看,判断一个事物有3个视角,就是你、我、他。为何这么说呢,因为视角只有这3个,三个不同的维度,来判断同一件事物,比如外链,外链是第二个检索技术的核心吧,我们站在检索的观点来看,外链是外部判断本页本身的一个度量,也就是他的一个视角,就是这么简单的一个问题,但是大家都在考虑外链的算法或者判断特征上,却很少站在整体上去考虑判断的视角上,如果我们了解了视角问题,我们再结合对检索技术自身的理解,那么几乎可以能看到所有核心因素,并把握住主要的因素的优劣高低,这样才能真正建立更高一个层次的seo认知。

诚如我所说的,视角的问题是解决的检索在看待一个问题上的角度,结合具体的技术就能把握所有的检索发展的方向,方向有了就需要一个体系延伸到具体的操作中区,因为任何东西不与seo操作挂钩,其价值和意义就不大了。比如那个用户体验的问题,用户体验是怎么影响排名的,先看视角,再找检索的方法其实很快就知道问题在哪里了。其实现实的检索价值观并不是那么简单的建立起来的,因为还需要系统化,比如认知的层次和认知的范围等都需要考虑到,比如一个最简单的seo理念思维和seo操作思维等,如何把这些知识都形成一个体系内的东西,用理论引导操作,把理论和实践操作结合起来一直都是一个最主要的矛盾和问题,seo也不例外。因此我常常想,检索的价值观之所以没有被其他的人发掘,最主要的问题是操作派和理论派的seo都不乏其人,但是一直坚持两者结合的人就少了,或者说坚持独立思考和实践结合的人少,大部分人得思维和理念都处在第一层的操作上,也就是我下面2篇需要说的东西,比如光年的培训。

焦大:虚拟外链是神马还是浮云

焦大seo微信seocnm

传说中的虚拟外链一直被传得神乎其神,而且到了最后都没有人猜出虚拟外链到底怎么做的,别人的网站排名却刷刷地上去了。后来听说百度弥补了这个漏洞,虚拟外链就不再管用了,那么虚拟外链到底是神马还是浮云,是怎么做的,为何最后没有效果了呢?

虚拟外链最常见的其实有2种形式,其中第一种比较常见,就是搜索结果自动生成页面或域名查询页面的外链,这类的外链都是没有实质性内容的,而且都是内页,后来被百度官方在“谈外链判断”中被认为是垃圾外链,蜘蛛在计算时候直接进行了过滤。

虚拟外链

虚拟外链第一种(图)

这类链接主要在domain查询时候可以查询到,有一些比如站长工具查询页面的外链甚至可以在百度站长平台查询到,但是这类的链接都是没有内容的,所以作用也是微乎其微甚至没有任何的seo作用。

第2中虚拟外链也就是外界传说较广的外链,对于这类的虚拟外链,外界只有传说,我们可以先看看一些相关的说法,比如百度百科的:

虚拟外链-百科

百科关于虚拟外链的解释(图)

我们仔细分析这段话,或者管窥蠡测可以得知,虚拟外链是显示在快照内的而在内容里却没有显示的,可以通过一些方式给百度数据包而让搜索进行计算的。其实这类链接也有一个特别的叫法–URL外链。

URL外链是什么?如果你细心的话,你可以经常性的见到很多站的首页URL有多个,特别是做竞价的站,首页被收录的URl可以多达几十个甚至上百个,对于重要的站点或网站首页,假如有入口的话这类的链接可以收录多达成千上万个。举个实际例子来说,我们都知道百度首页是http://www.baidu.com/,但是我也可以弄个类似http://www.baidu.com/?tyseoer.com-seojiaoda-seo.html的网页,这个网页和百度首页除了URL之外,其他的都是和百度首页一样的,假如我给这个页面很多外链或者给蜘蛛发送需要收录的指令的话(也就是百度百科所说的发送数据包),那么这个页面也会被收录,而且在快照内就可以找到我的网址tyseoer.com,利用这类做外链的方式也就是传说的虚拟外链技术。

那么也许有人会说,类似这类的在URL中加的外链会有效果吗,蜘蛛会计算吗?这个我们可以从搜索引擎原理来说,貌似这个URL的计算和排名计算不在同一个数据库内的,但是我们根据现实可以举个例子,比如你搜索“wocaoseo教程”这个关键词,焦大seo学堂就排在第2位,虽然这个博title和body里面都有教程这个词,但是绝没有wocaoseo这个词啊,为何能被搜索到呢,因为URL中含有wocaoseo这个单词,也许就这么简单。换句话说,URL包含的一些搜索元素也会被蜘蛛抓取计算的,所以从道理上讲这个URL中的链接也会被计算的。

URL中的外链还有一个特征是可以批量化操作,因为这个链接是可以自由组合成的,只要稍微懂一些bat与excel很容易造出几百万、上千万这类的链接,而且全部是大站的高权重首页,只要把这些个链接通过吸引蜘蛛的方式或自动化的ping给蜘蛛,那么从原理上来讲,你的外链计算值可想而知。那时候虚拟外链甚嚣尘上,很多站都在短期内排名直线上升,无疑和这些个原理有着莫大关系。

但是我要说的是,类似这类的虚拟外链,无论第一种或者第二种,目前搜索都有了很好的预防机制,特别是百度支持URL标准化标签canonical以后,这类的手法已经由神马变成了浮云,别再费苦心去做了。

研究网站排名因素,先说说纬度与指标

不久看光年论坛的taokefeng找人调查影响排名的因素,个人认为每个人的观点是不一样的,主要是纬度与指标问题,比如国平的是seo流量=收录*排名*点击,他是从se结合用户行为的一个过程,主要步骤是索引排名用户体验,三个纬度出发,然后根据在细分这几个纬度的各个指标,进行具体的因素分析,但是个人一直觉得这是有问题的,因为seo基本是有3哥方面的,最前端的seo是信息架构与功能设计,这些需要一些理论解决,因为没有数据可以作为参考,我们只能凭借理念、经验和一些基础理论进行设计,这是架构层的seo;再往后,架构好了网站需要推广,这就是很多seo培训做的事情,如何推广网站如何做外链,这也是小网站的现实,没有办法可以改变的;最后是基于数据分析的改进,这才是光年的seo的核心。但是纵观一下,你神奇地发现,第一个端点没有人深究……

所以我才提出“三权分析”。为网站架构提供一个蓝图,然后进行具体的需求分析和数据分析,根据se与ue的习惯进行设计网站,做网站最前端的seo,我个人觉得最主要的是了解大量的案例,知道各个架构的优缺点,知道每一个性质不同网站架构后可能出现的问题。因此我们要选择好的纬度,有效的指标才能分析问题,

说一个小细节,很多seo培训(听人说的,自己没有受过任何培训)都在说页面内容更新,说要做一个随机内容模块或者最新内容模块,认为这样就更新了页面内容,这就是对指标的理解错误,内容更新与页面更新不是一个概念,这样做根本就是一个乌龙事件,页面更新最大的好处是能给予最新页面以高的初始权重而内容更新有助于这种传递的发生,所以我在太原SEO这里回答一些人问题时申明,比例很重要,但是分配机制更重要的问题,其实就是为了区别两者,大家可以在光年论坛上找找我的回帖,在7楼、14楼一直在说比例只是一个指标,这个纬度内有多个指标。

做数据分析,我也略微看了下百度网站分析白皮书,其中百度说了一个最基本的理念是宏观控制、微观分析,也即是寻找最理想的纬度,把握最重要的指标,这不仅仅是数据分析的重要内容,在seo中也是如此,我们可以用技术解决很多问题,但是解决不了思考的方向和思维,所以我一直想做seo还是讲究思维,内技术外思维,不谈技术只说思维层面的东西,或许更加适合,例如研究网站排名当我们非常了解了很多因素后,剩下的就是去做了,技术在哪里呢,在做的过程中渐渐淡化了,如果换做技术思维,就会先思考用技术解决什么问题,而不是我们要做什么了,寻找最核心的原因是做seo不二的法门,而想做好这一点,先从区分纬度与指标开始。

最后说这个seo流量=收录*排名*点击问题,这里面有3个纬度,即收录、排名和点击,而且是三个量值,无需要多维度求svm,很完美的;但是反过来想想,我们划分纬度时候既要主要量化,但是同几个纬度之间也应该注意独立性,否则很难用来分析一个问题的来龙去脉,比如我们整体提高收录,整体提高排名后,由于页面相互质量并不一定,而且需求程度也会有变化,必然导致点击率问题,点击率下降,会反过来影响排名。

而且最重要的是一定的权重下,以内链分配比例来看,只要存在竞争,内链的分配只有一个最优解而没有最大解,所以这三个纬度之间必然存在一个冲突,而这是做数据分析时候不能单一追求一些指标了。从se的角度,seo一定是量值与散植之间的结合体,做seo就一定有牺牲,即使留到最后的一个确定值也只能是贝叶斯下面的一个指标而已,但是我要说明的是,这些并不代表不能数量化。

最后再说网站排名因素问题,由于每个人经验和经历是不一样的,其实很多排名因素都是一样对于每个人的意义却有很多不一样的地方,也许只是一个相同的因素,大家会划分为不一样的指标或者纬度大小问题,因此这些因素只能一团乱,想统一起来真的太难的,难的不是不知道,而是标准不统一。

做seo,从纬度和指标做起,我忽然想。

无厘头seo链接的思考

SEO培训联盟这个博客最初的定位就是乱侃seo,后来回头看以往的SEO文章,除了一些以往的想法幼稚外,忽然发现其实现在很多的思考都是基于以前的基础的,所以我一直也比较建议大家弄个博客,乱侃些seo思维,也许将来某天你会发现收获不是一般的大。好了,废话不多说了,说些以前的一些无厘头的seo链接想法,希望对大家理解些seo有所帮助。

举第一个无厘头的外链问题,我们都知道一个seo外链准则,外链分布得越广泛越好,但是原因是什么呢?比如我在一个B站上给A站100条链接,其对A的效果是在B站上给A站1条链接的效果的多少倍呢?100倍或者不足100倍,为何会发生这样的事情,搜索是如何度量和计算的呢?

这个问题最初我是最有兴趣的一个seo外链问题,因为了解了这个问题的答案,将会大大改变我们做外链的方式和方法,可以说在实践中有着非常重大的价值和意义,但是seo大拿们貌似都没有什么相关的说明,《seo艺术》上说一个站给另外一个站做外链的话,如果超过一定的数量可能就没有效果了。那么这个数量是多少,为何超过这个量就没有效果了呢?(seo艺术貌似认为这个数量是1000,而我却认为这只是一个更加无厘头的猜测而已。)

任何的问题都不会没有答案的,这个问题也不例外。

拓展下想,假如同时给A站做外链,第一种情况是一个B站100个页面都给A站一个链接,另外一种情况是B、C、D等100个站,这100个站和B站的页面权重这类的都一样,每个站都有一个页面给B站一条链接,哪种情况对于A站的排名是更好的呢?靠seo直觉的话,肯定第2种情况更好,因为第2种符合多样性的要求,所以第2种做法应该比第一种权重传递的更多。但问题是原因是什么,如何用可以度量化的解释出来呢,这个问题目前近乎无解。后来我逐渐总结出了链接的主要的三种作用、吸取了百度的链接特征权重和权重的计算模式,特别是后来百度推出站长外链工具查询之后,我查阅了非常多的数据,构想了一些设想,比如对于同一个锚文本链接锚文本只计算3次,对于同一条链接的计算次数可能会在10左右等一些列的计算模式,把链接根据锚文本进行细化,然后抽取其数据特征,逐渐走了很多弯路后才逐渐明白其中的含义、大体的计算模式和计算特征处理等。

对外链一样的是,内链最初我最有兴趣的是一个网页内布置多少条链接最好的,内链的相关性该如何处理?在我seo培训联盟的新浪博客上,关于这个问题的一个观点,那时候由于用了一些bat和excel数据处理方法,就根据一些局部数据得出了36个内链主题可能最好的结论,一度的曾经我都不怀疑自己的数据,而且后来光年的seo培训也得出了一个38个链接的数据,而且是经过实践的数据,所以我一度也不再怀疑这个数据,直到后来我发现了网页的显示特征对排名的影响。

其实这里的内链有多少个是最好的问题又牵扯出另外一个seo问题,根据数据得出的结论一定是正确的吗?我一度也认为seo需要数据化,有数据作为基础的结论才是可靠的,但是在这个问题上我第一次对数据等于结论却产生了怀疑。比如说我们认为某一个页面多少内链最好,我们根据大量的数据得出了一个结论,认为多少个内链效果是最好的,或者说通过大量的数据得出一个结论。但是我们在理论上却无法解释清楚,根本无法说清楚是为什么的?不能说明白的东西,就存在一定的质疑空间或者说不接近于事实,比如内链多少我们是通过大量的数据试验得出来一个结论,但是别忘记了一个问题,假如这个时候的内链数量不是本质特征,而只是一个表象呢?

举例解释上面这个东西,比如搜索认为一个页面有完整页面数据可能接近于能满足大部分的需求了,而少于这个数据可能认为内容不充实而无法满足用户体验,而多于这个数据可能影响也不大了,那么能满足一个页面数据的内链数量会根据不同的div和CSS有很大的区别。比如在A与B站上都是36个恰巧是满足这个数据的,而少于这个数据是不满足的,多于这个数据可能会导致其他一些特征因素的降低,那么在A站和B站就会呈现出36个链接是最好的效果,但是对于C和D站,对于其他所有的站,由于DIV与CSS的布局差别很大,满足这个数据可能是20个,也可能是50个,所以36这个数据特征仅仅只是一个页面内容是否充实特征在A与B站的一个表现而已,根本不是一个本质特征,那么拿着这个数据硬放在其它站上就真贻笑大方了。可惜的是,这种事情还真发生了,一个略略出名的IT公司就出个seo题目,多少个内链是最好的题目,尼玛的,坑爹不是……

如果再有人问我一个页面有多少内链是最好的,我的答案就是不知道,36或38已经成为无厘头的一个seo笑话,惭愧……

说了外链和内链,虽然两者都是链接,但是链接和链接还是有很大的差别。说这个之前,我们知道互联网的页面最基本的元素组成是文本和链接,虽然也有神马多媒体,但是毕竟蜘蛛识别有限,因此做seo就必须把文本特征和链接特征搞的很清楚,否则很多seo细节就被完全无视了,比如文本是本页面的特征,他所有的特征都是对于本页面有效的,而链接却不然,他链接着本页和指向页,因此链接的特征体现着双向性,因此在对排名影响上也肯定出现双向性,但是在做链接的时候,几乎所有的seoer都把此事忘记的一干二净的,特别是出链的排名特征,如果细心的话,对于一些页面排名效果估计会是非常的好。

SEO培训联盟排名掉的原因:宋星博客?

很多时候我觉得真的不要太关注排名了,但是参加seo培训的人貌似对这个很崇拜,觉得有排名的seo培训才是靠谱的,而不是什么seo培训的内容或者seo培训能讲什么。正是基于这样的思考,我一度不太想做seo培训或者一直想吧排名调去,事与愿违的是现在直接被百度干掉了,于是很多人咨询或揣测排名波动的原因,很多人也问我是什么原因。

原本是不想回答这些的,但是看到很多人的揣测是在不靠谱,我就来吐槽吧:
seo排名波动的原因会有很多,然而网站被K掉的原因或者被降权的主要因素并不多,最主要的就是外链问题或内容问题,或服务器、模板大改变。我的博客内容 这块是不存在问题,外链我也没有刻意去做,服务器和模板更不可能变。所以很多人也许很疑惑……。如果是别人一定说是百度的问题,seo培训是个敏感词,排名不好肯定是百度官方在打击我,其实哪有那么多的人工啊,有时候排名波动的因素其实就是那么简单的一个事情,一定是有些不可以控制的因素起到了作用,比如我的博客。
好吧,卖了那么多的关子,我就说我的原因吧,最主要的原因是我的新浪博客外链很少,我曾经在宋星大哥的博客上不久前做了个评论,留了个本博客的网址,原本的想法很简单就是想人们能看到,而且我觉得我的评论也是有可取之处,但是我也没细想这个评论会对我有什么大的影响或冲击,但是问题就恰巧出在这里……
宋老大的博客留的模块是可以在全站显示的,也就是说一显示会在全站显示。也就相当于全站的链接,目前宋星的博客收录量769个,也就是一子我就增加了这么多的外链,也是一子失去了这么多的外链,由于我的新浪博客外链基础很差,这769个比我的其他的总量都多,也就是占据了二分之一还要多的对方,其悲剧性的影响可以想象的,我就拿个数据来给大家看下吧

第四节:搜索引擎官方文档解读(seo学习培训)

建议参加者:

SEO基础知识欠缺的参加者。

课程内容简介:

解读百度搜索引擎优化指南,与Google网站站长帮助。

课后:

1. 牢记百度搜索引擎优化指南的每一个知识点

2. 熟读Google网站站长工具帮助

百度搜索引擎优化指南2.0:http://wenku.baidu.com/view/f576c31d650e52ea5518983f.html

Google网站站长工具帮助:https://support.google.com/webmasters/?hl=zh-Hans

一般准则:

网站站长指南

内容准则:

标题和描述

关于 rel=”canonical”

rel=”nofollow”

规范化

从Google删除内容:

使用 robots.txt 文件拦截或删除网页

抓取和编入索引:

软 404 错误

搜索结果:

重新审核请求

seo是什么

seo的本源是什么?看到很多人咨询这个问题的,但是几乎没有人可以敢为人先,敢回答这个问题的,因为seo的核心从来都没有人被认识的很清楚的。好吧, 我就做个二楞子,说下个人的观点,seo最核心就2个问题,用户需求和检索价值观,用户需求决定我们seo做什么,而检索的价值观决定着我们该怎么做 seo。我不知道是否还有更重要的东西对seo来说,至少我看不到……
另外我想补充几点的是,用户体验。用户体验是什么,用户体验可以影响排名吗,用户体验重要吗?我觉得有必要说下这个东西,用户体验的前提是有了用户才有体 验的,没有用户何来体验;第二点是用户体验是什么,用户体验是用户需求的一个层次,因为用户需求不仅仅包括很多人认为的关键词,这仅仅是了解用户需求最低 级的阶段的一部分,用户体验也是用户需求的一部分,只是这部分在后端不是前端罢了。所以我们的培训我说了只有了2个核心,用户需求和检索价值观的,用户体 验是用户需求中的一部分,而且有两个不同的层面,这些都没有被人注意到的。
其实不仅仅这个,我们学seo很多人都注意到搜索原理的重要,却从来没有人说检索的价值观,这才是所谓的“seo”的核心。但是seo就是这样的发展了N 多年,重点的东西都没有人发掘,我个人觉得很悲剧。搜索原理是什么,讲的是se是怎么工作的,换句话说这比如你了解了一个机器的工作原理却从来不想这个机 器是做什么的,我们做seo不是做机器的修理工的,我们做seo是要按照se的价值观满足用户需求的,所以我们要熟悉检索的价值观,也就是我们要知道的是 机器被用来做什么的,甚至想些这个机器为何被制作出来,这个机器操作有那些技巧都可以啊,但是做seo的都没有想到,被一些其他的seo理论淹没了思考。
我接触seo的时候,很多人也告诉我seo是边缘学科,没有缘由的,我曾经一度非常的相信这个。特别是我看了搜索引擎的原理之后,我研究了一些算法的东 西,但是我一直没有找到seo的根在哪里?因为从搜索的原理上看到的是什么?se工作的细节,但是这些和做seo有多大的关系呢,是有一些关系的,比如了 解se的抓取过程可以解决我们很多对收录问题的认知,但是我们发现没有,搜索的原理从来都是细节的局部的知识,从来没有对seo的操作方向有一点点的帮 助。后来我才想通了,原来搜索引擎告诉我们的是搜索是什么,而不是告诉我们搜索的想法是什么的,而这“思想”无疑才是seo最核心的东西。
举个更加现实的例子吧,把搜索看成一个人,搜索原理无疑告诉你这个人的身高、体重、样貌、家庭住 址、收入等等的指标,但是如果你想追求这个人,你最需求的是什么?她的价值观她对爱情的想法,或者她的……。这个就不说了,难道这2者不相似吗?我们想追 求一个人却一直研究她的外形和构造,一直不深入她的思想。那么我们就一直只能在门外站着……
继续侃侃那个用户需求,一些人给我说觉得这个没有作用,影响不了什么seo。其实我觉得最大的问题不是它没有作用,而是你的seo只追求seo的方法而没 有方向上,一直做着南辕北辙的乌龙事件。看 看整个行业的情况,那些做医疗的seo或企业站的seo,有多少内容的标题是用户会搜索的?你随意拉几个人做seo的,他们都答不出来转化率最好的几个词 是什么,另外人的回答只会很离谱。
我其实一直很婆婆妈妈地说了,现在的seo都不看方向的,转了一个弯后不是抬头看看前面的路而是继续找个另外的一个弯继续转下去。就我所知的,现在一些企 业站和医疗的都想着放弃做seo了,因为觉得seo都没有什么效果了,都转去做推广去了。荒谬可笑啊。我想说的是,推广能做的,seo做出来的效果都比他 好,但是人们就是找不到方向……
做seo,我觉得最本源的就是这么两点了,而且每点里都包含着更多的层次和内容,而这些无疑都没有被seo大拿们所讲到的,所以很多人也不知道。至于很多人问用户体验对seo毛用的问题,这个真不想解释了,因为你在说用户需求对seo有作用吗,你在说seo还有作用吗?
最后说说数据的问题,因为很多人受到光年的影响,都来问我把数据丢到哪里去了,怎么这个不是核心和本源吗?其实用户需求是什么,不是通过数据分析的吗,而 且以后的发展的趋势就是用户需求数据的分析和挖掘,会成为数据分析的核心,没有之一。同时数据分析和用户体验的一部分都是后端的部分,没有一定的用户基础 妄谈数据和那部分的用户体验就很扯了。

第十节:优化方案的书写(前线网seo免费培训教程)

建议参加者:
缺乏大公司方案书写经验的培训参加者。
课程内容简介:
介绍书写方案的一些通用事项,及略讲一些大中型网站推动项目的流程。
课后:
把现有的SEO想法,和产品或技术沟通后,尝试落实成方案并逐步实施。
上半节
尤对于大中型网站的SEO,书写优化方案是经常要做的事情。每个公司都可能会有自己的一套规则,但当没有明确规则的时候,也有一些应该遵守的准则。
一份优秀的方案,一般需要明确为什么做,怎么做,与如何评估效果。这几部分之间最好是分离的,因为执行过程中不同的人关注点不同,比如技术有时候可能只需要了解怎么做就可以了。
方案需要明确意图、明确做法,从而尽多的避免二次沟通的人力消耗。因为SEO的需求,和网站产品的常规需求比起来,行外人会觉得怪异许多,因此需求经常会被理解错误。(如:筛选页面的不同价值)
SEO的方案,建议先是以思维导图展开找出许多应该做的点以后,再归并成一整个方案。
避免歧义性
比如网站上一个栏目的大首页,是叫专题页、频道列表、还是频道首页之类,最好先明确化。
如果修改论坛上的帖子页面,是仅针对帖子首页,还是帖子的分页也要一起修改?也尽量在方案里明确。
明确修改目标
比如想单独修改一个列表页面,一般来说建议写:修改某个URL的页面。尽量不要写该页面的名称等,因为列表页的名字,在数据库里面可能是“二手手机”、可能是“手机”,相对不是很明确。
下半节
重要性分级
自己了解方案中每一点的重要性,有必要的话在方案里面注明它。那么在方案只有部分能执行的时候,可以有针对性的将最重要的点优先做好。
title和description的撰写
(合适)北京哈士奇价格/转让出售
(合适)北京哈士奇价格/北京哈士奇转让出售
(不合适)北京哈士奇/北京哈士奇价格/北京哈士奇转让出售
title字数最好控制,description字数需要控制。对于可变description,需要考虑到最长情况,如城市可能是“乌鲁木齐”占四个字。
关键词的分布
h1, h2, h3
页面的重要区块
alt属性

Seo培训之后如何实践

通过seo培训我们可以快速上手seo,因为seo的知识点并不多,所以我们大概可以在一个周内基本上可以了解个大概,大概在2个星期内了解全部内容。然而进行seo上手其实并不简单,我们可能会遇到许多问题。
比如说,seo新手许多人会遇到的问题如下:
一、 如何才能撰写标题,什么格式的标题才能最合适标准;
二、 如何选择关键词,我的keyword该如何书写才能最好?
三、 如何才能够写好seo软文,才能够将文章写成最标准的?
四、 如何才能最好外链?
五、 论坛外链如何做?
六、 怎样才能不被K?
七、 快照不隔天怎么办?
八、 如何才能让网站收录为秒收?
以上几个问题是我们新手朋友经常遇到的问题,然而我们面对这样的问题的时候只有通过不断的实践,大概需要6个月左右的时间差不多才能将这些简单的问题了解清楚。那么我们在这六个月的时间里怎样才能够更好地进行实践了解到这么多的问题呢?
通过我们一些经常做seo的前辈们的手中了解到我们在学习了seo之后需要进行时间的相关问题,下面就为大家进行解释:
一、 建站实践,建站是做seo的第一,在日后的seo中,由于许多的需求,我们需要对网站程序,html代码和基本的搭建网站的技巧进行学习,所以在seo初期阶段,我们要通过虚拟主机或者VPS不断的建站,对不同程序的熟悉来帮助以后更好地seo;
二、 文章撰写能力:在做seo的时候,我们需要做非常多的文章,因此如果我们不能过在短时间内写出一篇非常好的原创的话对于我们日后的seo是非常不利的,因此我现在建议朋友们要多学习下文章原创的撰写技巧,如何快速写出一篇好的文章,如何能够让给文章的质量更加符合seo,是我们前期实践需要学习的内容;
三、 简单seo关键词的排名优化,对于初期seo毕业的朋友,我们应该选择的关键词并不是一些指数非常大的,我们应该选择一些比较小的词,这样我们既可以在短时间内得到排名,并且能够在心理上有着非常大的鼓舞,还能够通过成功的案例来增加我们的经验,并为下一步做更加难的关键词做准备;
四、 外链制作方法,外链可以说是非常重要的,好的外链能让一个网站飞,不好的外链能让一个网站死,因此如何才能更好的做外链是一个seo人员所必须具备的,因此我们建议seo朋友需要大量积累自己的外链资源以及做外链的方法;
五、 后期是大量的seo实践项目,对于后期的seo时间,我们需要学习的还有更多,比如说如何能够在网站内部布局大量关键词,如何能够更好地通过内页的内链作用让整个网站的权重提升以及让关键词不断的上升,这是一个非常重要的问题,关键词的布局能力是seo的核心能力,因此需要我们更多的去实践;
以上五点是我们在学习seo之后需要进行时间的一些注意问题,通过这些问题我们能够更好地来了解seo的真谛,能够积累更多对日后seo更加快捷的小方法,这样可以帮助我们以后的seo之路中能够有更多的体验,能够更加快速而简洁的将排名做起来!

第五节:体系化的SEO框架(seo前线培训教程下载)

建议参加者:
所有培训参加者。
课程内容简介:
通过介绍体系化的SEO,将SEO应该学习、应该做的事情整理清楚。
课后:
将自己现在手中的SEO项目重新梳理。
上半节
SEO流量 = 搜索量 * 收录量 * 排名 * 点击率
用户先拿一个关键词进行搜索,这时如果一个网页被收录了,它就有机会去获得排名。它排名好的话,用户就可能会点击它,最终成为网站的一个访客。
各个因素之间,近似于乘的关系。也即是比如一个网站收录再好,网页质量太差而排名差的话,SEO流量不会高。反之亦然,一个网站上如果一个个页面都是精心做的排名很高,但总共只有几个页面收录很差,SEO流量也不会高。
之所以这里的公式以乘法为主,并不是指的可以通过该公式来确切的计算SEO流量,而代表的主要是几个因素之间的相互关系。四个影响SEO流量的因素中,哪怕一点做得很差,整体表现就会很差。
乘法之说的依据,也可以见Google黑板报《数学之美》的:如何确定网页和查询的相关性(主要见最后一节)
搜索量 = 行业搜索量 * 网站覆盖比例
对于很多类型的网站,行业搜索量的波动,是引起网站流量异常的最常见因素。在流量异常分析的时候,需要结合每年的同比数据。
收录量 = 抓取量 * 页面质量
抓取量的上限有多种可能性。抓取数量上限、抓取时间上限、页面数量上限等,应对不同的处理方法。比如抓取时间成为瓶颈时,就优化网页的加载速度。
排名 = 查询无关权重 * 查询相关权重 * 用户行为权重
查询无关权重,指的是页面自身和搜索的词没关系的权重(且排除掉用户行为权重)。比如文章页面上有一张图片,搜索引擎认为图文并茂的文章往往更具用户体验,给这个页面加权;也比如一个其它的网站给这个页面一条链接,这个页面的PageRank提升,也属于查询无关权重。
查询相关权重,比如一个查询词在页面内完整的出现过一次,搜索引擎认为该页面与这个查询词相关,给这个页面针对这个词加权。
用户行为权重,比如用户通过搜索引擎大量的访问一个页面,且搜索引擎发现该网页跳出率等数据指标表现良好,给这个页面加权;又如一个网页在某个词的点击率较高,给这个页面针对这个词加权。
下半节
书写方案的步骤
整理现有页面,哪些页面是重要的,哪些页面是次要的。
拿重点页面为主,以公式展开寻找一个个可操作的点,并罗列写下来。
最后按照改起来的顺序,整理前面一个个的点,落实成最终方案。
搜索量
让网站可以覆盖更多搜索量,这一点在很多情况下,比起和别人竞争排名更有效。
由于目前大多数SEO还都处于初级阶段,只知道用百度指数拓展词,所以有大量指数都没有的词被人忽视了。而因为长尾效应,这块才是流量空间真正大的地方。
针对性的做法可以有很多种,一种最简单的是修改现有页面。比如之前的title是“网球场”,将它改成“网球场/网球馆”,就可以覆盖到更多的搜索量。尤 其对于大型网站,有很多模版硬生生去生成的页面,很多title不合理,完全无法获取SEO流量。这一点有很大的操作空间。
写文章来做那些关键词的排名也是一种方法,它实现成本很低,大家基本都能做到(如果实在没有修改网站现有页面的权限,可以在域名下再开一个目录,放个WordPress之类的程序来更新文章)。
一些词在条件允许的情况下可以批量做。

参加seo培训的一些建议

对于参加seo,目前越来越多的人开始了解seo,并且想要更多的学习seo并且利用seo来赚钱,那么对于seo培训来讲,我们都需要被建议那些知识呢?
接下来我们就为大家进行一些建议:
参加培训之前:对于一些白鼠朋友们,我们什么东西都不知道,我们如何才能够才能加seo培训呢或者是我们如何进行seo培训呢?其实我们一些新手朋友并不需要急于去参加seo培训,而是在

seo培训之前先了解一些关于seo的相关知识,我建议朋友们在参加seo培训之前先了解一些相关的知识,比如说在一些seo论坛里面初步的了解seo是什么,seo怎么做,在进行初步任职的时候

可以了解到一个大概的印象,并为日后的学习做出准备;
选择seo培训机构:选择seo培训机构是一件非常重要的事情,可能一家培训机构的培训风格就会改变你的一生的观念或者对于seo的挂念,因此需要谨慎选择;比如说一些激进的seo培训机构

,打出了参加培训之后日赚XXX元等广告,这些seo培训机构给人们一种非常轻松的思想认为学了seo就能够赚钱,然而事实并不是这样的;一些培训机构这样讲,参加机构并不能保证你赚钱,

但是保证你能够得到一份工作,这样的培训机构显得更加成熟以及稳健,因此建议朋友们可以选择这类的机构进行学习;
参加培训的时候:在参加培训的时候我们都需要建议什么呢?在参加培训之后,我们需要了解到这些培训机构的大概教育流程,并且能够更清楚自己的学习方法,之后再进行学习的时候需要

多记笔记在学习中进行领悟,之后我们可以选择一些建站或者选择一些免费博客来进行优化,从而更加深刻的来了解seo知识;
参加培训之后,我们需要注意的是,进行实践,实践的方法有狠多,比如说我们可以自己进行建站,或者说我们可以到seo工作单位进行学习,或者是从外链专员做起更多的了解seo,在最基

层的seo中学习到更多日后可以学习到的东西,因此希望我们朋友们能够遵循这个规律;
参加培训之后并且有了自己的案例后,我们该怎么办?之后,我们需要对之前的一些知识的回顾,因为seo并不难,但是在其中有许多需要注意的细节需要我们来注意,比如说一些内链建设技

巧等等,都是需要我们注意并且解决的,所以我们要经常的回顾才可以做的更好;
之后的培训学习,我们应该更加倾向于管理或者策略方便,比如目前seovip经常培训的一些策略层面上的知识或者是一些管理或者是ROI以及KPI考核等待知识,都是我们需要在经过培训并且

就业之后需要学习的东西。
在seo培训的时候我们其他学习的还有更多的推广方法,比如说论坛推广、分类推广、QQ群推广等待都是需要学习的。
以上七个是我们需要在平日seo培训的时候需要注意的,希望大家能够更多的学习其中的一些关键地方,并且实用到自己的工作中去,帮助自己更好地提升自己的工作效率以及其他的事情!

如何选择seo培训机构

对于seo培训来讲,我们可能看到过非常多的培训机构,比如说我们在进行搜索seo培训的时候,我们会发现有着上百家的培训机构,而不排除不做seo优化的培训机构,我们面对这些多个培训机构,我们如何进行选择,如何选择一家放心的培训机构呢?
俗话说小有小的美,大有大的不好,我们在网络上混迹,接触过各类的广告,了解过非常多的大师,然而究竟谁是可信的谁是不可信的?这个问题真是难以回答,对于seo培训机构亦是如此,到底哪些非常大的牌子好还是那些小的牌子说自己很厉害的好。
其实说实话,大有大的好,小有小的美,比如说目前做seo培训如火如荼的seowhy,其培训价格在1200,一个周期的学生有100人,然而像seowhy这么大的培训机构,能够有如此大的规模,他的培训效果到底怎么样?
像seowhy其培训其实是非常正规的,但是其教的都是一些简单并且非常白帽的基础,但是正规,能够真正的学到seo东西,因此这就是做大的seo培训机构的现状,而对于小的seo培训机构,他们的能力又是怎样的?
真对小的seo培训机构,其实我们有时候需要谨慎选择,比如一些吹牛自己一个月靠seo赚多少钱的那些,都是一些不可信的,或者需要我们仔细去辨认的,有的的确能够通过seo来赚取非常多的money,但是既然赚了这么多为何又要走上培训的道路来告诉别人呢?或者说一些真正有着一定技术含量的,确实在招学生,我们也可以去一下,他们的培训可能是不正规,但是学到的东西是一些歪门邪道,我们可以尝试的,比如说一些黑帽seo,比如说一些站群啊,泛解析等等,都是我们可以通过这些小的培训人来学习到的。
那么我们在选择培训机构的时候,应该选择什么培训机构呢?由于seo的特殊性,我们应该从最低层学起,比如说我们应该先学习一些比较基础的东西,比如说可以在一些比较大的培训机构里面呆一下,学习他们的seo真正基础知识,这些知识,能够帮助自己建站并且能够在一定的优化周期内完成seo的优化排名效果,之后再一定的实践之后,我们则可以选择在一些比较小的牛人培训机构进行学习,学习一些歪门邪道的只是,比如说黑帽里面常见的链轮或者是站群等等。
通过这样的解析我们能够大概了解一些培训的路子怎么走,然而对于选择哪一个培训机构,我们则需要通过更加慎重的选择。
一般大的培训机构,我们能够知道的如seowhy seovip这两个,其他的还有moonseo这些都是我们能够了解到的,然而通过了解之后我们可以根据自己的喜好来选择,一般情况下我们需要注意,挑选一些网站年龄比较长、排名在seo以及seo培训中比较稳定的而不是忽然上来后又下去的网站,这个是需要注意的。
在选择一些小的培训机构如一些歪门邪道的时候,我们需要了解,应该选择一些吹牛而吹得不大的,并且确实是一些朋友介绍的,由于这个是骗人最多的希望朋友们能够通过自己的眼睛好好辨认,避免由于选择错了而走上了赔钱之路。
以上就是如何选择seo培训机构的一些内容,感谢您的观看!

第二节:搜索引擎基础原理(seo前线seo网站优化培训)

建议参加者:
还没有体会到搜索引擎原理在SEO上有什么用处的培训参加者。
课程内容简介:
解读《走进搜索引擎》,说明哪些是对于SEO需要看的,哪些是相对不重要的。并对于中文分词、倒排索引等重点部分进行详细的讲解。
课后:
逐渐阅读理解《走进搜索引擎》的重点章节。
上半节
1. 抓取系统
爬虫只是个下载器,可以把它想象成迅雷。它本身的分析能力很有限,仅有的分析功能主要是提取页面上的链接从而不断抓取。搜索引擎的大多数分析步骤,都是在页面先被抓回去以后做的。
常见的对于爬虫的误解如,搜索引擎无法很好的抓取动态网页。
2. 分析系统
分析系统会用程序来尽力解读网页的类型、主题等。
3. 索引系统
索引系统将网页内容转化为倒排索引,以支持海量数据的迅速查询。
4. 查询系统
当用户搜索词的时候,会触发搜索引擎的查询系统。它涉及到搜索结果的排序等,一般是SEO最为关注的部分。
《走进搜索引擎》(第二版)重点章节
下载系统
Page 6 搜索引擎的体系结构
Page 12 万维网的直径–扁平化网站的重要性
Page 16 宽度优先策略–百度大致策略
Page 19 不重复抓取策略
Page 25 网页抓取优先策略
Page 26 网页重访策略–快照更新的本质
Page 31 其他应该主要注意的礼貌性问题–抓取压力反馈
分析系统
Page 46 网页结构化的目标–区块重要性差异
Page 52 通过投票方法得到正文
Page 56 网页查重–伪原创不可行 & 特征项
Page 61 中文分词–同关键词对应多个页面是否分散权重
Page 68 PageRank的基本想法–反链有效的原因
索引系统
Page 87 倒排索引–检索的本质 & 关键词的伪概念
查询系统
Page 113 什么是信息熵–原创文章!=有价值的文章
Page 115 检索词和查询词的区别–区域性排名
Page 116 自动文本摘要–不显示description的原因
Page 122 关键词权重的量化方法TF-IDF
Page 137 中文自动摘要–摘要可控
Page 145 推测用户查询意图
排序学习
Page 186 查询相关/无关的排序模型–排名因素的细分
Page 217 排序特征
搜索引擎的性能调优–性能瓶颈
下半节
下载网页 -> 中文分词 -> 倒排索引 -> 查询
Python实例:最简单的搜索引擎
搜索引擎眼中,网页是由大量词构成的。
思考:为什么在网页里面重复出现关键词,有时可以提升排名?

第九节:Python实战:排名监控最终版(seo知识培训)

建议参加者:
对Python能用到SEO的什么地方感兴趣的培训参加者。
课程内容简介:
将前几节课的内容综合并拓展,讲解如何落实出一个完整的排名监控技术解决方案。
课后:
根据自己的需求改进程序,并在日常使用它。
程序分三个功能,1.监控记录排名,2.找出排名情况最良好的10个网站,3.输出指定域名的排名趋势报表。
base.py不需要理解其内容,只需要根据注释了解方法的用法。

第七节:Python实战:排名、收录查询(zero的seo培训视频教程)

建议参加者:

尚没有写过一定数量的SEO实用小工具的培训参加者。

课程内容简介:

通过介绍如何查询排名、查询收录,学习一些新知识,并巩固基础。

课后:

尝试写出最后附上的测试题。
上半节
第七节:Python实战:排名、收录查询(zero的seo培训视频教程)
第七节:Python实战:排名、收录查询(zero的seo培训视频教程)

上节课后习题参考答案
第七节:Python实战:排名、收录查询(zero的seo培训视频教程)

课后习题

1.

修改代码2,使之可以查询关键词对应的某个域名最靠前的排名。如指定关键词“SEO”,域名“baike.baidu.com”,此时返回结果应该为5。

并使查询范围,从只查询第1页,变为查询1-10页。

2.

修改代码1,使之可以批量查询一批URL的收录情况。这批URL应在txt文件里面,每行一个。

第一节:SEO的职业规划与大局观(seo前线培训教程)

建议参加者:

所有培训参加者。

课程内容简介:

介绍整个培训将提到的一些内容,个人认为的职业规划,与实际做SEO时候需要具备的大局观。

课后:

1. 思考职业规划,明确长期目标与短期目标

2. 购买或下载《走进搜索引擎》

上半节

第一步:

不要管任何之前所学的东西,从零开始客观看待SEO。

公益培训的优势与劣势:

会尽可能全面,对职业发展有助

不会有多少技巧性的东西

通过课时来保证更全面的知识

SEO的职业发展:

1. SEO低端人才泛滥、高端人才紧缺

对于很多公司,SEO不受重视。其原因不是SEO不重要,因为很多网站SEO流量天生占比就很高。但因为多数时候SEO能力不够,做SEO的效果微乎其微,导致了很多公司认为SEO是不可控的收效低的流量获取方式。

对于重视SEO的公司,基本都能开出几十万的年薪,然而还是很难招到人。

(各类型网站的粗略SEO流量占比 & SEO流量占比越高的网站越可能重视SEO)

2. SEO是相对可持续的行业

依赖经验性的职业,有着做的时间越长越吃香的特征,SEO就是其中一例。相对而言,程序等重脑力工作的职业寿命更短。

但搜索引擎也不断会变化,每隔几年一些SEO做法就差别很大。这要求SEO不断学习,不然随着年龄增长还是会拖垮事业发展,这也是随处可见的。

然而尽管搜索引擎一直在变化,也不要去觉得SEO快死了,这是杞人忧天,也是自欺欺人。搜索需求对于大众永远是存在的。

(例:淘宝搜索SEO、智联搜索SEO)

(需要对事业有足够的认可,才能为它不断付出:扎克伯格–寻找合适的员工)

SEO的发展方向:

管理、产品、技术

下半节

SEO的大局观:

效果导向。明确目标,展开操作。

以大量同一目的的修改,来达成该目的,不要依赖于一招打天下。

比如新频道上线,想先保证其网页被收录,需要做一系列的措施。

为了达成收录量提升的目标,需要先明确:收录量 = 页面质量 x 抓取量,并大致了解,哪些页面是希望优先被收录的,相比之下哪些页面是无关紧要的,以方便资源的调控。

按照这样的思路展开,最终可行的方法包括但不限于:给这个频道首页添加链接入口、重点页面添加链接入口、让频道内页扁平化、信息页面文字丰富化等等。

因为搜索引擎的机器学习规则,导致SEO在细节上难以做到完全可控。但多个确定没有反效果的方法一起使用,就多能够达到最初目标。

尽量避免突然想起来调下抓取压力、突然想起来精简网页代码、突然想起来提交一下sitemap等凌乱的操作方法。

技术的必要性:

有很多时候网站上会想搭建一个频道,通过发布专门做SEO的文章来获取流量。这时候需要对一些开源程序如dedecms有所了解。

对于小公司,由于人力有限,有时候SEO缺少技术人力,需要自己动手。

对于大公司,往往网站有比较复杂的架构,一个看似很小的页面功能可能会涉及很多技术难题,优秀的SEO应该可以和技术交流解决方案。

很多时候技术是不靠谱的,这可能由于多方面原因,诸如技术侧对SEO的重视度不够,抽出的技术人力是个新手。但一味抱怨技术的能力,仍然无法解决SEO的需求。要么擅长沟通,通过各种方法去争取更多的技术支持;要么擅长技术,自己搞定一部分技术需求、或与技术沟通解决方案。

课程会提到的Python是设计之初就用来解决问题的程序语言,它远比C语言、Java等学习起来容易,书写一段小代码的效率也高得多,和一些人印象中的程序语言截然不同。

后续课程介绍:

先进入搜索引擎原理部分,因为SEO的第一步,应该是对天天打交道的幕后搜索引擎有初步的了解。由于搜索引擎原理涵盖较多,且有《走进搜索引擎》等现有书籍提到了这些知识,所以拿一部分时间来让大家看书自学。

因此搜索引擎原理部分之后,紧跟的不是SEO部分,而是最基础的网站建设部分。当对于搜索引擎原理已经有一定了解以后,再去看SEO知识的话,可以对SEO有更准确的认识。

第六节:Python程序语言基础(PYthon免费培训视频下载)

从这节开始进入约3~4个课时的Python教程,之后会继续SEO课程。

建议参加者:

完全没有程序基础的培训参加者。

课程内容简介:

介绍Python的最基础知识,包括判断、循环、函数、文件操作等。

课后:

尝试写出最后附上的测试题。

上半节

1. 输出Hello World!


Python | copy code | ?
1
print 'Hello World!'

如果在Python代码里面出现了中文字符,需要在第一行指定编码为utf-8,一个好的习惯是总是在第一行指定编码。如:


Python | copy code | ?
1
# coding:utf-8
2
print 'Hello SEO前线!'

2. 变量的操作


Python | copy code | ?
1
a = 1
2
b = 2
3
print a + b

运行后输出是:3

给a变量赋值为1,b变量赋值为2。因为两者是数字,输出a+b时输出的是它们的和。


Python | copy code | ?
1
a = 'abc'
2
b = 'def'
3
print a + b

运行后输出是:abcdef

给a变量赋值为abc,b变量赋值为def。因为两者是字符串,输出a+b时输出的是它们拼接后的结果。

3. 判断


Python | copy code | ?
1
# coding:utf-8
2
a = 20
3
if a>10:
4
print 'a大于10'
5
else:
6
print 'a小于等于10'

输出:a大于10


Python | copy code | ?
01
# coding:utf-8
02
a = 10
03
if a==12:
04
print 'a等于12'
05
elif a==11:
06
print 'a等于11'
07
elif a==10:
08
print 'a等于10'
09
elif a==9:
10
print 'a等于9'

输出:a等于10

4.循环


Python | copy code | ?
1
for i in range(5):
2
print i

输出:

0
1
2
3
4

(程序计数字都是从0开始)


Python | copy code | ?
1
for i in [1, 3, 5]:
2
print i

输出:

1
3
5

5.函数


Python | copy code | ?
1
def sum(a, b):
2
return a + b
3
print sum(10, 20)

输出:30


Python | copy code | ?
1
def sum(a, b):
2
return a + b
3
print sum(sum(10, 20), 30)

输出:60

下半节

1.列表操作


Python | copy code | ?
1
l = []
2
l.append(1)
3
l.append(3)
4
l.append(5)
5
print l
6
print l[0]
7
print l[1:3]

输出:

[1, 3, 5]

1

[3, 5]

2.字典操作


Python | copy code | ?
1
d = {
2
'a': 1,
3
'b': 2,
4
'c': 3,
5
}
6
print d['b']
7

输出:2

3.文件操作


Python | copy code | ?
1
for line in open('temp.txt'):
2
print 'now: ' + line.rstrip()
3

temp.txt文件内容:

line1

line2

输出:

now: line1

now: line2


Python | copy code | ?
1
f = open('temp.txt', 'w')
2
f.write('line1rn')
3
f.write('line2rn')
4
f.close()
5

运行后temp.txt文件内容:

line1

line2

4.下载网页


Python | copy code | ?
1
import urllib2
2
print urllib2.urlopen('http://g.cn/').read()
3

输出:(http://g.cn/的网页源代码)

实例:

读取网站日志文件,统计爬虫抓取数量。


Python | copy code | ?
01
# coding:utf-8
02
baidu = 0
03
_360 = 0
04
google = 0
05
06
for line in open('131014.log'):
07
if 'Baiduspider' in line:
08
baidu += 1
09
elif '360Spider' in line:
10
_360 += 1
11
elif 'Googlebot' in line:
12
google += 1
13
14
print '''##爬虫抓取次数##
15
16
百度:t%d
17
360:t%d
18
Google:t%d''' % (baidu, _360, google)

输出:
##爬虫抓取次数##

百度: 170
360: 135
Google: 353

课后习题:

抽取出刚才那份日志里面百度来源的SEO流量,并找到来源数最多的那个关键词,计算出来访次数。(来源关键词区分大小写)

用户需求分析浅浅谈

焦大seo培训联盟原创,转载敬请注明seo培训联盟新浪博客地址,谢谢。 未来影响seo最大的因素是什么?用户需求分析。现在用户需求和用户体验的话题其实已经很多人在讨论的话题了,但是像seo排名一样,现在仍旧没有好的体系,基本还处于混乱的状态,大家都知道用户需求很重要,却怎么也找不到怎么入手处理。以下是焦大做的一些小分享,希望对您有所帮助。 no1,搜索行为与用户真实需求 想做用户需求分析,第一步就是找到用户的真实需求是什么,而这个的关键是受众,只要深刻了解了受众是什么,我们才能接着了解其核心的需求。举个我自己新浪博客seo培训联盟的例子,因为有些人不理解为何我敢说我博客比别人的seo培训博客或网站更能满足用户需求。在以前的做seo的认知里,用户需求是什么,他们大都认为就是挖掘大量的长尾词(因为这个搜索行为),甚至现在很多人也认为用户真实需求等于挖到的关键词,比如做seo培训的,文章写很多关于seo培训的长尾词的是满足需求的,否则是不能满足用户需求的。其实这是一个完全的误区,如果我没有记错的话,Web信息架构这本书的第三章开始部分就说了,第一步需要把搜索行为和用户需求分开,找出哪一种是用户最需要的东西,把主要的精力放在最具有追求价值的东西上。 这个或许有些难以理解,为何相关搜索行为不等于用户需求呢?我们下面具体说下,比如搜索“seo培训”这个词的,他们的是什么人,他们真实需求是什么?我们如果最直观的来想,搜索的人主要有2类人一类是一些新手,主要是需要寻找靠谱的seo培训机构教他们一些基础的seo知识,这类的人其实大部分都被竞价或seowhy接走了,还有一类人是有了seo基础但是现实遇到了问题需求有新的方向的,他们最大的需求是学到新东西。所以说如果从seo的角度做seo培训这个词的话,想满足用户需求最大的问题是提供新的知识点或理念,而且是靠谱的知识和理念,这是做seo培训的最大用户需求,而不是在网站或博客上弄些所谓的长尾词,因为在你的博客网站上或一个seo论坛看到有区别吗。假如你的网站或博客都是些去哪里发外链效果好、关键词密度多少合适这类的长尾词组成的文章,试想搜索这个词的大多数用户看了点开你网站一次之后,还会回头关注你吗? 再举一个例子,比如用户搜索“免费发布信息的网站”,表面上看用户是找个能发布信息的站就可以了,但是你仔细思考,如果仅仅是找个发信息的站,其实他可以搜索一个很短很常见的词语就可以了。如果你把这个词语即使有了很好的排名,用户可以找到你,你的网站也能发信息,但是所发布的信息没有用户看,也没有收录,那么这些发布信息的人会继续吗,你能说你满足了用户真实需求吗?肯定不能。所以用户的搜索的词行为往往说明的是用户是有这个需求,而不代表是用户真实需求,这两者是有很大的区别的。做seo的时候,我看到的是很多的人都是把挖掘词语作为首要任务,而不会理会这个词语搜索者真实的诉求是什么,于是做了很多长尾词页面后都不知道这个服务甚至他不能提供…… no2,长尾词与信息属性 如果你挖掘了很多长尾词之后,该怎么处理?其实这里夜息大神有说http://bbs.zhanzhang.baidu.com/thread-10327-1-1.html,我就不狗尾续貂了,这里给大家说另外的一个角度,也就是搜索的长尾词其实并不是无缘无故地出现的,很多时候我们拿到一大批的长尾词感叹的是用户需求真是不可捉摸。其实不然,用户的搜索大多都是呈现一定的模式的,也即是信息的属性。 关于信息属性,这在很多seoer来说是个完全陌生的概念,我也是从下厨房创始人itony哪里学来的,后来我发现这个东西很有用。具体来说,根据信息的属性,信息(比如一个网页)大体上有3类属性:分类属性、元属性与检索属性。具体的比如zac大神的博客,分类属性也就是某篇文章的分类,元属性是指tag类的,检索属性是比如按照时间的存档。大体上几乎所有的博客都是按这3类属性进行组织的,当然信息的属性其实原本比这个博客的组织复杂的多,但是同时的也更加的具有研究的价值,因为对于固定属性的信息来说,用户的搜索基本都是按照他的属性进行搜索的,换句话说我们可以按照信息的属性进行拓展用户需求,可以根据信息的属性挖掘一些难以挖掘的长尾词,可以在页面上重点突出信息的属性而命中更多的用户需求…… 信息属性的作用其实远不及此,在一些文本信息的识别、处理中,都有非常重要的作用,比如我们常见的keywords和description,他们也属于元属性的两类,一个是元含义性属性,一个元描述性属性,在一些文本的处理研究文献里都曾经起着重要的作用。 在目前对于长尾词挖掘的技术和资源日益丰富,长尾需求也日渐充盈,在这个时候就需要更加的了解用户的需求,加强满足其深层次的需求,而对于信息需求的学习或研究来说,我们一直采用的都是分类法,比如夜息那篇文章说的最终进行分类等,但是除了分类之外,其实我们更加的可以结合信息的多种属性,思考其满足点在哪里,深层次满足用户的需求对于目前的互联网来说无疑是最需要的。 举个简单的例子来说,我曾经看过《决斗者的生命》这部电影,前一段我还想继续看这部电影,但是忘记了电影的名字也不知道里面的演员或主演是谁,但是最清楚的就是一个女刀客是跛脚的,很是厉害。后来我百度搜索了下“香港武侠跛脚女刀客”,这是个很明显的元属性搜索,要知道这类的搜索在目前的是没有结果的,因为所有的弄电影站的最关心的是什么?分类属性,是没人去弄这类的属性的,其实我最惊奇的不是我一个人这么搜索的,因为你百度下可以看到也有人在百度知道上咨询,说明了什么?说明了这类的信息也是有人搜索的。这类的搜索或许少,但是一部电影的元属性其实很多的比如电影的播放资源、资源清晰度、导演、演员、年代、地区、剧情、主要人物、包含的元素等,其实应该有大量的信息是有人搜索而没有提供的,而且要知道长尾词挖掘工具挖掘到的永远是人们搜索过的,新的没有人搜索的或搜索量极低但是搜索模式单一的信息属性却一直隐藏其中,所以我觉得研究长尾词之余,做seo的是不是也可以学学信息属性呢? no3,信息展示模式和用户搜索模式 用户搜索的模式也就是用户会怎么查找一个信息,信息展示的模式是指一条信息需求用什么展示出来。具体的我们可以举例说明下:比如我们搜索“北京seo主管待遇”信息用户该怎么展示是满足用户需求的呢,很明显的比如百度的前3个都是一些综合数据处理后的展示图表,因为人们搜索这个词的目的就是想知道一个大体的综合水平,所以我们说通过这类的展示方式算是满足了需求了,而4、5、6位很明显的都是一个企业的待遇展示,信息展示模式和用户搜索不匹配。

第五节:体系化的SEO框架(seo前线培训教程下载)

建议参加者:
所有培训参加者。
课程内容简介:
通过介绍体系化的SEO,将SEO应该学习、应该做的事情整理清楚。
课后:
将自己现在手中的SEO项目重新梳理。
上半节
SEO流量 = 搜索量 * 收录量 * 排名 * 点击率
用户先拿一个关键词进行搜索,这时如果一个网页被收录了,它就有机会去获得排名。它排名好的话,用户就可能会点击它,最终成为网站的一个访客。
各个因素之间,近似于乘的关系。也即是比如一个网站收录再好,网页质量太差而排名差的话,SEO流量不会高。反之亦然,一个网站上如果一个个页面都是精心做的排名很高,但总共只有几个页面收录很差,SEO流量也不会高。
之所以这里的公式以乘法为主,并不是指的可以通过该公式来确切的计算SEO流量,而代表的主要是几个因素之间的相互关系。四个影响SEO流量的因素中,哪怕一点做得很差,整体表现就会很差。
乘法之说的依据,也可以见Google黑板报《数学之美》的:如何确定网页和查询的相关性(主要见最后一节)
搜索量 = 行业搜索量 * 网站覆盖比例
对于很多类型的网站,行业搜索量的波动,是引起网站流量异常的最常见因素。在流量异常分析的时候,需要结合每年的同比数据。
收录量 = 抓取量 * 页面质量
抓取量的上限有多种可能性。抓取数量上限、抓取时间上限、页面数量上限等,应对不同的处理方法。比如抓取时间成为瓶颈时,就优化网页的加载速度。
排名 = 查询无关权重 * 查询相关权重 * 用户行为权重
查询无关权重,指的是页面自身和搜索的词没关系的权重(且排除掉用户行为权重)。比如文章页面上有一张图片,搜索引擎认为图文并茂的文章往往更具用户体验,给这个页面加权;也比如一个其它的网站给这个页面一条链接,这个页面的PageRank提升,也属于查询无关权重。
查询相关权重,比如一个查询词在页面内完整的出现过一次,搜索引擎认为该页面与这个查询词相关,给这个页面针对这个词加权。
用户行为权重,比如用户通过搜索引擎大量的访问一个页面,且搜索引擎发现该网页跳出率等数据指标表现良好,给这个页面加权;又如一个网页在某个词的点击率较高,给这个页面针对这个词加权。
下半节
书写方案的步骤
整理现有页面,哪些页面是重要的,哪些页面是次要的。
拿重点页面为主,以公式展开寻找一个个可操作的点,并罗列写下来。
最后按照改起来的顺序,整理前面一个个的点,落实成最终方案。
搜索量
让网站可以覆盖更多搜索量,这一点在很多情况下,比起和别人竞争排名更有效。
由于目前大多数SEO还都处于初级阶段,只知道用百度指数拓展词,所以有大量指数都没有的词被人忽视了。而因为长尾效应,这块才是流量空间真正大的地方。
针对性的做法可以有很多种,一种最简单的是修改现有页面。比如之前的title是“网球场”,将它改成“网球场/网球馆”,就可以覆盖到更多的搜索量。尤其对于大型网站,有很多模版硬生生去生成的页面,很多title不合理,完全无法获取SEO流量。这一点有很大的操作空间。
写文章来做那些关键词的排名也是一种方法,它实现成本很低,大家基本都能做到(如果实在没有修改网站现有页面的权限,可以在域名下再开一个目录,放个WordPress之类的程序来更新文章)。
一些词在条件允许的情况下可以批量做。

第八节:Python实战:完善排名查询(网上seo培训)

建议参加者:
程序经验不丰富的培训参加者。
课程内容简介:
完善查排名的代码,并给它加些功能来监控自己和竞争对手的排名。
课后:
复习这些天的课程,不一定是自己写出来,可以复制一段段的代码拼出最终功能,但需要做到能够流畅的写出代码。
上半节
windows里面的sys.argv[1]巧用–拖拽文件。(需要与raw_input()一起用)
代码1:
建议参加者:
程序经验不丰富的培训参加者。
课程内容简介:
完善查排名的代码,并给它加些功能来监控自己和竞争对手的排名。
课后:
复习这些天的课程,不一定是自己写出来,可以复制一段段的代码拼出最终功能,但需要做到能够流畅的写出代码。
上半节
windows里面的sys.argv[1]巧用–拖拽文件。(需要与raw_input()一起用)
代码1:
01

import re, urllib2, urllib, sys

02
03

def get_urls(kw):

04

html = urllib2.urlopen(‘http://www.baidu.com/s?wd=%s&rn=100’ % urllib.quote_plus(kw)).read()

05

urls = re.findall(‘\s*(.+?) ‘, html)

06

urls = [ ‘http://’ + url.replace(”, ”).replace(”, ”) for url in urls ]

07

return urls

08
09

input_file = sys.argv[1]

10

self_domain = sys.argv[2]

11

competitor_domain = sys.argv[3]

12
13

self = 0

14

competitor = 0

15

for line in open(input_file):

16

kw = line.rstrip()

17

urls = get_urls(kw)

18
19

self_find = False

20

competitor_find = False

21

for pos, url in enumerate(urls, 1):

22

if not self_find and self_domain in url:

23

self += 100 – pos

24

self_find = True

25

if not competitor_find and competitor_domain in url:

26

competitor += 100 – pos

27

competitor_find = True

28

print self, competitor

下半节

01

import re, urllib2, urllib, sys, time

02
03

date = time.strftime(‘%Y-%m-%d’)

04
05

rank_score = [

06

28.56,

07

19.23,

08

10.20,

09

8.14,

10

7.50,

11

5.72,

12

4.01,

13

4.41,

14

5.53,

15

6.70,

16

]

17
18

def get_urls(kw):

19

while 1:

20

html = urllib2.urlopen(‘http://www.baidu.com/s?wd=%s&rn=100’ % urllib.quote_plus(kw)).read()

21

if ‘=”http://verify.baidu.com/’ in html:

22

print ‘captcha’

23

time.sleep(600)

24

continue

25

else:

26

break

27

urls = re.findall(‘\s*(.+?) ‘, html)

28

urls = [ ‘http://’ + url for url in urls ]

29

return urls

30
31

input_file = sys.argv[1]

32

self_domain = sys.argv[2]

33

competitor_domain = sys.argv[3]

34
35

f = open(‘rank_report.csv’, ‘a’)

36
37

self = 0

38

competitor = 0

39

for line in open(input_file):

40

kw = line.rstrip()

41

urls = get_urls(kw)

42
43

self_find = False

44

competitor_find = False

45

for pos, url in enumerate(urls, 1):

46

if not self_find and self_domain in url:

47

if pos<=10:

48

self += rank_score[pos-1]

49

self_find = True

50

if not competitor_find and competitor_domain in url:

51

if pos<=10:

52

competitor += rank_score[pos-1]

53

competitor_find = True

54

f.write(‘%s\t%d\t%d\r\n’ % (date, self, competitor))

f.close()

上节课后习题参考答案:

01

import sys, urllib, urllib2, re

02
03

kw = sys.argv[1] # keyword

04

host = sys.argv[2]

05
06

rank = -1

07

for pn in range(1, 10+1):

08

html = urllib2.urlopen(‘http://www.so.com/s?q=%s&pn=%d’ % (urllib.quote_plus(kw),pn)).read()

09

urls = re.findall(‘class=”res-list”>[\s\S]*?, html)

10

for pos, url in enumerate(urls, 1):

11

if host in url:

12

rank = pos + (pn-1)*10

13

break

14

if rank!=-1:

15

break

16

print rank

01

# coding:utf-8

02

import sys, urllib, urllib2

03

def is_indexed(url):

04

while 1:

05

html = urllib2.urlopen(‘http://www.baidu.com/s?wd=%s’ % urllib.quote_plus(url)).read()

06

if ‘=”http://verify.baidu.com’ in html:

07

print ‘captcha’

08

sleep(600)

09

continue

10

if ‘class=f14>没有找到该URL。您可以直接访问’ in html or ‘class=”nors”>

抱歉,没有找到与’ in html:

11

return 0

12

else:

13

return 1

14
15

total = 0

16

count = 0

17

for line in open(sys.argv[1]):

18

url = line.rstrip()

19

indexed = is_indexed(url)

20

print url, indexed

21
22

if indexed==1:

23

count += 1

24

total += 1

25
26

print ‘收录率:%d%%’ % (count * 100 / total)

print self, competitor

下半节

01

import re, urllib2, urllib, sys, time

02
03

date = time.strftime(‘%Y-%m-%d’)

04
05

rank_score = [

06

28.56,

07

19.23,

08

10.20,

09

8.14,

10

7.50,

11

5.72,

12

4.01,

13

4.41,

14

5.53,

15

6.70,

16

]

17
18

def get_urls(kw):

19

while 1:

20

html = urllib2.urlopen(‘http://www.baidu.com/s?wd=%s&rn=100’ % urllib.quote_plus(kw)).read()

21

if ‘=”http://verify.baidu.com/’ in html:

22

print ‘captcha’

23

time.sleep(600)

24

continue

25

else:

26

break

27

urls = re.findall(‘\s*(.+?) ‘, html)

28

urls = [ ‘http://’ + url for url in urls ]

29

return urls

30
31

input_file = sys.argv[1]

32

self_domain = sys.argv[2]

33

competitor_domain = sys.argv[3]

34
35

f = open(‘rank_report.csv’, ‘a’)

36
37

self = 0

38

competitor = 0

39

for line in open(input_file):

40

kw = line.rstrip()

41

urls = get_urls(kw)

42
43

self_find = False

44

competitor_find = False

45

for pos, url in enumerate(urls, 1):

46

if not self_find and self_domain in url:

47

if pos<=10:

48

self += rank_score[pos-1]

49

self_find = True

50

if not competitor_find and competitor_domain in url:

51

if pos<=10:

52

competitor += rank_score[pos-1]

53

competitor_find = True

54

f.write(‘%s\t%d\t%d\r\n’ % (date, self, competitor))

f.close()

上节课后习题参考答案:

01

import sys, urllib, urllib2, re

02
03

kw = sys.argv[1] # keyword

04

host = sys.argv[2]

05
06

rank = -1

07

for pn in range(1, 10+1):

08

html = urllib2.urlopen(‘http://www.so.com/s?q=%s&pn=%d’ % (urllib.quote_plus(kw),pn)).read()

09

urls = re.findall(‘class=”res-list”>[\s\S]*?, html)

10

for pos, url in enumerate(urls, 1):

11

if host in url:

12

rank = pos + (pn-1)*10

13

break

14

if rank!=-1:

15

break

16

print rank

01

# coding:utf-8

02

import sys, urllib, urllib2

03

def is_indexed(url):

04

while 1:

05

html = urllib2.urlopen(‘http://www.baidu.com/s?wd=%s’ % urllib.quote_plus(url)).read()

06

if ‘=”http://verify.baidu.com’ in html:

07

print ‘captcha’

08

sleep(600)

09

continue

10

if ‘class=f14>没有找到该URL。您可以直接访问’ in html or ‘class=”nors”>
抱歉,没有找到与’ in html:

11

return 0

12

else:

13

return 1

14
15

total = 0

16

count = 0

17

for line in open(sys.argv[1]):

18

url = line.rstrip()

19

indexed = is_indexed(url)

20

print url, indexed

21
22

if indexed==1:

23

count += 1

24

total += 1

25
26

print ‘收录率:%d%%’ % (count * 100 / total)

日志分析核心原理

网站流量和日志分析的关系
流量=收录*排名*点击
日志是惟一能和蜘蛛交互的地方
网站的大部分问题都能通过日志分析出来
网站当前的现象并不一定是当天或者最近几天造成,有可能是前一个月
日志分析是分析其现象,分析其趋势,并不是分析某个点,纠结在一个点上