百度站长俱乐部问答汇总第七期

1.option标签里面的链接可以被蜘蛛抓到么?以及权重的传递和A标签有什么区别?
<select class="hei12" name="popCourseWindow1" id="popCourseWindow1" >
<option value="http://www.seowindows.com/">seo教程</option></select>

答:
可以提取。
效果等同于<A href="http://www.seowindows.com/">seo教程</A>。

2.最近发现一些仿冒Baiduspider抓取的情况，提供两种判断是否为Baiduspider的方法。

答:
方法1——Linux环境下
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名，非*.baidu.com即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
方法2——windows环境下
开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)
或者开始->运行->nslookup 123.456.78.90
查看name信息，未标识为Baiduspider即为冒充。

3.最近研读搜索引擎优化指南，考虑将站点结构调整的更合理些，但搜了下百度对于301跳转的相关案例，大量血凝凝的事实使得本人望而却步，请教百度对于 301跳转的审核周期多久，原有外链等投票信息是否全部转移，您是否建议我为更合理的网站结构采取301的策略调整网站目录结构？

答:
301跳转不存在审核周期，但发现历史网页的301跳转是受Spider网页更新周期制约的。这个更新周期目前来说可能比较长，我们也致力改进它。
做301永久重定向之后，原有网页累积的权重信息，会全部转移至对应网页。

4.站点开了CDN，对百度SEO影响有多大？我发现我们站自从开了CDN，来的流量少了好多。

答:
几乎所有的大型网站都在用CDN，看看他们在搜索引擎中的表现就可以知道不会任何的负面影响了。
但我们建议站长尽量选择技术成熟的CDN服务商，某些CDN服务商会导致网站在某些地区访问不稳定，可能会影响Baiduspider的抓取。

5.因为编码和二次开发的需要，我们经常会注释掉一些内容，这些内容是否也会被百度抓取并且分析呢

答:
在html中的注释内容，会在正文提取环节忽略。

6.许多站长都有过网站排名突然整体下滑的经历，本来排名很好的页面，一夜之间大部分页面排名找不到，只有少部分页面排名还能找到，但一般也只是在第11位。这期间甚至对网站没有做过任何的修改，内部原因的可能性不大。
原因众说纷纭，有说是被百度人工干预了，被拔毛、被降权，也有说是百度算法更新导致的。请问lee老大，这种详情页面排名突然大批量大幅度下降的情况主要是什么原因导致的？如果是网站自己的原因，该从什么地方检查？

答:
“大批量”“大幅度”这类形容词对于不同站点意义是不同的。
这里无法简单给出“正常”或“异常”判断。
我们对网站以及页面在收录和排名上的判断有非常多策略，发生网页排名波动的原因多种多样，有可能是百度的排序算法做了某些变化导致的整体波动，有可能是某个网站自身的问题。
可以检查一下自己的网站，是否服务运行稳定（包括安全因素，如是否被黑被挂马），是否存在“低质量”“作弊”页面，等等。
百度网页搜索网页排序问题FAQ
http://www.baidu.com/search/guide.html#2

7.百度蜘蛛会抓取被Robots 禁止的网页
1、己经Disallow了 /modules/news/ 文件夹，但/modules/news/view.category.php/ 还是会被抓走，并且放了出来。
2、重新设置了 Disallow，设置为/modules/，蜘蛛才不抓/modules/news/view.category.php/
3、年初刚做站时，担心蜘蛛抓错了测试文章，所以整站Disallow了，五月初才开放给蜘蛛进来，蜘蛛每天访问很多次首页和部分内页，但只放出首页，和一些抓错网址的栏目页，一个合格的内页都没放出来。
现在己经两个月过去了，很着急。文章都是原创的，请问百度lee老大我应该怎么做？

答:
robots协议支持多级目录Disallow。
因此Disallow了 /modules/news/ 文件夹，/modules/news/下所有文件应该禁止抓取。
出现提问中的例外情况，也许跟robots中其他设置顺序以及内容有关。
可以贴上robots文件的全部内容，再看看。
如百度网页搜索帮助所介绍，http://www.baidu.com/search/guide.html#1
新的Robots文件通常会在48小时内生效，也就是蜘蛛在48小时内识别了更新的robots文件内容后，会按新robots设置执行抓取。之后，这些网页将同所有被抓来的网页一样进入下一个筛选环节。

7.关于淘宝客被清理的问题

答:
我们的确进行了大规模清理。清理的原因很简单：
淘宝客页面，大多属于机器生成的高度重复的垃圾页面。除了重复之外，这些页面还内容短缺，排版诡异，广告漫天飞，服务器不稳定，连接速度超级慢，显著作弊比例几乎超过8成。这样的劣质页面，10万次访问，也未必能成一单。所以我们只能清扫一下。
外头有舆论质疑说，百度因为合资的乐酷天要上市，有啊又跟淘宝是直接竞品，所以这是在有意打击竞争对手。这种论调无丝毫道理。马云认为百度的流量是垃圾，为了维护淘宝卖家的利益，就屏蔽掉了百度。马云目光如炬，按理所说非虚。既然如此，从百度到淘宝的流量越少，对淘宝自然越有利。而且，如果我们故意要针对淘宝搞动作，也不会迟到现在才下手。淘宝客上线也快一年了，很多站长通过淘宝客日入数万IP也不是一月两月了。
若搜索一下“淘宝客”，会发现到处是“月入十万不是梦”的说法，就跟当年股市冲8000点的时候，小区门口红箍老太太也在津津有味的谈股经一样。所以事态实际越来越失控，我们若再不动手，只能算是纵容互联网生态往又一次的“sp联盟”状况发展。在上一波SP联盟中赚过昧心钱的老站长,应该清楚我在说什么。
最后，再对希望发财的站长们说一句：
用合理的手段发财，我们欢迎；但是，如果你的发财手段是以损害搜索引擎用户体验为代价，那么，随时都有可能从天堂到地狱。不要有什么抱怨，愿赌服输。

8.百度对网页“描述”这部分展示，来源于四个方面：1、页面本身的description；2、用户当前搜索关键词在页面的分布比例；3、部分百度合作或权威站点对该站（页）的注释；4、百度会从代码中随机（跟多是按顺序）展示。
不知道哪个说法更接近于真相，还是兼而有之？对站长们有什么好的建议呢？

答:
标题通常来自网页的<title></title>。
首页的摘要会比较多的来自meta description，普通网页则是根据搜索关键词动态提取的。

9、如果流量没有大的波动，但实际上新的页面是已经被收录，只是因为排名不好，所以并没有流量过来，这样子的话也不能说site的结果不准?只能说是权重不够高。因为一个新站，前期一定只是一个积累的过程，可能流量并不是那么的重要，但是收录的确还是很重要的。代表的是，你已经进入了百度的索引了。

答:
已经强调过很多次了，百度site语法的结果数不准。而且这种不准的幅度甚至不是稳定的，可能今天比较接近真实值，明天就发生大波动了。其中的原因不便多解释，但是请不必再就这个问题反复提问了。

10、url抽样监控，这样子的一个收录监控方式，我想，对于我们这些小站长或是个人站长来说，在现阶段来说，在高手眼里的小技术的脚本，可能就是一座难以逾越的大山。而互联网上，因为来说草根站长是占了绝大的一部分。

答:
没有想像那么难。连备案这种复杂的事情都能搞定，学点脚本编程，实在不算什么。而且，作为站长，如果想深入的研究sem，我可以坦白的讲，数据分析是必须的。在网络上搜到的东鳞西爪的所谓seo技巧，大多是别人嚼剩下的、没什么大用的、甚至有害的东西。站长要学会的首要事情之一，是对自己的网站日志做深入解剖，并能针对问题做各种实验和分析。

11、其实site来说，对于站长本身，很大一部分就是让自己心里有了一个底，可以用一个脚本来替换得到更准确的值的确是可行的，而且自己是可以通过流量统计后台来实现成效的检验的。但是有一点可能被您给忽略了，site用的最多的场合不是自用，而是交换友情链接的时候用的。估计很小部分的人会交换一个友情从而去动用脚本去检测索引对方网站的具体数据，这一块，要如何更好地解决呢?

答:
有一点可以肯定，索引结果数肯定不会是一个网站在搜索引擎中的站点评级指标。这是很容易理解的。举个例子，site:www.126.com，就几百条而已。从投票权角度，它的权重会低于大部分索引了成千上万网页的站点？所以站长若要搞搞友情链接，更重要的是用自己的经验去做价值分析——他是想捞一票就走的，还是想正经在互联网上立立腕儿的。

12.请问为什么site:www.domain.com 的结果要比 site:www.domain.com+关键词的结果少很多。
site: www.domain.com+关键词的结果，有参与到搜索结果的排序中来吗？

答:
第一个问题，正是体现了百度site搜索时计算结果数的不准确，完全是反常识的。
第二个问题，site本意起到限定作用，那么“abc site:www.domain.com” 的意思，即是“在www.domain.com的限定集内，abc搜索结果按权值高低的正常排序”。

13.谈一下site语法下的结果数问题

答:
我知道大多数站长，会使用不带关键词的site语法来进行收录量观察。这是一种方法，但很不准确。
site语法设定的初衷，其实是期望用户可以设定约束搜索范围，实现更加精准的搜索。这同intitle，inurl，本质上是相同的。而在这些高级语法下的结果数，和常规搜索一样，都是“估值”，而非精确值。因此，很有可能site下的“结果数”减少了，实际被索引数却可能增加了。
更加精确的方法是什么呢？
1，对来自搜索引擎的流量进行监控。这是最直接和本质的。如果流量没有大的波动，而site下的数值发生巨大波动，这只能说明site搜索结果数的不精确性。
2，对站内url进行抽样监控。有些url已经被搜索引擎收录了，那么取出一个集合，作为收录状态监控集；每天的新url尚未被收录，也可以对其进行索引状态的监控。脚本是很容易写的，这种基于抽样的评估也是很有效的。
3，由搜索引擎提供的统计工具。我们是否应该提供类似统计工具，目前还在评估中。