导航

上海天擎官方博客

上海天擎官方博客:分享搜索引擎营销经验,展示上海天擎企业风采

« 谷歌推手机版Google Voice:直接通话无需付费我国网民数达3.38亿 手机上网用户达1.55亿 »

SEO研究系列第九篇:如何有效的利用搜索引擎页面抓取?

     robots.txt文件可以明确的告诉搜索引擎蜘蛛你网站的哪些部分不可以抓取,那些部分允许它去抓取。这个文件不但必须一定命名为”robots.txt,还得放在你网站的根目录上才能起到作用。

我们网站robots.txt文件的路径。所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取“images”或者任何以/search开头的url里的内容。你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robotsmeta标签里添加“NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项。

robots.txt实践经验

1. 为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上,搜索引擎就很可能引用这些URLs。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。所以对内容加密或者通过“htaccess”实现密码保护会是更安全的选择。当然你需要避免:

    1)允许看起来像搜索结果一样的页面被爬取。

    2)允许大量的自动生成的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”

    3)允许代理服务器创建的URLs被爬取。

     将这篇文章的最新评论发送到我的信箱

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Copyright Google中国最佳代理商-上海天擎官方博客 版权所有
上海唯一专注于Google AdWords关键字广告的授权代理商
Google(谷歌)大中华区最佳代理商
Google AdWords关键字广告客户满意度调查全国第一
Google(谷歌)黄金帐户优秀表现评选全国第一
Google 推广免费咨询热线 400-620-8365