robots.txt使用教程
taotaoit 其他 2017-05-18 2482 0
关于本站

“最难不过坚持”

本人承接扒站仿站,php网站维护,病毒查杀,网站编辑,网站改版,html制作

有需要网站维护,改版,病毒查杀,网站编辑,网站备案,html制作等相关的工作可以联系我。
本人有多年相关工作经验,也可提供免费咨询,交个朋友。
有需要探讨问题的朋友,也可以加我微信,共同探讨!
微信:15011482830 QQ:408917339

7441448 2655 39
最新评论
https://jueru.net/
评 留言
:weixiao:
评 留言
:shuijiao: :weiqu: :zhenbang: :leng:
评 留言
:yiwen: :yiwen: :yiwen: :yiwen:
评 EasySass: could not generate CSS file. See Output panel for details.
这个业务逻辑多少都有点奇怪了,阅读浏览次数增值在新闻详情页的控制器方法里setInc,这怎么还写进模型事件里了。如果非要用onAfterRead也可以,把新闻文章的内容单独分出来一个news_content表,然后把它和news做关联,然后给news_content表的onAfterRead事件做增值处理,这样点进新闻页内查询到文章内容时才会触发它。
评 TP6模型事件-查询后onAfterRead不好用
文章标签更多
ThinkPHP (254)
Mysql (58)
DedeCms (33)
jQuery (67)
证件照 (1)
setInc (4)
setDec (4)
onclick (5)
打开边栏(ESC) 关闭边栏(ESC)

一、robots.txt有什么用?

      如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向我们汇报爬虫信息。  

二、怎么使用robots.txt?

      建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.abc.com,我们会首先抓取http://www.abc.com/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。

三、怎么写robots.txt文件?

   robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。

   在文件的第一行写:

   User-Agent: YodaoBot

   这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:

   User-Agent: *

   这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个”User-Agent: *”。

   接下来是不希望被访问的链接前缀。例如:

   Disallow: /private

   这就告诉爬虫不要抓取以”/private”开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:

   Disallow: /

   则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:

   Disallow: /tmp

   Disallow: /disallow

   那么所有以”/tmp”和”/disallow”开头的链接都不会被访问了。

   最后形成的robots.txt文件如下:

   User-Agent: YodaoBot

   Disallow: /tmp

   Disallow: /private

   请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。

四、怎样分别指定不同的网络爬虫?

   这个操作很简单,只要分别指定“谁能或不能访问怎样的链接”即可。例如:

   User-Agent:  YodaoBot

   Disallow:

   User-Agent: *

   Disallow: /private

   上面的robots.txt表明,名为YodaoBot的爬虫可以抓所有的内容,其它名称的爬虫不能抓以”/private”开头的链接。

版权声明:本站原创文章,允许自由转载。

相关推荐
Uncaught (in promise) 的解决方法,可能原因
其他 | 2022-06-25 1082083
Uncaught (in promise) 的解决方法,可能原因;仅仅只是一种参考原因 我是因为copy的项目直接修改的,结果一直报错 Uncaught (in promise),检查发现接口请求数据已经正常返回,后来经过排查发现是在拦截器里面别人的判断是response.data.status !== 1 就算请求失败,从而Promi...
钉钉怎样设置快捷键?钉钉系统设置在哪
其他 | 2019-03-20 22758
钉钉怎样设置快捷键? 1,打开电脑端钉钉面板,点击右上角自己的头像,下拉菜单中点击系统设置 2,进入系统设置面板,下拉滚动条,找到快捷键设置
评论:0条
评论加载中...
发表评论