robots.txt使用教程 - 个人学习记录

这个业务逻辑多少都有点奇怪了，阅读浏览次数增值在新闻详情页的控制器方法里setInc，这怎么还写进模型事件里了。如果非要用onAfterRead也可以，把新闻文章的内容单独分出来一个news_content表，然后把它和news做关联，然后给news_content表的onAfterRead事件做增值处理，这样点进新闻页内查询到文章内容时才会触发它。: 评 TP6模型事件-查询后onAfterRead不好用

文章标签更多

ThinkPHP (254)

Mysql (58)

DedeCms (33)

jQuery (67)

证件照 (1)

尺寸大小 (2)

背景颜色 (1)

setInc (4)

setDec (4)

onclick (5)

友情链接更多

超纯水设备

免费设计

海报设计

快递查询

robots

打开边栏(ESC) 关闭边栏(ESC)

一、robots.txt有什么用？

如果您不希望互联网爬虫（又叫蜘蛛、Crawler、Spider等）抓取您网站的每一个公开的链接，而只抓取您指定的某一部分链接，或根本不抓取任何链接，你可以使用robots.txt向我们汇报爬虫信息。

二、怎么使用robots.txt？

建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如，您的网站地址是www.abc.com，我们会首先抓取http://www.abc.com/robots.txt再进行后续操作。如无法访问robots.txt文件，系统则默认为您站点的每个链接都可以被抓取。

三、怎么写robots.txt文件？

robots.txt是个很简单的文本文件，您只要标明“谁不能访问哪些链接”即可。

在文件的第一行写：

User-Agent: YodaoBot

这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写：

User-Agent: *

这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个”User-Agent: *”。

接下来是不希望被访问的链接前缀。例如：

Disallow: /private

这就告诉爬虫不要抓取以”/private”开头的所有链接。包括/private.html，/private/some.html，/private/some/haha.html。如果您写成：

Disallow: /

则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀，例如：

Disallow: /tmp

Disallow: /disallow

那么所有以”/tmp”和”/disallow”开头的链接都不会被访问了。

最后形成的robots.txt文件如下：

User-Agent: YodaoBot

Disallow: /tmp

Disallow: /private

请注意，如果您的robots.txt文件里有中文等非英语字符，请确定该文件是由UTF-8编码编写。

四、怎样分别指定不同的网络爬虫？

这个操作很简单，只要分别指定“谁能或不能访问怎样的链接”即可。例如：

User-Agent: YodaoBot

Disallow:

User-Agent: *

Disallow: /private

上面的robots.txt表明，名为YodaoBot的爬虫可以抓所有的内容，其它名称的爬虫不能抓以”/private”开头的链接。

赏

前一篇

form表单，table表格，验证为空实现不了，Form提交...

后一篇

客服qq怎么让别人不用加好友就可以聊天

相关推荐

Uncaught (in promise) 的解决方法，可能原因

其他 | 2022-06-25 1082083

Uncaught (in promise) 的解决方法，可能原因；仅仅只是一种参考原因我是因为copy的项目直接修改的，结果一直报错 Uncaught (in promise)，检查发现接口请求数据已经正常返回，后来经过排查发现是在拦截器里面别人的判断是response.data.status !== 1 就算请求失败，从而Promi...

钉钉怎样设置快捷键？钉钉系统设置在哪

其他 | 2019-03-20 22758

钉钉怎样设置快捷键？ 1，打开电脑端钉钉面板，点击右上角自己的头像，下拉菜单中点击系统设置 2，进入系统设置面板，下拉滚动条，找到快捷键设置