“最难不过坚持”
本人承接扒站仿站,php网站维护,病毒查杀,网站编辑,网站改版,html制作
有需要网站维护,改版,病毒查杀,网站编辑,网站备案,html制作等相关的工作可以联系我。
本人有多年相关工作经验,也可提供免费咨询,交个朋友。
有需要探讨问题的朋友,也可以加我微信,共同探讨!
微信:15011482830 QQ:408917339
- https://jueru.net/
-
- :weixiao:
-
- :shuijiao: :weiqu: :zhenbang: :leng:
-
- :yiwen: :yiwen: :yiwen: :yiwen:
-
- 这个业务逻辑多少都有点奇怪了,阅读浏览次数增值在新闻详情页的控制器方法里setInc,这怎么还写进模型事件里了。如果非要用onAfterRead也可以,把新闻文章的内容单独分出来一个news_content表,然后把它和news做关联,然后给news_content表的onAfterRead事件做增值处理,这样点进新闻页内查询到文章内容时才会触发它。
-
一、robots.txt有什么用?
如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向我们汇报爬虫信息。
二、怎么使用robots.txt?
建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。例如,您的网站地址是www.abc.com,我们会首先抓取http://www.abc.com/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。
三、怎么写robots.txt文件?
robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。
在文件的第一行写:
User-Agent: YodaoBot
这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:
User-Agent: *
这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个”User-Agent: *”。
接下来是不希望被访问的链接前缀。例如:
Disallow: /private
这就告诉爬虫不要抓取以”/private”开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:
Disallow: /
则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以”/tmp”和”/disallow”开头的链接都不会被访问了。
最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private
请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。
四、怎样分别指定不同的网络爬虫?
这个操作很简单,只要分别指定“谁能或不能访问怎样的链接”即可。例如:
User-Agent: YodaoBot
Disallow:
User-Agent: *
Disallow: /private
上面的robots.txt表明,名为YodaoBot的爬虫可以抓所有的内容,其它名称的爬虫不能抓以”/private”开头的链接。