谷歌为网络爬虫的谷歌机器人家族增加了两个新的爬虫:
- 谷歌图像
- 谷歌视频
谷歌说这两个新的爬虫是 谷歌公司 为获取图像和视频字节优化。2023年4月nt,谷歌团队增加了谷歌公司,将其内部用于搜索公共网络,并为谷歌公司的主要爬虫提供一些资源。
谷歌图像 .谷歌图片,根据 文件 ,是为获取可公开访问的图像URL而优化的谷歌版本。它将在谷歌图像和谷歌其他的用户代理标记下运行,而完整的用户代理字符串将是谷歌图像/1.0。
谷歌视频 .谷歌视频,根据 文件 ,是为获取可公开访问的视频网址而优化的谷歌版本。它将在谷歌视频和谷歌其他的用户代理标记下运行,而完整的用户代理字符串将是谷歌视频/1.0。
为什么这些新的爬虫。 谷歌 说过的 他说:”新的爬虫是为了更好地支持可用于研究和开发的二进制数据的爬行。”
更多关于谷歌爬虫。 谷歌爬虫的类型包括:
- 谷歌机器人 -谷歌搜索产品的主要爬行者。谷歌说这个爬虫者总是尊重机器人。
- 特别情况爬虫- 执行特定功能(如Ads伯特)的爬行动物,可能尊重也可能不尊重机器人。
- 由用户引发的触控器- 工具和产品功能,最终用户触发获取。例如,谷歌网站验证人根据用户的请求行事,或者一些谷歌搜索控制台工具将根据用户的行为发送谷歌来获取页面。
谷歌还为每种类型列出了IP地址范围和反向DNS掩码:
- 谷歌机器人 – 谷歌,杰森 ( – – – .谷歌网站或地理克劳特 – – – .geo.googlebot.com)
- 特别情况爬虫- special-crawlers.json (比率限制—-优惠—- – – – .google.com)
- 由用户引发的触控器- user-triggered-fetchers.json ( – – – .gae.googleusercontent.com)
为什么我们在乎。 很多人在你的网站和日志中检查你的爬行活动和机器人活动。当你看到这个新的谷歌爬虫时,不要惊慌。这是一个真正的谷歌机器人。