AI机器人,它们爬取网站,要么训练大型语言模型,要么获取内容,以丰富推理时的模型响应。Fastly报告中指出,AI爬虫已占机器人流量的80%,而抓取机器人构成了剩余的20%。
从AI爬虫的流量趋势来看,近几个月Meta的爬虫呈上升趋势。大多数爬虫流量波动明显,有时难以察觉,有时却突然飙升至平常的2–3倍,持续数日甚至数周。
虽然一些AI机器人表现良好,但对于一些没有精心设计的AI机器人,可能会导致大量消耗带宽和流量、未经授权使用网站内容以及网站分析失真。
这些大规模的AI爬虫机器人可能会导致流量激增,带来异常多的访问量,占用流量和带宽。如果没有有效的控制措施,即使是短暂的活动突发也会导致网站速度变慢、超时或中断。
而AI抓取机器人它们以极高速度抓取内容,对未加防护的站点造成剧烈冲击。报告中的案例,一个抓取器峰值请求可能达每分钟39,000次,相当于普通网站每分钟遭受上千次请求,持续处于超载状态。即便出于非恶意目的,高频率请求也极易引发类似DDoS的效果,同时干扰数据分析、损害用户体验。
因此,建议网站所有者在运营过程中,监控主机流量消耗情况,及时分析流量超标原因和实施应对措施。
面对流量超标,如何快速定位与解决?以下是核心应对方案。
一、流量监控
「虚拟主机流量使用详情」功能,提供近近12个月和近30天的流量统计图,实时监控流量波动,避免突发超额,快速定位异常。
二、流量超标
分析解决思路:查看网站访问统计-结合访问统计分析网站访问日志-确定原因采取相应措施。
1、查看网站访问统计
(1)登录到虚拟主机管理面板,点击“访问统计”和“流量分析”;
(2)先查看访问统计,确定流量类型,包括浏览器和非浏览器;
(3)根据流量类型详细查看访问统计数据:
A.浏览器流量占用高,可查看url网址、主机ip、搜索引擎机器人等统计数据,以确定网站中是哪类文件,哪些url地址被大量访问,以及是哪些IP,哪些蜘蛛等访问量大;
B.非浏览器流量占用高,可查看http报错码,确定是什么状态情况下产生的非浏览器流量。
2、分析网站访问日志
根据网站访问统计中按“按日期统计”数据找一天流量较大的日志下载至本地使用记事本编辑器打开对日志具体分析核实。
3、解决措施
(1)启用「防盗链」功能
某类文件被外部盗链,导致主机流量被大量消耗,为避免不必要的流量消耗和潜在的安全风险,建议启用防盗链功能,仅允许您的域名访问资源,阻止外部盗链。
(2)使用「请求限制」功能
网站流量出现突增,可能是由于AI机器人爬虫和抓取,导致异常访问过高,可使用「请求限制」功能,可以禁止境外访问,或拒绝某些IP段的访问,也可以限制单个IP同时访问的数量等。
(3)屏蔽拦截蜘蛛抓取
其他某搜索引擎蜘蛛、IP、useragent等导致流量超标异常的。可通过web.config或.htaccess进行拦截屏蔽。
注意:如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则可能会影响网站在百度等搜索引擎中的收录和排名。
(4)升级主机
正常访问情况主机流量配置低导致超标。如占用流量的文件类别、url网址、搜索蜘蛛、访问IP等数据都较均衡,无明显差异等。请升级主机至流量配额更大的型号,如独享虚拟主机(流量配额较大),或不限流量的云服务器。
(5)图片处理
网站页面数据过大导致流量超标。如首页中加载的图片过大,同时图片设计过大等,可联系网站程序方人员减少页面的图片数,减小图片大小等方式处理。

優(yōu)網(wǎng)科技秉承"專業(yè)團(tuán)隊、品質(zhì)服務(wù)" 的經(jīng)營理念,誠信務(wù)實的服務(wù)了近萬家客戶,成為眾多世界500強(qiáng)、集團(tuán)和上市公司的長期合作伙伴!
優(yōu)網(wǎng)科技成立于2001年,擅長網(wǎng)站建設(shè)、網(wǎng)站與各類業(yè)務(wù)系統(tǒng)深度整合,致力于提供完善的企業(yè)互聯(lián)網(wǎng)解決方案。優(yōu)網(wǎng)科技提供PC端網(wǎng)站建設(shè)(品牌展示型、官方門戶型、營銷商務(wù)型、電子商務(wù)型、信息門戶型、微信小程序定制開發(fā)、移動端應(yīng)用(手機(jī)站、APP開發(fā))、微信定制開發(fā)(微信官網(wǎng)、微信商城、企業(yè)微信)等一系列互聯(lián)網(wǎng)應(yīng)用服務(wù)。
公安局備案號:
