amo 大佬有话说 :
崩溃了,百度抓取失败,找不到问题
https://www.1111111111111111.com/mspace/index.php?mid=97296&a=1(抓取失败 403错误)
https://www.1111111111111111.com/mspace/index.php?mid=9729 (抓取成功)
连个页面在浏览器访问,curl,17ce.com测试都是正常的200状态
但是用这个网页抓取测试(和百度站长抓取结果一致)http://www.cjzzc.com/crawl.html显示
NetworkError: 403 Forbidden
http://p2.so.qhimgs1.com/t029b02f72d9576e120.jpg
百度站长抓取测试http头
HTTP/1.1 403 Forbidden
Date: Wed, 10 Jun 2020 07:55:24 GMT
Content-Type: text/html;charset=gbk
Transfer-Encoding: chunked
Connection: close
Set-Cookie: __cfduid=d0f2fe465f3d2cdab45372b9d2c4bbc761591775724; expires=Fri, 10-Jul-20 07:55:24 GMT; path=/; domain=.*****.com; HttpOnly; SameSite=Lax
Vary: Accept-Encoding
Set-Cookie: PHPSESSID=mim2pjumofi2lsgp7b6ldobci2; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
CF-Cache-Status: DYNAMIC
cf-request-id: 033ed31ac80000fb06dc195200000001
Expect-CT: max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
Server: yunjiasu-nginx
CF-RAY: 5a1187a47f3cfb06-TSN
1,开始以为是服务器环境问题,因为之前安装宝塔面板的时候安装了免费防火墙,有乱七八糟安装了几个插件。
所以直接服务器全盘格式化之后重新安装了web面板和系统。但是问题依旧
2,关闭了百度的CDN之后,在抓取测试那块显示源服务器IP之后抓取依旧失败
3,robots文件没有什么修改,看了下没有什么问题
4,把这几个php文件权限调成777 问题依旧
5,网站并未使用伪静态
实在想不到还有什么问题了。。。
Syc 大佬有话说 :
域名不放出来,又要别人排错,可能吗?:lol
yemingtu 大佬有话说 :
这问题昨天不是问过吗?
香港高防服务器 大佬有话说 :
状态码是200,那就多抓取几次试试
哈登 大佬有话说 :
这种动态域名,做伪静态很容易吧
做伪静态也更方便百度抓取