跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 求助PHP 采集大佬
未分類
8 4 月 2020

求助PHP 采集大佬

wermnb 大佬有话说 : 2020-3-19 21:49:26

求助PHP 采集大佬

小弟最近想采集一个网站

发现网址内容页做了ajax 2次请求 然后内容拼接

现在什么都解决了

唯独这个第2次请求的 request headers 里面多了一个cookie

目前一直没有发现这个cookie 是怎么弄出来 (小弟才疏学浅,目前大概发现好像是 用6条字符串 拼接出来的, 其中2条为 response headers中的cookie 剩下全都不知 ,也不知道我的想法是不是对的~~~)

如果我想获取这个cookie大佬有能教我的吗
~
php
php
php
php
php
php

Mr. 大佬有话说 : 2020-3-19 21:51:27

第一次请求之后 把 cookies 保存着,第二个模拟 ajax 请求时把 cookies 带上。
curl 之类的都可以管理 cookies

wermnb 大佬有话说 : 2020-3-19 22:05:09

Mr. 大佬有话说 : 2020-3-19 21:51
第一次请求之后 把 cookies 保存着,第二个模拟 ajax 请求时把 cookies 带上。
curl 之类的都可以管理 cook …

大佬
看来我没说清楚
我用fidder 抓包了
如果 headers 用 request headers 中的数据 已经抓取成功了
但是php 没办法获取 request headers 中的这个cookie 值啊
只能获取 response headers 中的cookie值

Mr. 大佬有话说 : 2020-3-19 22:08:51

wermnb 大佬有话说 : 2020-3-19 22:05
大佬
看来我没说清楚
我用fidder 抓包了

request 是你发起的,你要带 cookie 就带 cookie,你不带就没有,如果你用 curl 抓数据,两次请求之间 cookie 是不共存的,所以第二次发起的 request 当然没有 cookie。
有些抓包工具是会对同一个域名的 cookie 默认做共享的,甚至还会使用浏览器里的 cookie(比如 postman),但代码不会啊,需要你自己指定 response 的 cookie 怎么保存、下一次 request 要不要带上 cookie。

会走路的三百块 大佬有话说 : 2020-3-19 22:13:01

php弄cookie好像挺麻烦的,要自己拿正则表达式抠出来

Mr. 大佬有话说 : 2020-3-19 22:16:41

会走路的三百块 大佬有话说 : 2020-3-19 22:13
php弄cookie好像挺麻烦的,要自己拿正则表达式抠出来

不需要,CURLOPT_COOKIEJAR 和 CURLOPT_COOKIEFILE 指定一个文件路径,就会在请求时自动带上、响应后自动写入了。如果多次请求在一起完成,直接用 curl_share_setopt 连设置 cookie 都省了。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具