跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 一直挺好奇的, Google 是如何抓取隐藏内容的?
未分類
8 2 月 2021

一直挺好奇的, Google 是如何抓取隐藏内容的?

一直挺好奇的, Google 是如何抓取隐藏内容的?

資深大佬 : coolcatha 6

有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。

难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗

大佬有話說 (21)

  • 資深大佬 : itskingname

    有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,

  • 資深大佬 : AngryPanda

    不负责任猜想:有权限的用户使用了 chrome 浏览器

  • 資深大佬 : littlelooloo

    你看到的是前段,google 的蜘蛛抓得是后端

  • 資深大佬 : shuax

    有可能是还没设置权限就被抓了。

  • 資深大佬 : dzyou2007

    已知的两种可能:
    1. 在源码里,假隐藏,打开 F12 找找
    2. 针对 Google Bot 开放检索权限

  • 資深大佬 : dzyou2007

    补充一条
    3. 还没设置权限时已被抓取

  • 資深大佬 : superrichman

    可能做了 seo 优化,也可能就是漏洞

  • 資深大佬 : westoy

    网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据

  • 資深大佬 : ruixue

    大概率是针对 Google 做了 SEO,允许 Googlebot 爬
    很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅
    甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取

  • 主 資深大佬 : coolcatha

    @itskingname
    @dzyou2007

    我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。

    @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。

  • 資深大佬 : dzyou2007

    User-Agent 携带了 Google Bot 信息,判断很容易
    @coolcatha

  • 主 資深大佬 : coolcatha

    @dzyou2007 这个太容易伪造了,除了 Google bot 的 IP 其他的都能伪造呀

  • 資深大佬 : silymore

    @AngryPanda 记得 360 浏览器这么干过

  • 主 資深大佬 : coolcatha

    @AngryPanda
    @silymore

    Google 不至于吧,早就大新闻了

  • 資深大佬 : morethansean

    @coolcatha #12
    https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot

  • 主 資深大佬 : coolcatha

    @morethansean 非常感谢。如果是这样,我也没办法去验证了

  • 資深大佬 : ruixue

    @coolcatha 通过 ip 段来判断是不是来自 Googlebot 的访问请求

    很多 GeoDNS 都用了这些 ip 库,可以针对各个搜索引擎的 Bot 返回单独的解析结果

  • 資深大佬 : billlee

    @coolcatha #12 //developers.google.com/search/docs/advanced/crawling/verifying-googlebot?hl=zh-cn

  • 資深大佬 : ESP

    这里还真涉及到 discuz 的两个漏洞

  • 主 資深大佬 : coolcatha

    @ESP 能详细说说吗?或者给个关键词哈

  • 資深大佬 : Soar360

    判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具