跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 新入职,我感觉我不适合这行
未分類
13 9 月 2020

新入职,我感觉我不适合这行

新入职,我感觉我不适合这行

資深大佬 : feiniu 7

新入职,加这周才 2 周

老大这周一给我一个任务

爬 tmall 店 铺商品列表

我只想说,周一到现在,我感觉我要自闭了

大佬有話說 (35)

  • 資深大佬 : wangkun025

    这个……食宿免费?

  • 資深大佬 : kop1989

    动物节点可还行

  • 主 資深大佬 : feiniu

    @wangkun025 晚上还是要回去的

  • 主 資深大佬 : feiniu

    @kop1989 老哥有什么门路吗

  • 資深大佬 : gou7ma7

    啥外企啊还爬,话说是不是真的 955 啊?我也在深大地铁站附近。

  • 資深大佬 : wysnylc

    迟早进去

  • 資深大佬 : caicaiwoshishui

    Github 没有这种轮子吗?可以查下

  • 資深大佬 : tomczhen

    淘宝系的正常使用如果浏览快点都给你弹各种验证码,写爬虫还不如多顾几个大学生手工录入。

    哦,不对,应该叫大数据实习生。

  • 主 資深大佬 : feiniu

    @gou7ma7 955 是不可能的。到点了一个个都不走,我也不知道为什么。连续一周都是我第一个走。。。。

  • 主 資深大佬 : feiniu

    @caicaiwoshishui 没找到轮子。。。

  • 主 資深大佬 : feiniu

    @tomczhen 这也可以吗

  • 資深大佬 : Cooky

    selenium 慢点跑?

  • 資深大佬 : TimeRain

    这种爬虫公司蛮危险呀,爬虫一时爽,终身火葬场

  • 資深大佬 : helloworld2010

    就写个爬虫而已,都开始怀疑自己能力了,建议先熟悉下 web 接口的一些规范,json/graphql 等等,html/css/js 也是。

  • 主 資深大佬 : feiniu

    @helloworld2010 有过一年的前后端开发经验的。这个淘宝这个风控是真的牛皮……

  • 資深大佬 : v2hh

    不要爬,真是经历,一个朋友公司爬的淘宝直播数据,他写的那部分代码,现在还在派出所,已经快有半个月了,公司老板目前还没事。

  • 資深大佬 : zixianlaiye

    这种任务也是 nb,天猫的风控你要是这么容易写一个自动化爬取的,阿里那帮人的工资白开了

  • 資深大佬 : sixway

    这个需要高质量的代理池,不然是无解的。

  • 資深大佬 : LiuJiang

    这不赶紧跑,想啥。。。

  • 資深大佬 : asdf2020

    记得淘宝系的最难抓取,有同事尝试是借了好多账号,然后控制频率才搞定,切换 IP

  • 資深大佬 : HFX3389

    爬淘宝天猫说实话,就算能爬,也很难做自动化,分分钟风控,什么验证码就来了
    而且 爬虫写的好,牢饭吃到饱 可不是一句空话

  • 資深大佬 : gou7ma7

    @feiniu 当时杭州有个公司,在本站也是招聘的时候说 955,然后面试的时候给我说。刚去肯定会加班,然后我就没去。

  • 資深大佬 : gouflv

    确实不适合,换个正常的公司

  • 資深大佬 : miku831

    @v2hh 太恐怖了,真就不管老板啊

  • 資深大佬 : XD2333

    不如去看看官方的接口,我记得这个你这个还是有的,没必要一个树上吊死。

  • 資深大佬 : jon

    建议跑

  • 資深大佬 : TimeRain

    实在不行换个公司吧,离爬虫远点比较好,爬虫个人感觉是离监狱最近的地方,别和我说公开数据可以爬,只要不影响到别人的业务就行,因为最终解释权在人家公司那里,他说你有罪大概率逃不掉,他没说不能做也不要掉以轻心,说不定有些公司就是专门搞这种爬数据的人

  • 資深大佬 : virtuemartx

    headless chrome 加 上千个类似 aws lambda 他们总不能分辨是爬虫了吧?
    因为上千个 lambda 肯定会有很多 ip?
    headless chrome 真实浏览器?

  • 資深大佬 : leafre

    难吗

  • 資深大佬 : huai

    所以爬取这种相当于公开的数据 也是违法?上可以证实?还是也是道听途说(提问

  • 資深大佬 : efaun

    @huai #30 IT 界的万能罪“破坏计算机信息系统罪”了解一下

  • 資深大佬 : Curtion

    @huai #30 爬取有反扒机制或者有 Robots 协议的网站都是犯法的。

  • 資深大佬 : huai

    @efaun 根据《中华人民共和国刑法》第二百八十六条规定,破坏计算机信息系统罪是指违反国家规定,对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的行为

    那估计爬虫 ddos ?

  • 資深大佬 : huai

    @Curtion 反扒机制这个怎么算?有一些可能就是很轻松

  • 資深大佬 : Curtion

    @huai #34 我说的反扒机制指的是:网站有故意设立的反扒机制,如果你尝试绕过这个机制去爬取数据就有一定风险,上面我说的它犯法不准确,因为没有法律明文,不过有风险是肯定的,因为有过判刑案列。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具