跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
未分類
15 5 月 2020

爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?

爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?

資深大佬 : suanbing 20

在谈的外包项目,有几个是爬虫的。

犹豫要不要接。今年接活很难,想挣点钱。

但现在好像爬虫项目都有一定的风险。

大佬有話說 (82)

  • 資深大佬 : wellsc

    标题党

  • 資深大佬 : AngryMagikarp

    如果抓的是公开数据,没有用什么漏洞,应该没问题

  • 資深大佬 : also24

    我还蛮喜欢爬虫类的事儿的,与人斗其乐无穷~

  • 資深大佬 : iasuna

    爬虫在绝大部分情况下不会被追责
    但不代表是安全的 请考虑万一被抓的后果

    你有犯罪记录意味着:
    不会被任何正规企业聘用
    在火车站,机场等公共场所受到额外的治安检查
    在新的社区落户时,受到重点关注和审查
    在身边出现盗窃 抢劫等各种案件时 受到重点审查
    无法提供无犯罪记录 即无法移民

    等等

    请慎重考虑再做决定。。

  • 資深大佬 : Rxianbei

    刑法明确规定:服刑人员出狱一切权利等同一般公民,享有就业不受歧视的权利。
    (实际生活中不一定)

  • 資深大佬 : linxl

    那得看对方损失咋样了

  • 資深大佬 : oxogenesis

    应该有一类数据,一旦发布就是对所有人公开的

    已经有一类数据,一旦发布就是对所有人公开的

    可以随便爬

  • 資深大佬 : Whsiqi

    @Rxianbei 刑法有这一条?很多地方都明确规定不行

  • 資深大佬 : CoderGeek

    最近自己也想爬点需要的 – – 瑟瑟发抖

  • 資深大佬 : herozzm

    富贵险中求

  • 資深大佬 : daquandiao2

    @Rxianbei 实际生活一定不。 体制内的工作都要有无犯罪证明记录的吧,他们自己不都歧视了

  • 資深大佬 : Mobai497

    @Whsiqi
    @Rxianbei 纠正一下,是《监狱法》第 38 条 “刑满释放人员依法享有与其他公民平等的权利。”

  • 資深大佬 : zhybzc

    之前爬取头条的内容被抓的人判的理由中有一条是:
    为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。

    意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。

  • 資深大佬 : Symo

    @oxogenesis 只是假设, 爬虫脚本并发太高把源站爬挂了, 也是有责任的.

  • 資深大佬 : taizhenhua1987

    @zhybzc 头条的数据不是爬来的吗?难道现在已经不是了?

  • 資深大佬 : oxogenesis

    @Symo
    我说的是区块链数据,自身就有被传播的需求
    个体产生的数据,只是放在中心网站,
    如果个体将自己产生的数据,放在区块链上,就会产生大量我说的全公开数据
    这是一个需要解放数据源头的问题
    https://oxo-chat-server.com/bulletin/7EF130F346F803D365B534186343891E

  • 資深大佬 : murmur

    @zhybzc 最后判的理由是你爬的太多浪费了别人价值 2w 的带宽。。。

  • 資深大佬 : iyiluo

    一般别爬的太过分,不去爬别人商业化的接口,谁管你啊

  • 資深大佬 : 815979670

    去爬 91 这种本身就违法的网站 是不是不会被追责?

  • 資深大佬 : drackzy

    爬的越快 坐牢越快

  • 資深大佬 : mmixxia

    风险很大

  • 資深大佬 : flyz

    @Rxianbei 很多公司要开无犯罪证明

  • 資深大佬 : hevi

    。。。我写爬虫都是爬盗版网站的,而且爬来也不商用

  • 資深大佬 : 7654

    数据需要帐号登录才能获取的,都可以算 XXX

  • 資深大佬 : Vegetable

    @hevi #22 这不就是小说盗版网站互相爬吗哈哈

  • 資深大佬 : binux

    在美国做爬虫,我们都会和客户签免责协议,说是代客户爬,客户自行承担风险。
    我是没怎么听说在美国,爬虫程序员有什么风险,EFF 还帮站台呢。
    再说了具体实施也是印度人做的,怕啥。

    不过我们也没有做中国市场,一来中国的反爬技术自成一体,还没有下定决心投入;二来我也怕刚下飞机就被扣了。

  • 資深大佬 : fank99

    爬国外网站的公开信息路过。。

  • 資深大佬 : zdnyp

    害,干会计做个内外帐要是想查你你也得进去,看清红线

  • 資深大佬 : Cmdhelp

    兄弟,国内盗版泛滥都还没治理好呢,谁去管爬虫呢。。。。。。。。。。。。。。。除非你给人造成巨大损失,或者非法获取数据,不然还是没人管的

  • 資深大佬 : jdgui

    @Cmdhelp 关键是你是外包的,你爬了数据之后,你也不知道人家怎么用你的数据。。

  • 資深大佬 : licoycn

    应该是不要通过手段绕过别人的限制就可以,即目标站点的数据本身就是公开访问的,换种说话,就是你用爬虫来代替你的手工操作,如果你的频率过高,那就相当于 CC 攻击了

  • 資深大佬 : Cmdhelp

    @jdgui 只要不包含公民隐私信息,基本没啥问题,如果有这些,那出事了 都别想跑

  • 資深大佬 : winnerczwx

    @licoycn 比较在意改 ua 算不算绕过限制

  • 資深大佬 : iConnect

    @zhybzc 伪造 referrer 爬取文件,也算违规吗?

  • 資深大佬 : anxiousPumpkin

    我之前爬过一些电影网站的信息,速度太快了 ip 就会被暂时禁用。
    我在想如果你把爬取频率降下来再加上这些信息本身就是公开的,应该也没人管你吧。

  • 資深大佬 : zhybzc

    @taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?

  • 資深大佬 : zhybzc

    @murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做

  • 資深大佬 : zhybzc

    @iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件

  • 資深大佬 : fancy111

    这个真不好说,企查查靠爬虫都能起家,有的爬着爬着到监狱了。。。

  • 資深大佬 : tabris17

    @zhybzc 伪造 UA 要坐牢的话,除了 Firefox,所有浏览器作者都要坐牢了——Mozilla/5.0 (xxxxxx)

  • 資深大佬 : abcbuzhiming

    @zhybzc 你弄错了核心,核心是别人允许你爬了吗?没允许你爬,你用任何方法爬都是错的。

  • 資深大佬 : zhybzc

    @abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖

  • 資深大佬 : zhybzc

    @abcbuzhiming 凭什么普通人就要被抓?

  • 資深大佬 : zhybzc

    @abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。

  • 資深大佬 : kiwier

    @Cmdhelp 有人告你,就管了

  • 資深大佬 : kakeiri

    钱到位,也值得

  • 資深大佬 : evilic

    我的不知道算不算是爬……
    我就写了两个 py 脚本:一个脚本模拟键盘,随机间隔时间向浏览器发送 alt-d, ctrl-v, enter ;另外一个是 mitm 的脚本,把指定网址返回的数据直接加时间扔到 mongdb 里……

  • 資深大佬 : evilic

    我还有另外一个操作,就是写了一个 chrome 插件,把网页里面的数据直接传到我自己服务器的接口上。
    接口也是直接加时间扔到 mongodb 里。

  • 資深大佬 : JCZ2MkKb5S8ZX9pq

    不是用什么技术的问题,是本身业务逻辑是否合法的问题。

    人家不给看的,有访问限制的,次数限制的,硬要大量获取,违法。
    人家给看的,但无视版权限制,拿来当成自己的去公开发布,违法。
    合法取得合法利用,应该就没太大问题。

  • 資深大佬 : bzsh

    @also24 我们抓携程的时候,抓到了招安链接

  • 資深大佬 : bzsh

    @zhybzc 这么说吧,那些 robot 协议禁止的,严格来说都有很大风险

  • 資深大佬 : rockyou12

    其实就是有个美女穿得很少,但也不是你骚扰人家的理由。只要人家数据完全公开,我觉得都有风险

  • 資深大佬 : libook

    对相关法律不了解,不过如果爬虫犯法,那么是不是就不会出现公共搜索引擎行业,比如百度、谷歌、必应。

    个人看法是爬取公共信息没有问题,但不能违法其他方面的的法律规定:比如高并发致使源站满负载无法响应正常用户的请求、通过破解手段爬取源站明确禁止爬的数据、爬取的数据用于盗版等违法用途。

    要是真的担心风险,可以尝试咨询真正的律师,或者签署相关免责协议(如乙方提供的代码和程序不得用于任何违法用途)。

  • 資深大佬 : newmlp

    爬公共信息当然没有问题,另外就是不要产生严重后果导致对方报案

  • 資深大佬 : won

    问题来了,爬军方服务器和直接入侵哪个性质更严重?

  • 資深大佬 : wolfan

    法律学的好,虫子写的好。

  • 資深大佬 : abcbuzhiming

    @zhybzc 没错啊,大公司爬啊,问题是大公司手上有的资源你有吗,人家背后的律师团队,你有吗?天眼查是商务部国家中小企业信息化推进项目的指定企业,人家拿信息是官方钦定,你有吗?

  • 資深大佬 : abcbuzhiming

    @zhybzc 因为人类就是社群动物,全世界都是有组织的干翻没组织的,组织强的干翻组织弱,你一普通人欢迎去西方挑战一下大企业,看看人家大企业的律师团队如何花式吊打普通人。
    凭什么普通人就要被抓?这个问法当真可笑

  • 資深大佬 : abcbuzhiming

    @zhybzc 因为携程是大型企业,所以他如果违规,最多罚个款,退钱,下次不干了,就了了,不公平是吧?对,但是全世界的大企业大公司都有这特权,天然就能抵一部分罪,除此以外还有企业干很多事的税率都比普通人低。你以为为什么无论国内国外那些真正有想法的人都削尖脑袋去办企业开公司?光是为了赚钱吗?

  • 資深大佬 : zjx1993

    爬 pornhub 会有人管吗?谁有好用的 pornhub 爬虫

  • 資深大佬 : whasyt

    基金、资产 的一些公开信息会违法吗,一天一次或者两次的频率

  • 資深大佬 : wudalang123

    我发布一条信息,有意的可以联系我,我们公司有爬数据项目,跟上游公司有协议,不用担心风险,如果你还是担心,不留任何纸面的内容,只以技术咨询的名义就行,有意的 加我 v:507693411,注明来自 v2ex,详细内容和项目 v 里谈或者电话沟通

  • 資深大佬 : pkoukk

    密码法了解一下,刚刚实行
    如果你爬的是公开数据还好,但如果你通过逆向之类的手段,获取到了对面接口需要的 key 或者签名方法,来伪造请求的话,是妥妥违法的行为了

  • 資深大佬 : marcong95

    @zhybzc #13 这个侯某的事情,之前有人爆过判决书写的 tt_spider 是头条内部程序,有人把内部程序拿出来了。法官不懂技术,看到什么伪造 UA 之类的以为是个很严重的东西就写判决书上了。

  • 資深大佬 : zhybzc

    @marcong95 虽然伪造 UA 只是侯某的一方面,但今天法官能因为不懂技术而把伪造 UA 写到判决书中,认为这个行为很严重,那明天肯定也可以因为单独伪造 UA 让别人坐牢。另外好像不是拿出了内部程序吧,反正判决书看着挺无语的。

  • 資深大佬 : zhybzc

    @abcbuzhiming “凭什么普通人就要被抓”这个问法为什么可笑?同样违法,大公司就没事,这正常吗?虽然是现状,难道普通人连说一下都不行了吗?
    而且我之所以说那句话是为了反驳你前面说的,你前面说“不允许爬就用任何方法爬都是错的”,既然是错的,那大公司就也是错的。
    我也不仅仅是抱怨,而是通过大公司来举例探讨一下普通人用爬虫到底违不违法,单纯拿“爬虫”这个行为来说又到底违不违法。虽然明知道现状是怎样的,那也只是为了讨论一下而已。这个帖子大家也是为了讨论,虽然知道无论如何爬虫都是有风险的,只是风险小而已。

  • 資深大佬 : zhybzc

    @abcbuzhiming 你不要拿西方拿举例,西方爬虫违法吗?西方的大企业能把爬他们网站的普通人送进去吗?

  • 資深大佬 : zhybzc

    @abcbuzhiming 大企业不是违规就只罚款就行,大企业也有刑事责任的。像爬虫假设以破坏计算机系统罪、侵入计算机系统罪、非法获取计算机系统定罪,由于大企业的体量大,他们的爬虫对别人造成的后果比普通人的爬虫大得多。
    你是不知道西方国家的惩罚性赔偿吗?动不动就几个亿的罚款或者惩罚性赔偿。惩罚性赔偿都是赔给普通人的,有律师愿意给普通人打官司,因为这里面的利益非常大。比如老太麦当劳被咖啡烫伤都天价赔偿,如果换中国就是老太自己的责任了,还会有很多人说老太讹人。

  • 資深大佬 : zhybzc

    @abcbuzhiming 如果西方国家的爬虫真的成 ca 边行为,那估计那些大企业都不会去做了。拿版权来说,国外就是非常重视版权的。

  • 資深大佬 : ajaxfunction

    和百度报警抓用户有异曲同工之妙,
    你有没有违法和原告是谁关系很大,

    恐怕大家不清楚的是未婚小两口去酒店开房都是违法的,只是不追究而已

    严格立法,选择性执法,都是手段和工具而已,敢问就是寻衅滋事罪

  • 資深大佬 : marcong95

    @zhybzc #65 当时 v 站讨论这事情的帖子里面某个回复这么说的,判决书里面不写的话也无从考究。我当时想法也是跟你想得差不多。然后看到有人说是拿到了内部代码,何况这个侯某也是头条的前高管,所以我就姑且信着吧。。。毕竟这种事情事关审判流程、司法透明度、公信力之类的问题,也不是一时半刻能解决的。

    不管是爬虫还是爬墙还是 251,事件的被告,在事件发酵到最后也并不是完全清白的。所以这又陷入了那种诸如事实正义、程序正义的事情上。作为旁观者的我,似乎也看不清事实的真相。

  • 資深大佬 : DoodleSit

    能快速赚钱的方法都写在魔法书里。

  • 資深大佬 : winglight2016

    @ajaxfunction 敢问就是寻衅滋事罪——看到这里我想起似乎今年又出了“筐”2.0 了,是个什么罪名来着?

  • 資深大佬 : crella

    一个是爬取一大一小两个招聘网站上的招聘信息,每天 8 点抓去一次;一个是爬取某冷门社区的热帖列表。都没有什么问题吧?

    连协程都没用,两个线程下载的。

  • 資深大佬 : TimeRain

    天眼查那种公司后台背景很强,你个人爬虫很多时候小心点,最好是不要涉及这方面利益

  • 資深大佬 : fansangg

    爬虫还是很有趣的,看你爬些啥,怎么爬,自己在爬什么数据难道自己心里没点数吗?

  • 資深大佬 : ChristopherWu

    https://github.com/YongHaoWu/NeteaseCloudMusicFlac 吓得我想把这个项目 Archive 删掉了。诸位给点建议- = –

  • 資深大佬 : dengwen168

    嗯 ,先将刑法学好。再搞爬虫。。

  • 資深大佬 : PbCopy111

    海外注册公司,paypal 收款,爬吧。

  • 資深大佬 : MengiNo

    看看朋友圈那么多 py 的广告,什么设计师用 py 爬取资源分分钟出几十张图。。。不如大力推广让他们先恰。。

  • 資深大佬 : wmhx

    看人家想不想搞你了, 想搞你随便什么理由都够你喝一壶的.
    我之前爬 jandan 的图片,2 年了斗智斗勇还挺好玩的,后来就直接把我的 IP 封了, 又换代理啊啥的, 感觉人家的耐心也是有限的, 早晚的事情, 于是乎就换了站,
    不过不盈利 也挺无聊的..

  • 資深大佬 : denghp3

    我有个 1024 的爬虫,要的私我

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具