wjj 大佬有话说 : 2021-1-22 21:06:34
免费接点爬虫的任务
本帖最后由 wjj 于 2021-2-27 23:58 编辑
最近空闲时间比较多,论坛刷来刷去就那些个帖子,枯燥而乏味,免费接点爬虫任务打发时间
阿里系的那种就算了,鄙人才疏学浅短时间内搞不定,那种需要耗费大量时间精力去研究
有需求的可以pm我
更
过完年了继续,忙的时候不接,不感兴趣的不接,毕竟免费。
作业
1、@Uler 要的小说爬虫[失败]
目前单线程爬的效率有点低,需要优化
https://s3.ax1x.com/2021/01/23/s7nCUH.png
优化后,多线程+代理池
https://s3.ax1x.com/2021/01/24/sbx8IK.png
此任务最终以没完成告终。爬虫是没问题,但是因为目标站点的小说章节排序混乱(有的倒叙,有的顺序,有的重复排序,有的混着排序)、章节命名无固定格式,而@Uler要求每本小说导出到txt,这样导出的txt是没办法阅读的。
当然,如果先入库再处理的话,能保证一部分(一半以上)txt的可读性,因为大部分的小说章节是有一定规律的。
最后,爬取的数据拿来做个小说站是没问题的,可惜大佬应该是想做个小说下载站,所以定义本次任务失败。
2、@sytta 要的自动问卷答题脚本[已完成]
https://s3.ax1x.com/2021/01/24/sHRL6J.png
3、@5u5lv 要的某资源站爬虫[已完成]
4、@h20要的free-ss爬虫[已完成]
这里有一张隐藏图,图片内容为free-ss列表,图片为爬虫绘制,为避免频繁请求触发反爬机制,数据为5分钟抓取一次
如有不妥请版主提醒删除,技术无罪
http://h20.001007.xyz/
5、@lanying 要的爬取抖音指定用户所有视频[已完成]
https://s3.jpg.cm/2021/02/07/B9pnu.png
tir 大佬有话说 : 2021-1-22 21:07:38
别,你就是收点小钱也别免费,你到时候就知道烦了,哈哈
https://img.gejiba.com/images/c7fa778e3b616528c9d7075df29a0fbf.png
pengxing 大佬有话说 : 2021-1-31 19:26:11
大佬请爬一下1024的文学区:lol
Uscnc 大佬有话说 : 2021-1-22 22:53:45
https://www.avoo.me/ 想要这个站的gif图:lol
wjj 大佬有话说 : 2021-2-7 21:46:10
广东吴彦祖 大佬有话说 : 2021-2-7 20:37
想要的free-ss爬虫 楼主能pm 一份嘛
不开源不好意思哦:$
接任务的同时也是自我突破的一个过程,free-ss这个搞定了发现阿里系也可以爬了,所谓没有问题给自己制造问题:lol
惜为伊人醉 大佬有话说 : 2021-1-22 21:07:05
tiktok。大佬请出手···
Lemon0 大佬有话说 : 2021-1-22 21:08:18
Hostloc…
Uler 大佬有话说 : 2021-1-22 21:10:02
大佬这个,每本小说按作者书名保存成一个txt
http://www.quanshuwang.com/all/postdate_0_0_0_0_1_0_1.html
Nothing1024 大佬有话说 : 2021-1-22 21:12:15
建议接单前最好调查爬取对象是否对爬虫特别反感
参考链接:https://www.toutiao.com/a6750138907435745803(来自蓝奏盘网页内嵌代码)https://cdn.jsdelivr.net/gh/hishis/forum-master/public/images/patch.gif
highvideo 大佬有话说 : 2021-1-22 21:25:45
是真的吗?好奇怎么写,正想有个想采集的
wjj 大佬有话说 : 2021-1-22 21:36:15
highvideo 大佬有话说 : 2021-1-22 21:25
是真的吗?好奇怎么写,正想有个想采集的
要么不接,接了肯定做,怎么方便怎么来呗,需要的话可以pm看一下
bowen666 大佬有话说 : 2021-1-22 22:47:27
本帖最后由 bowen666 于 2021-1-23 16:34 编辑
大佬能做一个www.lxwc.com.cn每天签到和打开别人的空间来赚鲜花的吗。难点有验证码而且每天都要登陆