屁眼儿 大佬有话说 :
明盘500找大佬帮我用C或Java写一个爬虫工具
学校的作业,要求不用任何library库,尤其是web/http/html-related库,所有代码都要自己写。
这是需要抓取的网站:http://comp3310(去掉).ddns.net:7880
纯HTML页面,没有CSS也没有JS。
代码需要返回以下信息:
1. 所有URLs的总数波阔error和redirects
2. 网站中html页面和非html页面的总数(如图片)
3. 最大和最小的html页面和他们的大小
4. 最旧和最新的html页面
5. 所有404 RULs的list
6. 所有重定向的RULs
7. 站点外的URLs以及这些链接是否有效
yinux 大佬有话说 :
Python可以吗
屁眼儿 大佬有话说 :
yinux 大佬有话说 : 2020-5-1 18:20
Python可以吗
不行啊,只能是C或者Java,并且不用任何外部库
Kimiato 大佬有话说 :
不用外部库写有点麻烦啊
ByteCat 大佬有话说 :
用csharp或java还不让用第三方库写爬虫……我把头给你拧下来……如果用java可以用okhttp之类的库的话我考虑一下
揽月 大佬有话说 :
HttpConnection这些能用不?
JOSH 大佬有话说 :
水逼~ 不用库 写个毛线:lol
https://cdn.jsdelivr.net/gh/hishis/forum-grandmaster-for-discuz/public/images/patch.gif
屁眼儿 大佬有话说 :
揽月 大佬有话说 : 2020-5-1 18:24
HttpConnection这些能用不?
这是外部库吗?如果是Java自己的库应该可以的
屁眼儿 大佬有话说 :
JOSH 大佬有话说 : 2020-5-1 18:25
水逼~ 不用库 写个毛线
老师作业要求的,我也没办法
ftp1 大佬有话说 :
java要用第三方库吧 要不然你自己写,麻烦死