etc小号 大佬有话说 :
给想玩采集又不知道怎么采集的带来一点福利
本帖最后由 etc小号 于 2020-6-7 17:06 编辑
最近开始折腾wordpress自动采集,发现一个不错的插件Auto Post Pro
据分享的人说是破解过的
环境要注意一下,这个插件是3.6版本的,不支持新版wp和7.0+php(用起来有玄学错误)
所以我推荐的环境是wordpress 4.9 +php5.6
搭建好wp网站之后,上传安装插件,就能直接用
采集配置起来很简单,我这里用https://www.moerats.com/ 萌鼠博客做示范
萌鼠博客用的是typecho,文章链接和分页链接的规则都非常清楚,采集起来十分容易
首先我们打开萌鼠博客,点击一下下面的第二页
https://www.moerats.com/page/2/
会看到这样一个链接,所以文章列表网址怎么填就很清楚了,选批量生成 文章列表网址,输入
https://www.moerats.com/page/(*)/
接下来我们继续分析文章网址匹配规则,我们随便打开几篇博客
https://www.moerats.com/archives/1016/
https://www.moerats.com/archives/1013/
很好,文章网址的特点也很清晰了,所以我们使用使用URL通配符匹配
https://www.moerats.com/archives/(*)/
这样文章来源设置就解决了,不放心你还可以点击一下测试,出现如图所示就行
https://s1.ax1x.com/2020/06/07/t2rhDJ.png
接下来就是文章抓取设置,这个设置分成两个部分,分别是标题和内容
我这里推荐用CSS选择器,如果有不会CSS选择器的,可以花1分钟学习一下
https://www.w3school.com.cn/cssref/css_selectors.asp
接下来我们随便去一篇博客的内页,比如https://www.moerats.com/archives/1013/
然后我们右键标题,点击检查
https://s1.ax1x.com/2020/06/07/t2y1Yt.png
所以我们标题的css选择器就是
.entry-title
文章内容也是如法炮制
.entry-content
这样基本就完成了
有点不道德的部分:我们可以看到萌鼠博客是有版权声明的,那么我们怎么在采集的时候去除这个版权声明呢
版权声明:本文为原创文章,版权归 Rat’s Blog 所有,转载请注明出处!
本文链接:https://www.moerats.com/archives/1013/
如教程需要更新,或者相关链接出现404,可以在文章下面评论留言。
我们找到文章内容过滤,新增一个关键词过滤
关键词1:版权声明 关键词2:可以在文章下面评论留言。
这样在采集时就会自动删除版权声明了(仅做教学,不建议这样做)
刚才一会采集的成果
https://s1.ax1x.com/2020/06/07/t2yjAA.png
测试网站
https://zhuji.vpscu.com/
work 大佬有话说 :
感谢分享
h20 大佬有话说 :
不搞垃圾站
guodaxia 大佬有话说 :
好贴帮顶
紫薯布丁
maiawpyg 大佬有话说 :
这教程不错
jdunion 大佬有话说 :
h20 大佬有话说 : 2020-6-7 16:57
不搞垃圾站
正规的站,有吗,学习下
aipage 大佬有话说 :
mark 没精力更新了,开采吧yc004t
Zeros 大佬有话说 :
markmark
流批https://cdn.jsdelivr.net/gh/hishis/forum-master/public/images/patch.gif
yanaxiao 大佬有话说 :
感谢分享。。支持一下。
etc小号 大佬有话说 :
刚才打到一半突然自己发出来了,现在更新了完整教程