跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 有没有办法查找相似数据来判断用户是否在发布重复的内容
未分類
5 2 月 2021

有没有办法查找相似数据来判断用户是否在发布重复的内容

有没有办法查找相似数据来判断用户是否在发布重复的内容

資深大佬 : kaiki 7

为了防止无意义的灌水做反垃圾,但是现在灌垃圾的手段升级了,他会爬取正常的用户发言,然后灌进来。
目的只是为了给我的服务器增压好让我每天能多支付一些服务器费用。

特征大概是连续发布、复制已存在的内容、无法访问则自动换代理 IP 发布。

不从账号入手,因为低门槛,想从用户行为来判断是否为灌垃圾。

数据库是 mysql 。

大佬有話說 (6)

  • 主 資深大佬 : kaiki

    对了,我也想在用户的权重上做一些设定,比如有明显灌水行为的账号权重会急速下滑,对于正常账号在偶然触发检测也可以正常放行,有思路吗?

  • 資深大佬 : jangit

    正常来说这些问题应该用验证码解决吧

  • 資深大佬 : renmu123

    设置账号发帖间隔,人工审核加举报,发现一次警告,二次封号封 IP 。
    想从行为入手,你首先得定义什么是灌水,如果是论坛还有不同板块那就更麻烦了。
    一般好像都是论坛各版主自己手动处理+封号

  • 資深大佬 : oott123

    要解决主内容里的描述问题,前面几位的回复方法比较不错

    要解决主标题里提出的问题,可以用 simhash

  • 資深大佬 : s2019

    考虑用文本相似度做比较,可以用机器学习的方式来实现

  • 主 資深大佬 : kaiki

    @renmu123 这个检测并不是严格的,对于连续发布相同内容的灌垃圾行为才需要处理。
    @jangit 的确有考虑在发布量发生明显变多的情况下启动验证码,但是对想搞破坏的人来说改变不了什么,这种人是单纯的太闲。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具