跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 几个 T 的文件查重怎么搞,有哪些软件快
未分類
11 2 月 2021

几个 T 的文件查重怎么搞,有哪些软件快

几个 T 的文件查重怎么搞,有哪些软件快

資深大佬 : hanyaguang 2

兄弟们,你们用什么
大佬有話說 (14)

  • 資深大佬 : aec4d

    完全可以自己写,先得到哪些文件大小一样,将大小一样的文件计算 hash 第一步就排除大多数文件了

  • 資深大佬 : redtea

    dupeGuru

  • 資深大佬 : lianyue

    先文件大小 然后 文件前 128k 的 md5 然后 文件尾 128k md5 然后文件中间 128k md5 基本上就 ok 了 最后有一个严格模式 前面都匹配了 就 文件全局 md5

  • 資深大佬 : Osk

    要不,用文件系统的去重功能 ,除了有点吃内存。。。

  • 資深大佬 : glasswm

    https://github.com/qarmin/czkawka

  • 資深大佬 : delectate

    先看大小,大小一致再比较随机位置的随机长度的 md5 就可以了。

  • 資深大佬 : imn1

    文件查重还是文字查重?什么平台?
    文件几个 T 不是什么事,如果是经常要查的,建议用带数据库的工具,hash 过一次的保留,下次不用重新 hash
    文字的话,下回答,或者搜搜

  • 資深大佬 : v2tudnew

    检验快的算法又不是没有,天天 MD5

  • 資深大佬 : wangxiaoaer

    应该是文字内容查重,那些先拿文件大小判断的都可以退下了。

    我 i 有个思路,先所有文件建立索引,然后按照文件的每一段作为关键字去搜,根据匹配度判断。

    如果文件是专业性很强的,建索引的词库可能要定制。

  • 資深大佬 : wangxiaoaer

    @wangxiaoaer 当然,我 i 没干过,说的这个笨办法不知道可行性。

  • 資深大佬 : cheng6563

    crc 就行了不用 md5

  • 資深大佬 : jim9606

    如果可以换文件系统,直接换 ZFS 或者 BtrFS,适合应对会不断新增数据的环境。
    基于 hash 的软件有很多我就不列举了,就是没法在线去重。

  • 資深大佬 : microka

    几个 T 的文件是指几个 T 的单文件?还是总容量达几个 T 的若干多个小文件?

  • 主 資深大佬 : hanyaguang

    谢谢兄弟们

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具