跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 无唯一键情况下的增量数据插入问题
未分類
26 2 月 2020

无唯一键情况下的增量数据插入问题

无唯一键情况下的增量数据插入问题

資深大佬 : classyk 49

请教各位一个问题,现在数据源在一天以内存在完全一样的数据,也无法根据有限信息生成唯一的键值,但是每次 client 端传上来的都是当日的全量数据。
例如当前某时刻有 ABCDE 三条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库,并移除 E 记录. 移除记录的情况非常少,但是无法杜绝。

这种有什么好的处理方式么?当前做的是服务端做的逐一对比去重处理,但是非常耗时,client 本身也无法去重,因为可能存在多个 client 传同一份数据的情况。

大佬有話說 (20)

  • 資深大佬 : yidinghe

    分两方面,一是入口把关,而是存量记录清除。入口把关就是找个 Redis 缓存唯一键,存在重复则不插入数据库。这部分先做。然后对存量记录进行清理,清理完将唯一索引建起来。

  • 資深大佬 : wangyzj

    哈希排重?

  • 主 資深大佬 : classyk

    @yidinghe 存在完全一样的数据,所以没法得到唯一键

  • 資深大佬 : tabris17

    先写入再去重

  • 資深大佬 : shengchen11

    直接 truncate 在 insert 不可以吗

  • 資深大佬 : lazyfighter

    我都没看懂这句话。。。例如当前某时刻有 ABCDE 三条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库

  • 資深大佬 : reus

    不问业务方,问 V2EX ?
    明显是业务问题,你自己都说了 ABCD,这不就是唯一键?你又说无法生成,自相矛盾。

  • 資深大佬 : reus

    你怎么判断出 ABCDE,你就怎么生成唯一键,就这么简单。

  • 資深大佬 : ily433664

    你这需求就有问题,既然存在完全一样的数据,你没有标识怎么可能区分出来,就算是你一个人来也区分不出来,更别说程序了

  • 資深大佬 : dallaslu

    例如当前某时刻有 ABCDE 三条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库,并移除 E 记录.

    你是想这么说吗:

    例如当前某时刻有 BCE 三条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库,并移除 E 记录.

  • 資深大佬 : sun1991

    限制数据时间范围, 比如 5 年. 全盘接受所有的上传数据, 然后等到每天凌晨跑一遍耗时的去重. 第二天再开放前一天上传的数据给用户.

  • 主 資深大佬 : classyk

    ABCDE 自然是可以判断是不同的
    但是 AAAA 呢??我的意思是 AAAA 要插入 4 条数据,而不是一条 A

  • 主 資深大佬 : classyk

    @dallaslu 也不是。应当是

    例如当前某时刻有 ABCE 四条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库,并移除 E 记录.

  • 主 資深大佬 : classyk

    @sun1991 还涉及到另外一个系统要用数据,数据也需要及时性处理。所以目前才很麻烦。

  • 資深大佬 : index90

    #12 为什么只有 AD 两条数据要插入数据库,而 BC 不用?
    哦?貌似是有序的?我只能想到能够转化为这样的问题,两条字符串( ABCE 与 AABCD ),求最长子串匹配,最后再求差异?

    或者 LZ 先组织好语言再上来问?

  • 主 資深大佬 : classyk

    @index90 因为 BC 数据库中已经存在了

  • 資深大佬 : oubenruing

    例如当前某时刻有 ABCE 四条记录,接下来 client 又传上来了 AABCD 五条数据。因此实际新增的是 AD 两条数据需要插入到数据库,并移除 E 记录.
    先清空然 ABCE,再 AABCD 全部插入的意思?

  • 資深大佬 : matepi

    1 2 不是说的挺好的么?
    就是在一段时间内对记录全字段做 hash,然后放内存 redis 之类 hash 命中后去重呗

    主第 12 没看懂,是完全重复的 4 条 AAAA,还是必须都留在数据库里面的?
    那去重的原则是什么?
    是一次性上来的 AAAA,要入库;但之前数据库如果已经有了 A,那么这次上来的 AAAA 不入库?还是少入一个,只入 3 个 AAA ?

    需求再组织下。很多疑问。

  • 資深大佬 : coconut5200

    1. 根据有明显特征的几个字段,哈希一下作为你的唯一键
    2. 每天定时跑脚本驱虫

  • 資深大佬 : index90

    @classyk 所以 A 不在数据库中?所以 A 就要插入?
    那说有 ABCE 四条记录又是什么意思? ABCE 不在数据库里面?
    不对啊,你刚刚才说 BC 在数据库里面的。所以 ABCE 四条数据,只有 BC 在数据库里面?

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具