跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 使用 JavaScript 解决导入 Excel 数据重复字段的问题。大约 40W 行数据
未分類
15 5 月 2020

使用 JavaScript 解决导入 Excel 数据重复字段的问题。大约 40W 行数据

使用 JavaScript 解决导入 Excel 数据重复字段的问题。大约 40W 行数据

資深大佬 : cgh 12

导入的数据大概有 40W 行。每行有八个字段 [ A,B,C,D,E,F,G,H ] 。根据字段 A,B 去重。如果 A 字段或者 B 字段在之前的行已经存在了。则当前行被标记为失败。并且记录与第几行重复了。怎么提升计算速度。。。求大佬解决。
大佬有話說 (11)

  • 資深大佬 : cydian

    40W 行在前端怎么处理都很慢吧。
    量太大了给后端处理。

  • 資深大佬 : opengps

    作为平面文件,直接导入数据库,然后从数据库再执行算法去重

  • 主 資深大佬 : cgh

    @cydian 目前的情况是前端已经对数据进行了格式验证。40W 数据大概 18 秒,如果加上对字段的重复判断的话一分钟以内其实都是可以接受的。但是我感觉不只是时间翻倍的问题了,,,

  • 主 資深大佬 : cgh

    @opengps 我们需要在页面进行编辑修改。然后在传给后端。。。。导入数据库再显示。时间太久了。

  • 資深大佬 : hronro

    上 web worker 开多线程,上 WASM

  • 資深大佬 : cydian

    @cgh 你一旦遇到用户浏览器的性能问题,就凉凉了。

  • 資深大佬 : noe132

    最快的方式就是针对 A,B 建两个 map
    然后一遍遍历过去即可

  • 資深大佬 : mooyo

    这一个 On 能搞定吧,如果内存够的话不应该很慢阿。

  • 資深大佬 : mooyo

    只需要读一遍应该就能搞定吧

  • 資深大佬 : cocolate

    大量数据少量计算就不用上 wasm 了,开个 webworker 防止浏览器卡死应该就行,基础算法就是维护 map,硬核一点就上异或判断,内存占用 O1,但是不知道行数信息。

  • 主 資深大佬 : cgh

    @cocolate 你说的这个我有考虑过。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具