跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 一个统计学问题
未分類
25 5 月 2020

一个统计学问题

一个统计学问题

資深大佬 : dapengzhao 3

经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]

这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。

大佬有話說 (9)

  • 資深大佬 : wysnylc

    你的业务我们怎么知道?

  • 資深大佬 : dolphintwo

    我帮你决定吧,把一万一下的不要了,比较清爽

  • 資深大佬 : andy12530

    25 分位数,75 分位

  • 資深大佬 : across

    条件是不是少了···
    比如你数字都在 10000 以内,直接建个数组统计一遍就得了

  • 資深大佬 : black11black

    百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。

  • 資深大佬 : JackieMe

    找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%?

  • 資深大佬 : dbw9580

    时间序列?和滑动平均数比较

  • 資深大佬 : Jooooooooo

    其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了

  • 資深大佬 : CopenhagenCat

    四分位距 IQR,可以尝试一下

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具