跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据
未分類
12 6 月 2020

为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

資深大佬 : kuokyong 71

有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。单词解释部分还没完成,后面会逐渐添加。

单词列表托管在 Github 上,一共将近 3000 个。

https://github.com/kkyon/Simple-IT-English

单词主要来自:StackOverflow 和 HackerNews.

Source|Newest Post|Oldest Post|Row Count|Size ——–|————–|—————|————|—- HackerNews comments|2015-10-13 08:44:02 UTC|2006-10-09 19:51:01 UTC|8399417|3.41 GB HackerNews stories|2015-10-13 08:44:34 UTC|2006-10-09 18:21:51 UTC|1959809|402.71 MB StackOverflow answers|2019-09-01 05:22:21.463 UTC|2008-08-01 13:16:49.127 UTC|27665009|22.27 GB StackOverflow questions|2019-09-01 05:23:41.743 UTC|2008-08-03 21:38:52.623 UTC|18154493|28.13 GB

大佬有話說 (28)

  • 資深大佬 : exhades

    感谢分享

  • 資深大佬 : resist

    感谢,太懒了我,有注释就更好了,手动狗头

  • 主 資深大佬 : kuokyong

    @resist 后面会添加解释和例子

  • 資深大佬 : secondwtq

    @kuokyong 嗯,能把单词出现的句子加上会更好
    不过这个总觉得很难做 … 一是数据量很大,二是社区不比媒体,很多句子都是网络语言,其实不适合作为例句

  • 主 資深大佬 : kuokyong

    @secondwtq 是有点难度,SO 数据量有点大,还有筛选出来句子,需要找个算法排优先级。后面会找时间尝试一下。

  • 資深大佬 : SquirrelMAN

    很有价值!

  • 資深大佬 : jdhao

    赞

  • 資深大佬 : f1ren2es

    支持~

  • 資深大佬 : ddzzhen

    赞,英语四级卡线路过

  • 資深大佬 : cedoo22

    赞

  • 資深大佬 : hannhuan

    太好了,第一个单词不是 Abandon。

  • 資深大佬 : zhoudaiyu

    第一个 aaron 就不认识 doge

  • 資深大佬 : ClericPy

    不错, 以前想过这些语料可以做什么, 你开了个好头, 也给国外这些主动开源自家数据的站点点赞, 比自己抓省太多时间了, 也避免服务器压力太大

    除了列表… 能有其他功能不

    1. 词典功能
    2. 按热度排序
    3. 按逆文本频率+热度排序
    4. 常错词
    5. 词向量找近义词
    6. 生僻词
    7. 自造词
    8. 共现词
    9. 长尾关键词
    10. 热点趋势图? 关键词热度变化曲线
    11. 词云?
    12. 我好无聊

  • 資深大佬 : secondwtq

    @zhoudaiyu aaron 是人名吧 … 知名人物如 Aaron Swartz
    嘛这也是 … xref 都出来了,还有 Adobe 公司应该是得名于一条叫 Adobe 的河,我查了下 adobe 本身好像也是单词但是估计这个语料里的 adobe 指的是 adobe 公司 … 还有 jekyll 啥的
    不过这种词总体不多,估计主要把频率更少的词也放进去就不好处理了

  • 資深大佬 : xiangjian

    赞

  • 資深大佬 : 0726

    牛皮哈

  • 資深大佬 : KentY

    readme 里的英语问题挺多的.
    如果得空了改进一下.

  • 資深大佬 : wwb721

    太棒了,之前做过把 typescript lib 下的 zh-cn 的 diagnostic messages 中的单词切割出来去重,也能学到好多东西。

  • 資深大佬 : whisperer

    如果能跟 @lijy91 的「一路背单词」合作一下就好了,/t/608958
    做成一个单词本方便学习

  • 主 資深大佬 : kuokyong

    @whisperer 太棒了。 我试一下联系 @lijy91

  • 資深大佬 : bofei

    怎么没有中文啊

  • 資深大佬 : cloudopt

    欢迎直接引用 Cloudopt 词典。如 https://s.cloudopt.net/search?q=aggregate&time_range=&language=zh-CN&category=dict
    ,方便大家点击查找。词典功能是没有任何广告的,我们也不靠这个功能盈利。

  • 主 資深大佬 : kuokyong

    @bofei 还在补充。

  • 資深大佬 : vjnjc

    哈哈哈这个思路不错,喜欢

  • 資深大佬 : vjnjc

    要是能按照频次从高到低降序排就更好了,我只背前 500 个~

  • 資深大佬 : RSDTE

    我只背前 500 个 +1

  • 資深大佬 : lijy91

    @kuokyong
    @whisperer
    我来了

  • 資深大佬 : la2la

    收藏了 不看系列

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具