跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 关于大量文本搜索的功能要怎么设计
未分類
17 5 月 2020

关于大量文本搜索的功能要怎么设计

关于大量文本搜索的功能要怎么设计

資深大佬 : Philippa 9

背景描述:目前有 10 万份到 100 万份单独英语文本,需求是首先抽取每个文本的每个单词出来,二是搜索时能够找出所有包含该关键字的文本出来,并能够对应到行。

当前想法:的方案是 elasticsearch,分词的话找个 python 库处理一下,有点像个迷你的搜索引擎,但不确定是否需要那么重量级的工具。

请教:有什么简单又直接又省运维成本的方案?非工作项目,所以全部上云,能不要内存型数据库就不要,能上 serverless 就上 serverless,以降每个月成本压到最低。Java 独有的技术线上不了,Python 、Go 和 JavaScript ( Node )都可以。谢。

大佬有話說 (7)

  • 資深大佬 : noqwerty

    https://github.com/valeriansaliou/sonic
    这个可以考虑一下?

  • 主 資深大佬 : Philippa

    @noqwerty 十分感谢!里面介绍使用内存和 cpu 都很少,可运行在 5 刀的服务器上,另还有多种语言的 client 包,非常合适,明天就试试看:)

  • 資深大佬 : love

    mysql?

  • 資深大佬 : rogwan

    英文不需要分词库,默认一般就可以吧?

  • 資深大佬 : update

    manticoresearch(基于 sphinx)
    sphinx

  • 主 資深大佬 : Philippa

    @update 谢谢,这个看起来很重,配置有点多

  • 主 資深大佬 : Philippa

    @love mysql 数据量大了可能撑不住,撑得住也要考虑反应时间,除此之外还有扩展是否容易。

    @rogwan 英语有分词库,而且时态也需要考虑。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具