跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 付费求答案:聚合搜索技术
未分類
11 5 月 2020

付费求答案:聚合搜索技术

付费求答案:聚合搜索技术

資深大佬 : Duduchao 61

论坛里很多大神做了聚合搜索:dogedoge,isoyu,lookao……

新人练手也想做个类似的当做名片

思路:

爬取百度、360、bing 等搜索引擎的结果,然后重新排序。

遇到的问题:

1、有些搜索引擎的链接是加密的,需要解析。

网上搜了下,但解析一个链接都得 0.7 秒……

2、爬结果、分析的时间有点长

照我现在的思路,一个搜索耗时 2 秒左右

对比大神的:

dogedoge 反应神速

isoyu,一核一 G 的云主机,一天竟然能抗住几万访问,牛

有没有大神指导一下技术路径,不白嫖,但个人网站,投入有限,万以内

感谢

大佬有話說 (20)

  • 資深大佬 : ebingtel

    没做过,但从你的描述来看,他们的聚合搜索并不是即时的,应该是先去爬了一遍、解析好,用户访问的是直接解析好的内容……

  • 資深大佬 : Alince

    同意上,一般这种耗费时间的脚本,都是提前跑好,做好数据存储,每次网站访问的都是提前存储好的数据

  • 資深大佬 : qqqq11

    可是用户查的东西是千奇百怪的,他要怎么知道提前查哪些数据呢?

  • 資深大佬 : monospace

    如果用户访问的是直接解析好的,那会面临:
    1、用户查询的词千奇百怪,事先要爬取哪些词?
    2、即便是已解析的内容,多久再爬取一次?随着库内的词越来越多,单服务器能行?要不要引入分布式架构?

    可以根据条件缓存,但不是事先爬了一遍。

  • 主 資深大佬 : Duduchao

    @ebingtel 想做即时的
    @Alince 我搜过 dogedoge,isoyu,这两个站能搜到妈时的信息
    @qqqq11 所以想的就是用户输入关键词,我赶快爬百度等网站数据。但是有点慢
    @monospace 1、不知道用户查哪些词,所以需要即时爬取搜索引擎数据。
    2、个人网站,就算建了也访问有限

  • 資深大佬 : ebingtel

    @monospace @qqqq11 系统应该是有个冷启动的过程,“事先爬了”应该也是通用的爬了一部分(求快的话),只要爬的&解析的够多,是能够映射到用户的一部分搜索词汇的,只是有多精确的问题……实时的从别人网站上抓,怕是对方都不会同意吧?

  • 資深大佬 : realpg

    你说的 dogedoge 而论
    我搜了三个热门技术词 有关联的 拼接在一起
    0.5s 切换到搜索结果页 结果处没内容
    8.35s 以后 下面加载出来了结果

  • 資深大佬 : nicoljiang

    @realpg 什么词?

  • 主 資深大佬 : Duduchao

    @realpg dogedoge 是站内大神做的,我这边访问一直都是一秒内,对比结果,感觉还不错

  • 主 資深大佬 : Duduchao

    @nicoljiang 大神你能不能点拨下,我的思路哪里有问题啊

  • 資深大佬 : realpg

    @nicoljiang #8
    再搜第二次就秒开了啊
    我就特意找的他明显不会有人搜过的词组合。
    从正在读的 vmware 手册里找了三个明显关联词

    我当时测了好几组 他显示的搜索时间是一个跟返回结果数量正相关的 在 0.2X 秒到 0.3X 秒之间
    大部分冷词组和热词组显示结果时间一致 都是 0.2X 秒到 0.3X 秒 时间只跟结果数量有关

    但是实际加载不出来的情况很多

    另外 他有预搜索机制 冷词你拷过去和在文本框打 感觉是不一样的

  • 資深大佬 : realpg

    另外有一点 他有在自己的结果集中搜索的习惯 他的特殊构造多词组合的搜索结果首页与所有能找到的搜索引擎都不太一致 搜三词 首页就会有不少只含两词的结果 推测他有在自己的 cache 里面搜搜

  • 主 資深大佬 : Duduchao

    @realpg 兄弟你分析的很到位。这位就是 dogedoge 的作者

  • 資深大佬 : nicoljiang

    @realpg 好几秒应该是不会的,而且加载不出来的情况很多…应该不会啊,不知道你是不是用了 VPN。

  • 主 資深大佬 : Duduchao

    @nicoljiang 我试了 dogedoge 几十次,长句子、生僻词也搜过,速度很快,都是秒开,就是不知道大神怎么这么快
    能否指点下 微信 壹叁玖捌陆叁贰壹零壹零

  • 資深大佬 : nicoljiang

    @Duduchao 你这有偿,我就不断人财路了。。。

  • 資深大佬 : stevenkang

    提供一种思路:
    1、使用浏览器插件技术收集搜索结果,然后根据用户点击情况来分析上传到服务器;
    2、其他用户搜索时推荐分析后的数据,用户可以选择推荐的,也可以查看原始搜索结果(继续执行 1 );
    3、当搜索量足够大的时候,开白名单,只搜索质量高的站点,质量低的垃圾站(阿里云、腾讯云等)一律不采集;
    4、形成自己的 OpenAPI,让个人站点、其他站点可以通过 API 上传自己的网站内容以供搜索;

  • 主 資深大佬 : Duduchao

    @nicoljiang 大神真是高风亮节

  • 主 資深大佬 : Duduchao

    @stevenkang 三四条可行,一二条有难度,因为聚合搜索站太多,基本都没啥流量,用户上不来

  • 資深大佬 : realpg

    @nicoljiang #14
    没有使用 VPN,而且我的网络比较特殊,我忘了 dogedoge 服务器是否在境外,如果在境内,我的带宽延迟都不可能是瓶颈。
    实际上的表现是,上面的搜索框出来了,下面的结果是白页很久,然后突然更新出来。
    即使这个卡着很慢才出来,那个结果上面的时间仍然是 0.2X 0.3X 秒

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具