general-news-extractor-js:一个基于 Node.js 的新闻网页正文通用抽取工具,包含标题、作者、正文图片和发布日期,今日更新至 v0.04
Github (https://github.com/zenghongtu/general-news-extractor-js) |
Demo (https://general-news-extractor-demo.stayin.cn/)
该项目启发自 kingname/GeneralNewsExtractor (https://github.com/kingname/GeneralNewsExtractor),由 Python 迁移到 Node.js ,并做了一些改动,提高提取准确度
? 更新内容:开放了正文图片与返回正黑五黑五促销软文源代码功能
部署方法详见 Readme,目前只支持一次抓取一个网页