跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 求助 js 正则移除多余的 html 标签嵌套。
未分類
22 11 月 2020

求助 js 正则移除多余的 html 标签嵌套。

求助 js 正则移除多余的 html 标签嵌套。

資深大佬 : huangsong 2

正则小白,目前在做数据采集解析,发现回来的数据中包含了很多嵌套的标签,例如:

<div> <article>   <article>    <article>     <article>      <article>       <div>        <article>         <article>          确保各项部署要求落实落地。          <br> 报告会在市里设场收听收看。         </article>        </article>       </div>      </article>     </article>    </article>   </article>  </article>  <span data-index="183" data-textnode-index="2" data-raw-text="">编辑</span> </div> 

希望能通过正则处理掉多余的嵌套标签,得到合理的格式,如:

<div> <article>          确保各项部署要求落实落地。          <br> 报告会在市里设场收听收看。  </article> <span data-index="183" data-textnode-index="2" data-raw-text="">编辑</span> </div> 

求一个正则。

大佬有話說 (3)

  • 資深大佬 : ysc3839

    搜索 <article>s*<article>,替换为 <article>
    </article> 同理。

  • 資深大佬 : muzuiget

    正则处理不了这种情况的,连匹配嵌套开闭括号都不行,所以老实用 DOM 操作库。

  • 資深大佬 : assilzm

    嵌套处理需要平衡,目前.net 和 php 可以办到 其他语言基本上都不行 老实用 dom 解析吧

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具