跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 解析短文本的需求和现有工具
未分類
14 9 月 2020

解析短文本的需求和现有工具

解析短文本的需求和现有工具

資深大佬 : clockwise9 3

最近对 NLP parsing 问题很感兴趣,想做一套短文本解析的工具,输入一个短文本(往往是一个单元格内容),输出一个像对更加结构化的表示,比如豆瓣里电影《信条》的上映时间是 “2020-09-04(中国大陆) / 2020-08-26(英国) / 2020-09-03(美国)”,可以首先拆分成三个并列的元素,每个元素都是一个日期加上一个限定词,比如第三个元素是日期 “2020-09-03” 加上一个限定词“美国”。

为了避免无脑做出来再拿着锤子找钉子,想先调查一下,各位在工作或者个人项目中是否会有类似的需求,比上述例子简单或者复杂都可以。如果已经有相关解决方案的话,大致是如何实现的(比如手写代码规则,或者基于一些已有工具定制,或者直接外包)。

大佬有話說 (9)

  • 資深大佬 : noqwerty

    看上去像是 named entity recognition 的范畴?

  • 資深大佬 : TimePPT

    你这不就是知识图谱三元组抽取么……

  • 主 資深大佬 : clockwise9

    @noqwerty 可能有若干个命名实体,还有日期和数字等。更重要的是分析结构而不只是定位实体。

  • 主 資深大佬 : clockwise9

    @TimePPT 是的,最初想到这个问题就是因为抽取三元组的需求,所以还想了解一下有没有别的使用场景。

  • 資深大佬 : TimePPT

    @clockwise9 了解,那基本上数据结构化的需求都能顺带做了

  • 主 資深大佬 : clockwise9

    @TimePPT 有哪些数据结构化的使用场景呢?求指教一二。

  • 資深大佬 : TimePPT

    @clockwise9 很多吧,文本摘要抽取,非结构化数据的结构化都需要类似 NLP 能力。建议多看看文章综述之类的,不用着急做锤子。

  • 資深大佬 : tanszhe

    文本解析已经比较成熟了也比较简单,你可以往图像识别方向看看,基本还是原始社会

  • 資深大佬 : relic

    @tanszhe 要是很成熟就不会有那么多的人工智障了。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具