跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好
未分類
2020 年 12 月 6 日

大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

資深大佬 : 13936 5

用 Scrapy 框架爬的,目前可以通过情感分析判断一本书的翻译质量。

方法是筛选一条评论里是否含有“翻译,原著,英文”等词汇,如果有的话,就判断情绪积极程度,然后给书籍的翻译质量打分。目前结果来看是可行的,基本可以有个大致判断。

但是既然爬下来了这么多数据,能做的也不仅仅只是这一点,可以做个词云,相关书籍推荐等功能,将更多隐含的信息可视化。但是总的功能类似,就是从大量数据中挖掘出隐含的对用户有帮助的信息。只是目前不知道取什么名字比较好,这周就要定题目了。V 友们方便帮忙取个名字吗?

还有,本人已经拿到了 Offer,不过不是计算机行业的,编写 Chrome 插件可能还需要再去买服务器,用 Flask 框架写 API 。既然工作重心不在计算机行业上了,也想过只写成一个 Python 程序,在本地输入书籍链接再在本地输出信息。V 友们对于这一想法有什么建议吗?

大佬有話說 (56)

  • 資深大佬 : Jiers

    程序可私聊一下

  • 資深大佬 : laminux29

    所以毕设是毕业入狱指南?

  • 資深大佬 : MakeItGreat

    21 天精通从入学到入狱

  • 資深大佬 : LoNeFong

    居然不进来卷, 感动

  • 資深大佬 : Tink

    我以前也爬了好多好多,后来也不知道有什么用,打包扔到百度盘好几年了 大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

  • 主 資深大佬 : 13936

    @Tink 要不分享点给我,哈哈哈哈哈

  • 主 資深大佬 : 13936

    前辈们给点建议啊喂,想取个好点的名字呢

  • 資深大佬 : TimePPT

    自己玩玩得了,开放出来弄不好就吃豆瓣律师函。

  • 資深大佬 : Lemeng

    发布出来?同学要想清楚啊

  • 資深大佬 : haoxuexiaoyao

    打包发我网盘

  • 資深大佬 : hunk

    豆瓣,我试过 30 秒一次,很快就被 ban 了。
    主是用啥办法?我能想到唯一的对策是付费代理。

  • 資深大佬 : galikeoy

    羡慕,刚毕业就搞了张长期饭票

  • 資深大佬 : dorothyREN

    我在爬影评

  • 資深大佬 : codingadog

    羡慕,坐等主衣食无忧

  • 資深大佬 : bushenx

    羡慕,刚毕业就不用考虑租房子的事情了。

  • 資深大佬 : euph

    就叫,爬虫,从入门到入狱吧

  • 資深大佬 : comsweetcs

    厉害了,豆瓣法务部门明天估计会找你,然后是

  • 資深大佬 : hearlessnor

    笑死了 hhhhhhh

  • 資深大佬 : PhyllisLin

    打包发我邮箱

  • 資深大佬 : felixcode

    你朝这个方向越努力,进去的越快,鲁迅说过,方向比努力更重要。

  • 資深大佬 : yingfengi

    毕业入狱指南

  • 資深大佬 : wyfyw

    上面那些入狱的,玩笑开过了。

    主可以开发这个插件自己使用。只要数据停留在本地,搞科研发文章,想怎么搞就怎么搞。

    如果上了云、建了站,不说豆瓣,光说书评的作者,他们有授权你使用书评做任何事情吗?

  • 資深大佬 : futou

    豆瓣已经不是小公司了,你指导老师也是无知,你也是大胆…

  • 資深大佬 : iloveayu

    免费饭

  • 資深大佬 : zqx

    豆瓣有免费的开放 API,为什么还要爬虫呢

  • 資深大佬 : dyeed

    巧了哈哈,我毕设是爬的豆瓣电影哈哈哈,人还在哈哈

  • 資深大佬 : gitjavascript

    羡慕,刚毕业就学到了吃牢饭的技能

  • 資深大佬 : daimiaopeng

    真羡慕,刚毕业就包吃包住

  • 資深大佬 : shroxd

    好家伙,刚毕业就有保镖了

  • 資深大佬 : Juszoe

    主好好听一听上的建议,私下研究就算了,千万别上云做成服务

  • 資深大佬 : fhsan

    做论文,你是想被抓起来吗,

  • 資深大佬 : LiuSha

    这东西私下研究就好了

  • 資深大佬 : huzy8002as

    真羡慕,刚毕业就包吃包住

  • 資深大佬 : madpecker009

    @laminux29 哈哈哈 你这也太草了

  • 資深大佬 : tikazyq

    《基于高并发数据采集框架的自然语言处理数据挖掘》

  • 主 資深大佬 : 13936

    https://book.douban.com/robots.txt
    豆瓣的爬虫协议一直都没说书评不能爬,我也不当做盈利用途,不明白是否真的有法律风险。

    非常感谢各位 V 友们的建议,太爱你们了,感谢#22 和#35 的实用性建议。

    既然开放出来可能有风险,我就做个本地的吧,自己一个人用。当毕设应该没问题。还不用架设服务器。

  • 主 資深大佬 : 13936

    @tikazyq 尤其感谢你,哈哈哈

  • 資深大佬 : ooxxcc

    robots 算什么爬虫协议,lz 还是要学习一个

    https://www.douban.com/about/agreement

    看 9.2 第 11 条

    祝你好运,耗子尾汁

  • 資深大佬 : hzjseasea

    就叫 <<被指控指南>> 吧

  • 資深大佬 : ooxxcc

    应该看这个

    https://www.douban.com/about/legal

    看 2.2.5

  • 資深大佬 : lujie2012

    good luck ! 豆瓣律师函在路上了。
    最怕没有脑子的野路子程序员

  • 資深大佬 : wmhx

    前几年也爬了 30 多万的 小短文, 后来也爬了近 20 万的图片, 都忘记放到网盘哪个位置了.

  • 主 資深大佬 : 13936

    @ooxxcc 看了,谢谢你,很有帮助。决定就自己做个本地插件自己用了。这不算侵犯它们的利益吧。非常感谢你。

  • 資深大佬 : xingshu1990

    讲个事情,原先在其他什么地方看到关于 NLP 的事情,里面提到了部分语句的分词案例:
    “导演你给我进来,我保证不打死你”
    “我也想过过过儿过过的生活。”
    “过几天天天天气不好”
    “你也想犯范范范玮琪犯过的错吗”
    这个还没涉及到词性

    我在想 主是怎么解决这些中文特有的语句。

  • 資深大佬 : lin

    @zqx API 还有吗?

  • 資深大佬 : fhsan

    @lujie2012 都 2020 年了,国家都知识版权,垄断,个人隐私,立法了,别被抓典型

  • 資深大佬 : AlexSLQ

    2019 年 8 月 20 日更新

    在使用豆瓣网( www.douban.com ,包括电脑端及移动客户端等)之前,请务必仔细阅读本声明,本声明的发布主体为豆瓣网的运营主体,即北京豆网科技有限公司(以下简称“豆瓣”)。

    任何直接或间接(包括但不限于通过站外 API 接入等其它形式)使用豆瓣网服务或数据的行为,都将被视作已无条件接受本声明所涉全部内容或服务;若使用人(包括豆瓣网注册用户)对本声明(包括但不限于知识产权、信息和数据、免责声明)的任何条款有异议,请停止使用豆瓣所提供的全部内容和服务。
    一、知识产权

    1 、豆瓣网注册用户(以下简称“用户”)发布在豆瓣网的原创文章、评论、图片等内容的知识产权均归用户本人所有。

    2 、用户通过转载、复制、截图等方式获取他人内容,并发布在豆瓣网的,相关内容的知识产权属于内容的权利人,用户不得侵犯他人知识产权及其他合法权利。因用户发布内容引发知识产权纠纷的,用户须自行承担相应后果,若因此造成豆瓣损失的,豆瓣有权依照法律规定维护合法权益。

    3 、豆瓣网展示的豆瓣标识、版面设计、排版方式、文本、图片、图形等受著作权法、商标法、专利法及其它法律保护的部分,未经豆瓣书面同意,不得在任何其他平台发布、使用,或出于发布、使用目的的改编、修改,或用于其他商业及非商业目的。

    4 、豆瓣不对用户发布内容的知识产权权属进行保证,并且尊重权利人的知识产权及其他合法权益。若权利人认为豆瓣网用户发布的内容侵犯自身的知识产权及其他合法权益,可依法向豆瓣(联系邮箱: [email protected] )发出书面通知,并应提供具有证明效力的证据材料。豆瓣在书面审核相关材料后,有权根据《中华人民共和国侵权责任法》《信息网络传播权保护条例》等法律法规及豆瓣《社区指导原则》,在不事先通知相应发布用户的情况下自行删除相关内容,并保留相关数据。

    5 、豆瓣根据上述第 4 条删除相关内容的,相应发布用户如存在异议,可依法向豆瓣发出关于被删除内容不侵权的书面说明,并提供具有证明效力的证据材料。豆瓣在书面审核后,将根据实际情况依法进行处理。

    6 、豆瓣鼓励原创,并尽最大努力为用户自主创作并发布于豆瓣网的内容提供保护,用户可在发表日记、长评、相册等内容时开启原创内容版权声明。如用户发布于豆瓣网的原创内容遭受来自第三方平台或其用户的侵犯,用户可通过“豆瓣站外侵权投诉通道”(目前仅支持部分平台)进行维权。豆瓣可以在获得用户授权后协助用户进行维权。豆瓣的维权权利不影响用户另行授权第三方进行维权,豆瓣将在收到用户通知后,停止维权权利的行使。
    二、信息和数据

    1 、除特别说明或者法律另有规定外(包括但不限于我国著作权法、商标法等知识产权法律以及豆瓣网《法律声明》中“知识产权”部分对相关权属的规定),豆瓣网公开的全部信息或数据的其它权益归属于豆瓣。 豆瓣网所公开的全部信息或数据包括但不限于:网站架构、程序设计、程序代码、页面设计、图片、图形、文字、音频、视频以及包括但不限于读书、电影、音乐等条目信息及其对应评分、评论、评分数量、标记记录、话题内容,小组内容等。

    2 、除法律另有规定之外,在未取得豆瓣书面许可前,任何第三方不得将豆瓣网的任何公开信息或数据以任何目的进行任何形式的使用,包括但不限于:

    (1)商业性使用;

    (2)以可能损害豆瓣利益的方式对豆瓣网读书、电影、音乐等条目信息、评分或评论的使用、引用以及展示;

    (3)对豆瓣网内容的衍生利用,包括但不限于基于或利用豆瓣网内容而开发的任何插件、软件、应用程序、网站;

    (4)第三方以任何形式盗取、拷贝用户账号信息,或采用诱导、要求用户提供账号名称及密码等方式登录用户账号,或对用户主页、ID 信息、账号信息的其它使用;或以上述方式取得用户账号登录信息、ID 信息、主页信息后,以任何手段复制、转载、抓取豆瓣网内容;

    (5)侵犯或可能侵犯豆瓣利益的数据采集、网络爬虫或类似的数据收集以及数据摘录等;

    (6)在其它网站、应用程序、服务或商品中使用豆瓣的商标、标识或其他豆瓣专有信息(包括图像、文字、数字、网页设计或形式);

    (7)其它可能侵犯豆瓣合法权益的行为。

    3 、如需使用豆瓣网所公开的信息或数据,请联系豆瓣(邮箱:[email protected] )并取得相应的授权。对于任何违反上述声明的行为,豆瓣保留追究其法律责任的权利。

  • 資深大佬 : hjw45611

    多大点事,发个邮件问问豆瓣不就得了

  • 資深大佬 : paloalto

    大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

    他说他是乱爬的,他可不是乱爬的啊。Scrapy,情感分析,数据挖掘,训练有素。后来他说他是用来做毕业设计,啊,看来是有备而来!

  • 資深大佬 : tesguest123

    @futou 彦语怎么讲,撑死胆大的饿死胆小的

  • 資深大佬 : naix1573

    不懂就问,拆词做情感分析的这个,例如“不满意”,怎么能避免拆分成“不”+“满意”,像这样的情况不少,之前用了几个的效果都不太好,不知道你是怎么处理的~

  • 資深大佬 : LearningToCode

    21 天精通 Python: 从入门到入狱

  • 資深大佬 : Felldeadbird

    你都写扩展了,可以将数据本地存储在用户 浏览器。然后通过分布式去做计算。

  • 資深大佬 : sonxzjw

    魔兽 mt 玩多了吧?
    嘲讽拉 boss 准备跑几年尸体?

  • 資深大佬 : 2088TXT

    有关部门肯定会联系你 唉走好~

  • 資深大佬 : urobot

    以前的话,可以直接豆油你瓣的 cto 问问

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具