都在讨论 app 监听，那智能家居的监听是不是存在

資深大佬 : CarrySHI 7

家里的天猫精灵，小艾同学包括电视的语音助手之类的，这些会不会实时监听你的对话呢

大佬有話說 (32)

資深大佬 : wgbx

理论上可以，实际上没必要
資深大佬 : Jooooooooo

如果说监听是为了卖广告赚钱

那干监听这件事就收不回成本

用户画像不必搞得这么重
資深大佬 : cherryas

外国不是爆过亚马逊音箱监听用户说话吗？国内可能更注重保护隐私吧。
資深大佬 : mengdodo

@cherryas 我觉得不是国内更注重，而是还没成气候
資深大佬 : 0x000007b

@Jooooooooo 直接在软件内放训练好的 AI 模型,不用云端去计算,直接监听完了提取关键词发回去.
資深大佬 : Osk

@Jooooooooo 专用芯片 /加速单元理论上可以做离线解析或关键词唤醒，才不会宝贵的服务器资源分析语音内容呢
資深大佬 : hoyixi

@Jooooooooo #2
做实验还得养小白鼠呢，监听的话，都是现成的
資深大佬 : XuanFei990

其他的不清楚，前年我们做的一个 AI 语音芯片，实现类似的唤醒功能，以及几十条命令词，本地识别方案，大体功能就是模拟前端有一个 VAD ADC，超低功耗模式一直工作中，检测到人说话，立即开启录音模式，录制几秒语音，然后硬件 AI 核心对语音处理，分析是否是唤醒词，如果是，设备整体唤醒，可以连续录制十几秒或者几十秒，看 ram 大小，以及你想录多长。。可以将原始录音数据，上传到 CPU，供用户自己进一步分析，也可以丢弃数据。唤醒词以及命令词模型也可以动态的升级固件的方式更新。

基本上用在手表，平板，耳机，小音箱，电梯呼叫系统等需要离线以及在线语音控制的场合。小爱同学这类音响，离线识别唤醒词，命令词基本上也是一样的做法，没有 asic 的时候，据说是 DSP 的方式，纯软件算法。。语义分析对话这种应该都是录音回传服务器，再传回来的做法。本地的话成本过于高了。
資深大佬 : v2tudnew

手机还要担心耗电过高引起怀疑，智能家居一般插电的话嘿嘿
資深大佬 : XuanFei990

@Osk 现在不用理论上，现在基本上都是硬件 ASIC 芯片的解决方案，而且还低功耗，而且芯片还可以做的非常小，塞进手机里边，可以支持很多唤醒词，唤醒之后还可以支持很多命令词，都是本地识别。也可以保存一段录音数据，你想怎么用，看你。
資深大佬 : oIMOo

有个老梗：
你在家给朋友讲了个笑话，朋友笑了、苹果笑了、谷歌笑了、亚马逊笑了、阿里笑了、腾讯笑了、小米也笑了。
資深大佬 : sasalemma

@Jooooooooo 卖广告不能发家致富，免费的 ai 训练样本才是最值钱的。
資深大佬 : Jooooooooo

@0x000007b
@Osk
@hoyixi
@sasalemma

说的确实好像是那么一回事, 但几位开有发过相关的监控业务吗?

reddit 上有过亚马逊 echo 的员工专门说过, 没唤醒的情况下不会收集用户的声音.
資深大佬 : stark123

@XuanFei990 Siri 小爱小艺，我都用过，和人工智障没什么区别，这还是我把手机放在嘴边、认真说话的前提下。非杠，你公司做的能比这三家强？
資深大佬 : terence4444

智能家居是最好的监听设备，一直通电还一直联网。
資深大佬 : Osk

@Jooooooooo
1, 他敢说 echo 即使没唤醒也会收集声音吗？
2, 国外公司总的来说对隐私这块透明度要好一点点。而与之对比的某些大厂的节操是个问题。

我只是用户，我拒绝使用这些语音助手的原因：有一次去听语音助手上传的语音，真的是一言难尽，一些误触发的片段听起来很尬，也很怕。
資深大佬 : xianxiaobo

当然，不然怎么触发
資深大佬 : Jooooooooo

@Osk 他就是 echo 开发者怎么不敢说. 没唤醒只会本地监听唤醒的命令.
資深大佬 : Osk

@Jooooooooo 假设这种情况：万一代码里真的在干无节操的事，他给抖出来了，我们猜猜他会不会被律师团队给搞残？
資深大佬 : Jooooooooo

@Osk 这么说吧, 这么多家做类似产品的团队, 全世界都没听过任何一家有类似的行为. 也没听说过有哪家公司是有相关团队在做类似的事情, 无论是手机里的 app, 还是智能音箱.

如果有的话, 总是会有相关消息泄露的. (比如按照用户输入法行为去投放广告, 虽然搜狗不明说, 但很多人都知道
資深大佬 : chonger

这种事，有能力做的地方不敢做，敢做的地方没这能力，不过以后难说，总有开先河的。
資深大佬 : XD2333

这还用说，当然在录了呀，还会上传云端做数据分析。
資深大佬 : taobibi

我老觉得讨论大数据隐私的核心是这些大数据是否和你的身份绑定。就像一开始训练人脸识别一样。也是大量的无名氏照片喂给 ai，这时候并不是问题。问题真正的发生是大量的身份证和照片一起喂给了 ai
資深大佬 : billlee

@Osk #6 不需要理论上了，Pixel 4 的语音处理 ASIC 可以本地实时把手机播放的声音转成字幕、在息屏状态下持续监听环境中播放的音乐并与本地数据库匹配歌名。
資深大佬 : XuanFei990

@stark123 只能说你什么都不懂，我的是本地识别，你说的那个是需要联网做的。能一样么。
資深大佬 : cmdOptionKana

不可能。因为：

1. 如果全程录音，只要一有人说话就录音，上传到服务器分析。现在国内大厂的 app 至少几个亿的真实用户，每天上传多少流量？服务器需要分析多少 TB 的数据？

据那些信监听的人的反映，都是短时间内就出结果马上推广告，最慢的也是第二天就推广告，这么大的数据量这么快的分析速度，可能吗？

2. 假设在本地分析，手机跑 AI 还不发热可能吗？

3. 假设只设少量关键词来触发。据那些信监听的人的反映，都说很冷门的关键词，这不是很矛盾吗？事先设关键词，而且还设冷门关键词，动用到 24 小时监听几亿用户这么大规模的事情，就为了做那几个冷门的广告？

4. 如果监听去做流行产品的广告呢？这也很矛盾，因为流行的广告就无法证明有监听。
資深大佬 : wanguorui123

理论上可以，但是只需要向服务端发送数据清洗后的数据就可以了，没必要发送原始数据。

大概思路：本地识别->转化为文本->关键名词提取->上报关键字
資深大佬 : laydown

这些设备是最自然地监听并录音设备啊！
資深大佬 : XuanFei990

@stark123 目前的本地识别芯片都只做唤醒词和命令词，你说的那种自然对话的，目前根本没有本地离线识别的芯片方案。说的都不是一回事。

手表，小音箱，智能耳机，智能 mic 这类产品大部分时间靠电池供电的，不可能用通用芯片，一直监听说话，分析关键字，功耗压不住，现在都是本地识别芯片，低功耗，uW 级别，VAD 监测，然后唤醒主芯片，匹配唤醒词，然后录音再上传服务器，靠云端解决更复杂的分析，如果有需求的话。

另外我们也给某米某为授权过语音类功能的芯片 IP 。
資深大佬 : stark123

@XuanFei990 现在说的就是手机 /手机里的 app 监听并上传的事情。
主資深大佬 : CarrySHI

@stark123 讨论的是设备，不是手机 app 上传的事，智能设备是需要插电并且 24H 联网使用的，不同于手机 app 靠电池那种情况
資深大佬 : haf007

智能音箱可以本地分析，上传关键词，