Holy Sh*t，我的大便被卖给 AI 了

9013点击 2026-05-17 22:57

Reddit 上的 r/DHExchange 板块从来都不缺奇怪的交易。但月初的一个帖子，还是让见多识广的我打了个问号。

「我囤积了一个非常有价值的大型数据库，只是不是你想的那种……15 万张粪便图像。」

图片来自小红书@暴打小番茄

（正在吃饭的读者先退出去吧。

发帖人在正文解释，他几年前开发了一款叫 PoopCheck 的肠胃健康 App，通过它积累了超过 25000 名用户上传的粪便照片，经过标注和分类，形成了规模达 15 万张的图像数据库。

他现在想卖掉访问权限，称这批数据「极为稀缺」，「对机器学习训练和癌症研究都很有价值」，只是还没想好定价，感觉自己「坐在一堆 shi...ny coins 上，却找不到买家」。

坐拥金矿的人，把矿场开在你的马桶旁边

PoopCheck 创始人在 Reddit 上并不完全是在吹牛，他确实坐在一座金矿上，尽管这座矿的味道有些冲。

这款 App 的开发公司叫 Soft All Things LLC。404 Media 的记者联系了发帖人后，收到了创始人之一「Marco」的邮件回复，表示可以提供样本数据，并询问所需规模和用途。

记者说他需要 10000 条数据用于 AI 训练，Marco 没有拒绝。数据集分两个档位，一种是 AI 自动标注的，另一种是人工精标的，精标版更贵。

每张图片都关联着一系列用户报告的数据点，以及对每张图片的人工智能分析结果。

用户报告包括对一系列问题的回答，例如「你上次进食是什么时候」「排便时是否有不适？（排便困难；灼热感；锐痛等）」「花了多长时间？」「气味是否比平时更重？」「过去12小时内是否饮用咖啡或酒精？」

数据还包含人口统计信息，包括年龄段、性别、身高、体重，以及「乳糖不耐受」或「肠易激综合征」等敏感状况。每张图像都通过一个名为「externalIndividualID」的字段与特定用户相关联。

Holy Sh*t，我的大便被卖给 AI 了

AI 分析的数据点包括排便时间、每份粪便的布里斯托尔分级、是否「健康」或「不健康」、粪便的「形状」和「质地」、是否含有血液或粘液、排便量（多、正常或少），以及是否「漂浮」。每个数据点还配有一个「置信度」评分，反映 AI 对其分析结果的信心程度。

PoopCheck 在应用商店的介绍页面写着「隐私第一」「绝不收集数据」。它承诺用先进的 AI 技术分析你的粪便，给出每日肠道健康评分。应用界面简洁友好，有清晰的图表展示你的排便规律，还有一个名为 SOFTie 的 AI 助手随时解答你的肠道问题。

最吸引人的是，用户可以选择分享自己的粪便照片，获得其他用户的评论和建议，还能登上排行榜。截至 2026 年 5 月 14 日，社区里已经有 151317 张「共享粪便」。帖子标题五花八门，「像橡皮泥一样」「有点担心」「过去三周断断续续这样」。

Holy Sh*t，我的大便被卖给 AI 了

或许没有人会想到，这些在私密的时刻拍下的照片，会被打包成数据库在网上叫卖。

这也让我想到去年卫浴品牌科勒 (Kohler) 做的一款叫 Dekoda 的新设备。它将一枚摄像头夹在马桶侧边，借助 AI 视觉分析排泄物，为用户养成健康习惯提供数据支持。

Holy Sh*t，我的大便被卖给 AI 了

科勒，你老实说，是不是拿💩图去训练大模型了？

不是第一坨，也不会是最后一坨

如果你以为 PoopCheck 是一个孤立的奇葩事件，那说明你低估了这个行业的创造力。

Flo 是一款被数亿女性用来记录经期、排卵、怀孕的 App，曾在隐私政策里承诺不会把用户的健康数据分享给第三方。然而 Flo 通过内嵌的软件开发工具包（SDK），把用户的记录传输给 Facebook、Google 的分析部门及多家广告平台。

Flo 在《华尔街日报》报道刊出后的当天，立刻停止了向 Facebook 共享数据。美国 FTC 于 2021 年与 Flo 达成和解，要求其通知受影响用户并接受独立隐私审计。围绕同一事件的集体诉讼此后持续发酵，到 2025 年，Flo、Google、Flurry 三方合计面临 5950 万美元的和解金额。

Holy Sh*t，我的大便被卖给 AI 了

在线心理咨询平台 BetterHelp 收集的是抑郁状态、自杀念头、当前服用的药物等信息，平台在多个页面反复承诺保护用户隐私。

但在 2023 年，BetterHelp 被指控将超过 200 万用户的敏感健康数据共享给 Facebook、Snapchat、Criteo 和 Pinterest，用于精准广告投放。

该平台还在网站上展示了一个 HIPAA 合规徽章，暗示自己符合美国医疗数据保护规范，实际上没有任何机构认证过它的合规性。FTC 最终要求 BetterHelp 赔偿 780 万美元。

有用户在 FTC 案件评论区写道：「我在心理危机期间注册了这个网站……现在我听说他们卖了我的信息。」

而 23andMe 让数百万用户把唾液样本邮寄给它，承诺数据只用于健康研究，用户对自己的数据拥有控制权。可公司于 2025 年申请破产后，基因数据库突然成了清算资产，客户的遗传信息随时可能流向最高出价者。

FTC 向法院发出警告，要求任何收购方须遵守原有隐私政策。但在破产法框架下，隐私承诺究竟能被保护多少，答案并不乐观。

数据是新石油，但油井在你肠子里

AI 时代对数据的需求是结构性的、无止境的。大模型需要数据，带标注的、来自真实人类的、覆盖边缘场景的高质量数据尤其稀缺，而且稀缺程度随着模型能力天花板的提升在不断加剧。

我想问 PoopCheck 开发者的是：你确实拥有一批稀缺数据，可这批数据是否经过了真实的知情同意？

知情同意（informed consent）这个概念来自医学伦理，核心在于「知情」必须先于「同意」。用一份没有人读的协议来替代真正的告知，是在制度层面制造一种合法的欺骗。

还有一个容易被忽视的技术问题。即便数据经过了去识别化处理，通过「再识别攻击」（re-identification attack），仍然可以把看似匿名的记录与其他公开数据库交叉比对，从而还原具体个人身份。

有研究显示，只需 15 个数据点，就可以识别出几乎任何一个美国人。PoopCheck 的每条数据记录附带的字段远不止 15 个，而且根本没有做去识别化处理。

Holy Sh*t，我的大便被卖给 AI 了

一旦这批数据被买走并用于训练模型，它就几乎无法被真正删除。大型语言模型和其他生成式 AI 系统可能记忆并再现训练数据中的内容，这一特性意味着，要从已训练的模型中外科手术式地移除某个具体个人的数据，在技术上往往是不可能的，除非从头重新训练整个模型。

美国没有任何综合性的联邦科技公司数据隐私法律，HIPAA 只覆盖医疗机构，消费级健康 App 几乎完全游离在外。FTC 在 2024 年的一份声明中说：「没有哪条法律给 AI 公司设立豁免权。欺骗性数据收集就是违法，不管它是不是打着 AI 的旗号。」

一款免费 App 需要活下去，数据变现是最直接的路径，AI 训练数据的需求在这几年急速膨胀，高质量的真实健康数据尤其罕见，于是一个开发者发现自己手里攒了 15 万张带标注的人类生理数据，打开 Reddit，问：这东西值多少钱？

Flo 的经期数据卖给了广告商，BetterHelp 的抑郁记录流向了 Facebook，23andMe 的 DNA 要被拍卖，现在 PoopCheck 的便便图库挂在数据交易论坛上。

Holy Sh*t，我的大便被卖给 AI 了

用户的身体信息，在足够大的数据量面前，是可以被货币化的资产，而用户之所以愿意上传这些信息，往往是因为相信对方不会这么做。

那么，普通用户能做什么？答案老生常谈，但还是值得说一遍。

下载任何免费 App 之前，先搜一下这家公司的商业模式，如果没有清晰的付费路径，想想它靠什么活着。翻一翻服务协议里关于「数据使用」和「第三方许可」的条款，搜关键词「sell」「license」「third party」看看。

参考：https://www.404media.co/ai-poop-analysis-app-offered-to-sell-me-access-to-its-users-poops/

文章来自于微信公众号 “APPSO”，作者 “APPSO”

关键词: AI新闻 , Soft All Things LLC , AI训练数据 , 人工智能