AI面试陪练项目训练数据来源不明涉嫌侵犯求职者隐私权

1776707396

近年来，AI面试陪练类产品在招聘市场迅速升温。从模拟结构化问答到实时语音分析、微表情识别，再到生成个性化改进建议，这类工具以“提升求职竞争力”为卖点，广受应届生与职场转型者青睐。然而，在技术光环背后，一个被长期忽视却日益紧迫的问题正浮出水面：大量AI面试陪练平台所依赖的训练数据来源不明，其采集、标注与使用过程缺乏透明度与合法性，已实质性涉嫌侵犯求职者的隐私权与个人信息权益。

根据《中华人民共和国个人信息保护法》第二章第十三条及第二十八条，处理敏感个人信息（如人脸图像、声纹、职业经历、心理倾向分析结果等）必须取得个人的单独同意，并需明确告知处理目的、方式、范围及存储期限。而现实中，多家主流AI面试陪练App的用户协议中，仅以模糊条款笼统授权“为优化产品功能，平台可能收集并使用您的面试音视频、答题文本及行为数据”，未清晰说明这些数据是否用于模型再训练、是否与第三方共享、是否脱敏处理，更未提供便捷的撤回同意机制。有用户实测发现，上传一段3分钟的模拟面试视频后，系统在未另行提示的情况下，自动将其语音转写文本、面部关键点坐标、停顿时长、语速波动等数十维特征纳入后台数据库——而该数据库，正是其AI评分模型持续迭代的基础。

更值得警惕的是训练数据的原始来源。部分平台宣称“数据均来自公开渠道或用户自愿贡献”，但调查发现，其语料库中大量包含真实招聘场景下的面试录像片段，其中不乏知名互联网公司校招现场录制的非公开内部资料；另有平台被曝出通过爬虫抓取职场社交平台中用户发布的“面经”内容，将带有姓名、学校、应聘岗位甚至薪资预期的文本直接作为训练样本，且未对可识别身份信息作有效匿名化处理。2023年某地法院在一起相关人格权纠纷案中明确认定：“将求职者在特定应聘情境下表达的职业诉求、自我评价及临场反应，未经脱敏即用于商业AI模型训练，实质构成对其人格尊严与信息自决权的双重减损。”

技术逻辑进一步加剧了风险。为提升“拟真度”，不少模型刻意保留口音、方言、语病甚至紧张性结巴等个体化特征，这虽增强了识别精度，却也意味着原始生物识别信息被高保真留存。一旦发生数据泄露或模型逆向攻击，求职者的声音指纹、微表情模式乃至情绪稳定性评估标签，都可能成为精准画像的底层要素，进而被滥用于信贷审核、背景调查甚至就业歧视。值得注意的是，目前尚无任何一家AI面试陪练企业公开披露其训练数据集的合规审计报告，亦未接入国家人工智能公共数据资源服务平台进行备案，数据治理处于事实上的“黑箱”状态。

监管层面已释放明确信号。2024年4月，中央网信办等七部门联合印发《生成式人工智能服务管理暂行办法》实施细则，特别强调“面向人力资源场景的AI服务提供者，须建立面试类训练数据专项溯源机制，对每条用于模型训练的音视频样本标注原始授权状态、脱敏等级与使用边界”。多地人社部门亦开始试点要求企业在招聘环节公示所用AI工具的数据合规声明。但落地仍存梗阻：一方面，中小企业受限于成本，往往采购未经审查的第三方SaaS模块；另一方面，求职者作为数据主体，既缺乏技术能力核查数据流向，也难以在“不授权即无法使用”的博弈中主张权利。

归根结底，AI不应成为隐私让渡的隐性契约。当一次模拟面试可能悄然转化为千次模型训练的燃料，当“提升竞争力”的许诺暗含对人格信息的单方面征用，我们亟需的不仅是技术向善的呼吁，更是刚性的制度约束——包括强制数据来源公示、建立面试类数据“白名单”准入机制、赋予求职者对训练用途数据的可携带权与删除权。毕竟，真正的职业公平，始于对每一个求职者声音、面容与尊严的审慎对待；而任何以效率之名绕开 consent（知情同意）的智能，都不配称为进步。

15810516463 CONTACT US