
在某省会城市的一家大型国有银行科技部会议室里,空调低鸣,投影仪蓝光映在长桌上。项目经理老陈正用激光笔点着PPT第17页:“……本系统已接入我行新一代智能风控中枢,采用多模态感知与强化学习路径优化算法,可实时动态评估客户授信风险,并支持策略自演化。”台下坐着三位来自总行数字金融部的验收专家——其中一位戴着细框眼镜的女专家,手指无意识地摩挲着笔记本边缘,目光却始终停在演示界面上那个反复出现的“规则版本:v2.3.1”水印上。
这是一套被命名为“智策·风盾”的信贷审批辅助系统。交付前,厂商反复强调其“AI原生架构”,宣传材料中充斥着“神经符号融合”“在线增量训练”“因果推理引擎”等术语;内部培训文档甚至将规则表字段命名为ai_decision_confidence_score和dynamic_policy_embedding_id。然而真相是:整个决策逻辑完全由Drools静态规则引擎驱动,所有“模型输出”均来自预置的218条IF-THEN语句,参数阈值全部硬编码在XML文件中,连最基础的特征分箱都靠人工经验划定,从未接入任何历史数据进行统计拟合,更遑论模型训练或在线学习。
上线首月,系统运行平稳——因为业务人员提交的申请数据高度结构化、场景高度收敛:小微企业主、经营年限>3年、纳税评级A级、抵押物为住宅……这些恰好落在规则集覆盖的“舒适区”。但当分行开始试点个体工商户信用贷(无财务报表、流水形态复杂、行业波动大)时,异常开始浮现:同一客户上午被拒(理由:“近3月收入波动率>40%”),下午补充一份手写收入说明后重提申请,系统却因未识别文本字段而直接跳过该判断项,转而依据“征信查询次数>5次/月”这一孤立规则再次拒绝——两次结论一致,过程却毫无逻辑关联性。
真正引爆信任危机的,是验收演示当天的“压力测试”环节。专家组临时要求模拟一个极端案例:客户为刚注册3天的直播工作室,法人名下无社保、无纳税、仅有单笔500元平台打款记录,但附有一份由头部MCN机构出具的《孵化合作意向书》(PDF扫描件)。厂商代表自信点击“智能分析”按钮,系统秒级返回结果:“综合评分62.4,建议审慎通过”。
眼镜女专家微微颔首,忽然问:“能否展示该评分的归因路径?”
“当然可以。”对方调出“决策溯源看板”,页面弹出三行加粗文字:
✅ 行业潜力因子 +15.2(依据:MCN机构白名单匹配)
✅ 内容产能因子 +28.6(依据:意向书中‘月均产出视频≥20条’条款提取)
✅ 信用锚定因子 +18.6(依据:法人手机号实名认证时长>5年)
她沉默三秒,打开笔记本电脑,远程登录银行沙箱环境,输入一串curl命令,直击系统后台API:
curl -X POST http://fengdun-api/internal/debug/trace \
-H "Authorization: Bearer dev-token" \
-d '{"case_id":"TEST-2024-EXTREME"}'
返回的JSON中,explanation字段赫然写着:
"explanation": "【规则#R197】MCN白名单命中 → +15.2;【规则#R203】文本字段含'20条'且上下文含'月均'→ +28.6;【规则#R088】手机号认证时长>1825天→ +18.6"
——所谓“行业潜力因子”“内容产能因子”,不过是给规则编号披上的语义外衣;所谓“条款提取”,实为正则表达式/月均.*?([0-9]+).*?条/的机械匹配;所谓“信用锚定”,仅依赖运营商接口返回的一个布尔值字段。
会议室骤然安静。老陈额角渗出细汗,听见自己心跳声盖过了空调嗡鸣。
三天后,总行下发《关于规范人工智能项目准入管理的通知》,附件中新增一条硬性要求:“所有标称具备AI能力的系统,须提供可验证的模型血缘图谱、至少30日滚动窗口的A/B测试报告、及第三方机构出具的算法鲁棒性审计证明。”而那套“智策·风盾”系统,在验收报告“技术真实性”栏被专家组划去所有赞誉,只留下一行铅笔字:“规则引擎即服务(RaaS),非AI即服务(AIaaS)——建议更名并重新定义项目范畴。”
事后复盘会上,厂商CTO苦笑着承认:“我们不是不懂AI,是怕客户觉得‘规则系统’不够值钱。可当用户开始查trace ID、读API响应、比对训练数据分布——他们要的从来不是幻觉,而是可解释、可追溯、可证伪的确定性。”
真正的AI决策系统从不回避它的局限:它会标注数据偏差,会提示置信度衰减,会在边界案例旁亮起黄灯;而用静态规则冒充智能,恰如给算盘装上LED屏显示“量子计算中”——屏幕越亮,阴影越深。当技术叙事脱离可验证的基底,再华丽的术语也撑不起一次真实的业务托付。信任的崩塌往往不在宕机时刻,而在那个被追问“为什么”的瞬间——当答案只能是“因为规则这么写的”,而非“因为数据证明它有效”。
Copyright © 2024-2026