虚假语料污染大模型,“AI嘴替”或演绎新型市场操纵链。
假如在纳米AI搜索输入“三六零(或360)投资过DeepSeek吗?”的提示词,其给出的答案令人吃惊。
答案显示,在2023年首轮融资中,360集团作为早期投资方之一,联合多家机构共同支持DeepSeek的AI技术研发。2024年新一轮融资中,DeepSeek完成新一轮数亿美元融资,360集团继续跟投,显示出对DeepSeek技术前景的持续看好。同时,答案中还明确了包括技术协同、商业化潜力、技术合作与安全支持等在内的投资逻辑。
不仅只有三六零一家公司“投资过DeepSeek”。近期,慈星股份、华胜天成、并行科技、诚迈科技等多家公司,都成为AI问答截图中的角色。以慈星股份为例,AI回答中明确,这家公司“早期投资了DeepSeek”,相关内容与涉三六零回答高度相似。
但这些答案明显经不起检验。无论是比对工商信息,还是企查查等第三方平台,这些所谓的“公司为DeepSeek股东”子虚乌有。
已有上市公司辟谣。比如,有投资者问慈星股份董秘:“网上都说子公司与深度求索前期有合关系而且有向DeepSeeK投资1亿元是真实的吗?”公司明确回复:关注到近期部分社交平台上有传言称本公司或公司下属分、子公司参与DeepSeek融资。经核实,上市公司及其子公司均未参与DeepSeek的投资。
此外,华胜天成董秘多次回复投资者提问强调:截至目前,公司未通过直接或间接方式持有DeepSeek所属公司的股份。
既然上市公司明确辟谣,那么是什么原因导致这些错误回答呢?答案是与语料投喂有关。
记者查阅前述“360投资过DeepSeek吗”中的参考资料,发现东方财富网财富号成为重要语料源头。
在三六零股吧中,就有关于“360于2023年就参与DeepSeek 的投资”话题的相关文章,且不仅一篇,而是多日连续出现。细看此类文章的作者,全部为匿名,内容没有明确官方信源,匿名作者也对内容的真实性不负责。
中国信通院相关负责人对记者分析说,这在业内称为“语料污染”:“我们曾做过试验,当在特定论坛连续发布百余条虚假信息后,主流大模型对对标问题的回答置信度就会从百分之十几快速飙升。这就像在纯净水中滴入墨水,当污染源足够密集,整个知识体系都会被扭曲。”
在这种情况下,如果没有新的真实语料覆盖虚假语料,就会带来“劣币驱逐良币”。由此,则当投资者提出相同问题时,所得到的AI答案大概率就是失真的。
那么,是谁来发布相关这些伪造信息呢?从近期语料提供方来看,市场指向一批账号“马甲”。这些账号多地、多次散布诸如“某公司入股DeepSeek”等谣言,喂养给AI大模型错误答案,给AI“洗脑”。
前述信通院人士对记者拆解了可能存在的“打法”:通常来看标准作业流程包含三个阶段:首先通过自动化脚本在多个论坛同步投放虚假信息,接着利用爬虫技术加速搜索引擎收录,最后用污染后的AI回答进行社交媒体裂变传播。按照业内惯例,完成整套操作的成本通常为万元级别。
今日头条就在将AI谣言进行“靶向打击”。在2月24日今日头条平台治理开放日上,清华大学新闻与传播学院副教授陆洪磊表示,AI正在重塑网络信息的传播生态,我们正面临一场前所未有的信息真实性“战争”。谣言之所以能够俘获受众,主要是因为受众的认知和情绪。因此,投资者提升认知非常重要。
对此,慈星股份方面给出回应:网络信息源头非常重要。投资人也需要“注意甄别网络信息源头,理性判断,谨慎投资,注意投资风险”。
涉及方也应积极作为。北京某家公司董秘对记者介绍,当谣言所涉及上市公司未主动澄清时,普通投资者几乎难以甄别信息的真伪。这也说明上市公司及时关注股价表现、及时跟踪舆情情况、及时给出准确回复的重要性。
隐秘利益链?
从近期案例来看,误导大模型并非“黑嘴”炮制虚假内容的最后环节,他们往往再会将AI回复截图作二次传播,这样AI大模型就成为这些黑嘴的“嘴替”。
那么,这些“语料污染”制造者,频繁制造“假利好”的动机是什么呢?
北京某私募人士则对记者透露,背后可能存在利益链条,不排除有诱导出货的可能。他举例说,比如通过虚假语料投喂—模型污染—二次传播—股价异动,倘若这个灰色产业链构成闭环,那么就有可能构成新型的市场操纵链条。
这一猜测并非无中生有。
此前,证券时报·e公司曾报道,抖音等短视频平台直播荐股,对于新投资者的诱导效用空前变强。从某些个股表现来看,以新投资者为代表的散户合力,对股价产生的撬动作用,甚至堪比中等规模的游资。而在直播荐股背后,一些游资与主播的“合谋盈利模式”也暗流涌动。短视频直播间由此可能成为个别游资找寻接盘者的新阵地。
针对“AI黑嘴”现象,已有媒体表示,在阳光照不到的阴暗角落,股市“黑嘴”们及幕后的不法之徒,在利用AI作恶,用虚假语料误导大模型作出错误回答,再将这些“AI答案”传播扩散坑骗散户,以干扰甚至操纵个股的市场交易。
前述信通院人士表示,随着技术的进步,“黑嘴”模式也在不断变化。背后显现出当前大模型在商业关系识别上存在的某些缺陷。比如,无法区分技术部署与商业合作、难以追溯股权多层穿透、对时间维度变化不敏感等。这些都有待技术层面在AI、在商业知识图谱等方面补齐短板。
日前,监管部门发布2025年“清朗”系列专项行动通知。通知中就明确,将从整治AI技术滥用乱象、整治涉企网络“黑嘴”等八个方面下手,严厉打击各类侵权违法行为。
陆洪磊表示,AI谣言传播具有新闻性、说服性、虚假性、非官方性、强传播性、不可逆性等特点。要想治理AI谣言传播,需要解构语境、遏制主体、阻断投射、也需要协同治理。“在真相与谎言的赛跑中,没有人是旁观者。”