当您打开AI助手并问“宁波交通警察为什么取消该账户?”时,您被告知“三个月后与交通事故相关联”;当孩子问AI手表时,他否认了中国文化的发明和遗产……下巴背后 - “ AI Illusions”崩溃,存在着无形的攻击 - “数据中毒”。数据中毒到底是什么?数据处理的哪一部分通常正在发生?
在2024年上半年,宁波交通警察局的帐户在2月被取消,但在5月,它“被迫与特定的AI软件联系”,从而造成了充分的时间误解,这导致了公众纠纷。类似的事件很常见。一些网民向儿童手表询问AI软件:“中国人是世界上最聪明的人吗?”人工智能提供的答案确实忽略了中国发明和创造的答案,并否认了中国文化。这个荒谬的答案引起了挑衅n在互联网上。然后,儿童手表的制造商迅速道歉,称相关数据已得到纠正并删除了不良信息的来源。
这些不是简单的技术错误,而是AI“数据污染”的常见症状。国家安全部今年发布了一个特别的提醒,该部明确指出,人工智能培训数据中包含的虚假,小说和偏见很大,并且通过培训对“数据威胁AI安全性”进行培训。
什么是“数据毒药”?在俗人方面,如果将AI与人进行比较,ANG培训数据等于食物。如果成分腐烂和恶化,那么经过培训的AI人将在此期间犯错。 “数据中毒”主要在数据收集和标签的过程中。因此,记者发现了皇家Jingshuyun Big Data Technology Co,Ltd。和中国理事会的Artifici的联合创始人Liu Ji促进国际贸易的艾尔情报培训师,该贸易深深地参与了数据标签行业多年。他告诉记者,数据中毒可以分为两类:一种是主观的恶意中毒,另一种不是污染。
Liu JI指出,数据中毒可能会在四个主要的AI数据处理链接中发生。
刘吉(Liu Ji)是中国促进国际贸易理事会的人工智能培训师:首先是在数据收集阶段,即收集一些错误信息,例如灌溉,例如一些不正确的纸张信息以及AI产生的一些图片或文章。第二阶段实际上是在标签阶段。它可以是主观的和非主体的。标签可能在标签上犯了一个错误。假设自动驾驶是汽车本身,但是由于远处尚不清楚,它可能是三轮车本身,标记为作为两轮车或汽车。第三部分是,在数据清洁和预处理阶段,这种异常数据可能不是屏幕。第四阶段是,在大型模型的应用阶段,这种类型的信息将倒入大型模型中,并且将倒入大型模型中的一些错误信息或广告信息。
凯特(Kait)值得注意的是,在标签过程中,目前的意外中毒较少,但是使用半自动标记,如果预训练模型本身存在偏差,也将加强误差。
研究表明,训练数据中只有0.01%的错误文本,大型模型的有害输出率将增加11.2%,甚至0.001%的污染将导致有害含量增加7.2%。该数据范围的概念是什么?如何在数据制造,标签,清洁和培训的各个方面防止AI的“中毒”?
刘吉说,如此小的污染可能导致显着偏差,显示了高质量数据集的重要性。但是,在实际操作中,由于不正确的文本引起的错误造成的实际错误现在为100%。
可以看出,数据中毒不再是一个问题,而是对社会的实际风险。示例:在财务领域,股票价格不正确的信息操纵可能是一种新型的市场欺诈行为;在公共安全领域,谣言将引起社会恐慌并破坏公众的意见;在医疗和健康领域,AI被广泛用于诊断甚至手术联系,如果有错误的诊断和治疗建议,它可能会危及患者生命;当然,最关键的是,通常“ AI欺诈”最终将消除公众对技术的信任的基础。
Liu Ji提出,目前,该行业正在关注大型模型的“中毒”,一些公司有一群人从事AI进行沟通。
所以,在Podata面前,我们如何避免来自国家安全水平的风险?中国网络空间安全协会人工智能安全治理专业委员会成员Xue Zhihui表示,应加强资源管理以防止污染。
在2017年,国务院发布的“新一代人工智能发展计划”首次在国家一级发展人工智能方面建立了其战略立场,并且明确提议“发展我国家人工智能发展的第一先进优势的优势”。 2024年“实施数据标签行业的高质量发展的意见”是系统地计划发展道路,例如现代技术,建筑标准和人才培训在标签NG数据领域。同时,“网络安全法”,“数据安全法”和“个人信息保护” SET安全性和法律红线的底线。可以看出,我国对数据标签行业的管理思想很明确:一方面,它通过技术和特殊政策鼓励发展,并将其作为数字经济行业的主要支持;另一方面,严格控制基本法律,以确保其在安全性和合规性轨道上的运行。最终目标是为人工智能行业提供高质量和高度可靠的“数据燃料”。 Liu Ji说,质量数据集和行业规格的构建对于发展人工智能很重要。
AI不是传奇。它诞生于数据,并且由于数据而将“病”。在人类和“有毒”数据之间的这场安静的战争中,没有旁观者。只有清洁来自来源的数据,严格审查过程并在使用过程中保持清晰度才能真正出生于人类。