ChatGPT等生成式人工智能会因”数据污染 “问题而崩溃,如何预防?英国和加拿大的一个研究小组发布研究报告认为,从人工智能的角度来看,生成式人工智能所创造的内容是一种 “数据污染”,人工智能的模型如果继续从中进行学习,最终会崩溃。随着聊天GPT的快速增长,由生成性人工智能产生的内容已经开始占领互联网了。这些内容是由人工智能还是由人类创造的?无法区分的内容越多,从中学习的生成性人工智能就越迷惑。就像我们往海洋中散布塑料碎片垃圾、让大气层充满二氧化碳一样,互联网上这样无意义的内容越来越多,这将使从网络上收集数据去训练新的人工智能模型变得更加困难。以电影为类比,人类一部完美的电影在于它的多样化细节,但复制的作品缺乏这些细节,从而失去了原有的光彩。同样,人工智能生成的数据去除了人类数据的多样化分布,产生的结果是一种退化了的副本。此外,Chat GPT等人工智能压缩了网络上的信息,并用一个 “可信的 “的近似值来取代它,这导致生成型人工智能就像一台坏掉的机器一样吐出无意义的句子。
为了防止这种反馈循环所产生的数据污染问题,头部的大型生成式人工智能公司已经开始大量涌入”archive.org”互联网档案馆寻找“无污染”的训练数据,这些保存了早期互联网上大量内容的数据(超过8000亿个网站的存档)正变得弥足珍贵。互联网档案馆报告说,5月28日,由于大量集中访问,它经历了两次长达一小时的服务中断,这些访问来自亚马逊AWS云服务的64个虚拟服务器,访问频率达到每秒1万次!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
推荐: 米时光资源网站 时光屋音影资源 艾音范资源下载
艾米网 » ChatGPT等生成式人工智能会因”数据污染 “问题而崩溃,如何预防?
推荐: 米时光资源网站 时光屋音影资源 艾音范资源下载
艾米网 » ChatGPT等生成式人工智能会因”数据污染 “问题而崩溃,如何预防?