随着生成式 AI 的低成本化,越来越多使用爬虫抓取其他网站内容,并用 AI 重新生成信息的“垃圾网站”不断涌出,目前外媒 NewsGuard 发布相关数据报告,称目前已经追踪到了 200 余个此类“垃圾网站”。
据悉,NewsGuard 从今年年初开始标记这些使用 AI 生成内容的网站,在今年 4 月时,他们登记了 49 个相关网站,到了 6 月则已超过 200 个,而这些“AI 垃圾场”缺乏人类监管,其中消息鱼龙混杂,没有任何可信度,完全是为了从 Google Ads 中薅羊毛而生。
▲ 图源 NewsGuard
调查显示,这些“垃圾网站”存在的目的就是诱导用户点击访问,并通过其中显示的广告赚取收入,其中名为 TNN 的网站甚至每天可生成逾 1200 篇文章,该网站完全由爬虫及 “转换语法后重写一遍”的 AI 脚本控制,相较之下,《纽约时报》网站每天平均仅发布 150 篇文章。
▲ 图源 NewsGuard
▲ 图源 NewsGuard
截至 6 月 26 日,AI“垃圾网站”已经追踪标记了 277 个站点,这些网站涵盖了 13 种语言,包括中文、英文、阿拉伯语、捷克语、荷兰语、法文、印尼文、意大利文、韩文、葡萄牙语、他加禄语(菲律宾)、泰文及土耳其语等。
实际上这种利用爬虫批量爬取其他媒体资讯信息,并在爬取的资讯页面中加上大量广告,并通过“竞价排名”吸引访问者,进而获取广告补贴的网站,在 AI 时代来临前就已经相当常见,而生成式 AI 的普及只是给予了这些网站更低的营运成本。
图源 Pexels
而谷歌的广告政策明确表示,不允许在自动生成的内容网站文章中使用 Google Ads API,但这些网站实际上每个新闻页都有 3-5 个广告链接,因此实际也违反了谷歌的广告政策。