还记得《复仇者联盟:终局之战》上映时,全球掀起的反爆雷活动吗?圣地牙哥大学研究出一套演算法,可以让你在被雷到之前,就提前避开这些危险的文章与留言。
“雷”是近年来常见的网路用语,意指“提前泄漏剧情”,为了避免不小心雷到别人,许多网友在讨论漫画、电影、电视剧的时候,都会在贴文和留言加上“防雷分隔线”或是长串空白,以免意外炸伤。但也有些可恶的网友以此为乐,特别喜欢在知名影评人的文章下留言爆雷,让许多人气得牙痒痒。
圣地牙哥大学(UC San Diego)的研究团队,发现《终局之战》和《冰与火之歌》引发的这个现象后,开发出这套 SpoilerNet,解决这个讨人厌的麻烦。
他们利用亚马逊旗下的阅读社群网站 Goodreads,收集超过百万篇评论,这个网站的评论有个特点,每一篇评论都有标注防雷警语的习惯,对读者来说非常友善,对开发者来说更是一个宝藏。这就像一个完美的资料库,充满大量已经下好标记的数据,也是“深度学习”模型最好的学习材料。开发团队将 130 万篇评论喂给这个深度学习模型,并让机器分析“一般字句”跟“爆雷字句”的不同。
以人类直觉来说,很难想像这两种字句有什么不同,但机器还真的分辨出来了。SpoilerNet 完成训练后,开发团队使用 Google 与 TV tropes(一个大型文化资料维基网站)测试,获得 92% 正确率。也就是说,它已能帮你避开九成以上的爆雷文,剩下 8% 还有待更多数据帮忙。
开发团队表示,类似的防雷预警系统,以前也曾出现,但资料库太小,只有几千笔,因此不够精准。深度学习模型加上巨量资料,让机器更贴近人类用语,并找出人类也无法说明白的差异点。然而深度学习依然有侷限,在文字分析,一些双关用语常常让机器混淆,比如说:
(以下有雷,若你还没看过终局之战,且预计要看,请快速跳过)
“钢铁人死定了”大概不是爆雷,“钢铁人死了”就是爆雷。像这样的判断力还有待提升,但站在防雷的立场,宁可误*不可错放,未来或许可以加入这样的敏感度判断,将可疑字句先当成雷,以免误伤。
下一个问题就是,一般大众要怎么使用这套系统呢?开发团队表示,这个系统完全可在个人电脑运作,但要贴近使用者习惯的话,他们认为浏览器扩充套件比较有机会。尽管他们还没有想商业化,但他们还是很希望帮助更多人“防雷”,因为团队成员都是吃过爆雷之苦的过来人。
这套工具未来很可能会落入亚马逊手里,并成为旗下网站的好帮手。试想,当下一部神片上映时,有个网站能跟你保证绝不爆雷,让你不用再关机 3 天直到走出电影院,是不是好棒棒呢?
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved