为什么 IGN 不给每个游戏都写 N 篇评测然后取均分?

为什么我们没有「评测委员会」

「俗话说得好,三个臭皮匠,顶个诸葛亮,那三篇评测不会比一篇评测更好吗?」这是一个 IGN 和同类网站上经常有人问的问题:为什么不多找几个人来评测每一部游戏、电影、电视剧、电子产品,然后取分数的平均值,从而得出最终分数?

在纸面上,这听上去确实不错:这肯定能减少「离群值」分数的出现频率(有时候,出于这样那样的理由,某个评测者就是会比其他人更喜欢或者更讨厌某个游戏,继而给出一个「不合群」的分数)。我也很理解,当自己和评测者意见不一致的时候,会想要看到自己喜欢的东西分数变高,或者不喜欢的东西得分变低 —— 我们都希望自己的观点得到认可。

但是在实践中,大规模采用这种模式并不切合实际,而且,这种劳动密集型的方式想要解决的问题,已经由互联网解决了。

 

这适用于所有类型的评测,但我会集中讨论游戏评测,因为这是我自己的专业领域。在纸媒全盛期,在《Fami 通》《EGM》这样的杂志里,让好几个人玩同一个游戏并对其做出评价是很合理的做法。要知道,杂志并不是免费的 —— 按年订阅一般比较便宜,但从报摊买的话,一本通常要 5 到 12 美元 —— 所以不用再买其他杂志就能看到另一个评测者的看法是个不小的卖点。况且在 90 年代和 2000 年代初,新游戏的数量远远不及现在,所以不会因为多安排几个人评测同一个游戏就忽视了其他作品。

现在的情况大不相同。现在不仅新游戏的数量指数级增长,使得让多人评测同一个作品变得更加困难,而且,如果你想获得不同角度的看法,只要在搜索引擎或者视频网站上面找就行了。只要按一个键,你就会被淹没在无数个观点当中 —— 而且全都是免费的。你甚至可以打开 Metacritic 或者 OpenCritic 这样的评测聚合网站,在一个地方查看几十份评测的总结。

 

因此,从纯商业的角度来看,给同一个游戏做好几篇评测实在不值当。由于互联网的运作机制(具体来说是谷歌),给同一个东西写两篇评测并不会产生两倍的流量。如果将两篇评测放在同一个页面上,那就需要双倍的访客才能让收益与投入成正比。

就算将两篇评测放在不同页面上,也并不能解决这个问题,反倒有可能不利于网站在搜索结果中的排序(因为谷歌会试图判断哪一篇评测是网站中最重要的结果),而这有可能会导致流量暴跌。所以在你需要控制预算,确保高效利用它们的时候,同一个作品做好几篇评测就很不划算。这就是 IGN —— 以及几乎所有媒体 —— 很少这么做的主要原因。

 

但也不全是钱的问题:就算不考虑收支情况,如果要把这种做法常态化,还会有后勤和风评上的问题。例如,提前评测的资格通常都很稀缺。无论是《艾尔登法环》的游戏兑换码,还是《阿凡达:水之道》的超前点映票,只要是这种备受期待的作品,都很难让许多人提前接触到它们。对游戏来说,这一点尤为重要,大部分情况下,通关一个游戏需要的时间远远超过电影的长度,所以提前玩到是非常重要的。

这是因为评测需要及时公布,大部分关注新作品的人都想尽早看到评测,但它们也是 IGN 的内容中最耗费人力的东西之一。要在评测解禁日期之前完成多篇评测,势必会非常困难或者不可能做到,让我们只剩下非常糟糕的选择:我们可以等几个人都做完评测再公布,但那样我们就会比别人晚很多;或者是做好一篇就发布一篇,但那样就会让第一篇拥有更高的权重,导致各种风评问题,例如,如果最后的分数有分歧,会有人指责我们是为了吹捧或者抹黑一部作品,而故意扣住了后面几篇。

 

那么,只让热门游戏,或者有特殊机缘的游戏享受这种待遇,可不可行呢?也不合适。首先,这是一个公平性的问题。如果多篇评测的目的是减轻离群值的影响,那么与大部分只评一次的游戏相比,多次评测的游戏更不容易出现过高或者过低的分数。此外,很多热门游戏都在一年当中最繁忙的时候发售(这也就是这些时段会变得繁忙的原因!),我们用于评测的资源已经是捉襟见肘 —— 而且这种热门、重要的游戏也很难拿到好几份游戏代码。

即便如此,我们也确实尝试过多人一起评测,其中最突出的就是 2019 年的《星球大战绝地:陨落的武士团》IGN 员工集体评测。由于 EA 为我们提供了好几份代码,共有 8 名 IGN 员工参与了评分,并且我们在第一篇评测(照常公布的标准评测)发布了仅仅 5 天之后,就把集体评测发出来了。虽然那篇文章得到了大量好评,评论里都在夸,但是数据并不好看:点击量只有 5 天前那篇单作者评测的 15%。

 

对一篇普通的评测来说,这个流量其实也不错了,但考虑到需要 8 名员工在新游戏扎堆的 11 月,每人投入大约 20 个小时(总共 160 个小时)来玩其中一部游戏,这并不是利用时间的理想方式。

就算把人数缩减到每篇评测 4 个人,这依然要多用几十个小时,而这些时间本来可以分配给《死亡搁浅》《宝可梦 剑/盾》《使命召唤:现代战争》《路易吉洋楼 3》《极乐迪斯科》或者其他十几部刚发售的游戏 —— 而这些都是人们期待 IGN 评测的游戏。在外人看来,我们可能是一个很庞大的组织,事实上,相对于其他竞争网站来说,我们也确实如此,但我们的资源远非无限,我们必须合理地利用它们。

 

还有一点是,从我个人的理念出发,我不太喜欢将评分平均化,因为尽管最后要打一个分数,但这并非数学。比如说,用加减法来处理评分明显是非常荒谬的:连玩两个劣质(4+4)的游戏,并不等于玩了一个优秀(8)的游戏;一部大师之作(10)的前半部分,也绝对不会是平庸(5)的。

算平均分比这略好一点,因为最终的结果没那么荒唐 —— 将 6 分和 8 分平均成 7 分感觉是个完美的折中。但这忽略了一个事实,即评测的分数并非传统意义上的「数字」:它们其实是代表了一串有高低顺序的单词,而给单词取平均数也不怎么合理。

 

即便你接受了平均分数的做法,在很多情况下,最终得出的分数也是实际玩过这个游戏的人都不认可的结果……那你为什么要相信它呢?在上面的例子中,一个人认为这个假想中的游戏「尚可」,另一个人觉得它「优秀」,但两个人都没有将其描述为「良好」,但这就是它最终会得到的评价。

与一个人的个人推荐相比,这种结果更不自然、更不容易让人产生共鸣,而且到了最后,你估计不会因为它是平均分就更加相信这个结果,因为你并不是一个平均值。你是一个有着自我观点的人类,你的观点和所有评测者一样有独特性。除非你同意每个游戏的 Metacritic 平均分,不然这个系统 —— 它的数据样本甚至更少 —— 怎么会有所不同?

 

简而言之,尝试多篇评测会产生无法持续的工作量,大幅提升成本,造成大量的混乱,却基本没有额外收益,尤其是现在已经有评测聚合网站了。我们需要明白的是,评测和数据汇总是两个不同的事物:一个是个人观点,另一个更像是一堆人投票 —— 而且很重要的一点是,在人们做出个人评测之前,是根本不会有分数汇总的。

这并不意味着我们认为员工们的不同观点没有各自的价值和意义,也并不意味着我们想要掩饰分歧。恰恰相反,我们很鼓励员工表达自己的看法,只要收听我们每周的播客节目,例如 PlayStation Beyond、Xbox Unlocked、Nintend Voice Chat,就可以听到他们针对我们评测过的游戏自由发表意见、进行讨论,有时候他们的看法和我们的评测有很大的差异。如果你发现某位 IGN 员工的口味和自己很像,想直接从他们那里得到推荐,你也可以在社交媒体上关注他们。

 

此外,很多我们的 Top 10/25/100 游戏榜单也是由评委会决定排名,而不是让某个刚刚第一次玩过某个游戏的人决定。最后是,每年我们都会公布我们的年度游戏大奖,这也反映了我们员工的集体意见,而非单个评测者给出的分数。

评测有特定的时效和定位,但在 IGN,几乎所有重要的游戏、电影、电视节目或者设备,都不会缺少关于它们的意见和观点。

本文编译自 IGN US 相关内容,原作者 Dan Stapleton,编译 Tony,未经授权禁止转载。