特稿 >

行业洞察 >

【Nature】意外流行算法给群体智慧带来新解,可用于多数投票决策

【Nature】意外流行算法给群体智慧带来新解,可用于多数投票决策

新智元 丨 行业洞察

17336
1394

2017-02-12

地雷

Xtecher特稿作者

关注

群体智慧并不总是完美的。为了更好地从群体中获取正确的答案,MIT 和普林斯顿大学的研究者提出了一种名为“意外流行”(surprisingly popular)新算法,相关结果日前在 Nature 发表。这一方法有望改进有关经济、政策乃至艺术品收藏等针对大规模人群调查的结果,尤其是在大多数人的意见不靠谱的时候。


问一群人猜一个人的体重是多少,一般认为所有人得出答案的平均值应该最接近真相,这也被称为“群体智慧”(wisdom of crowds),其原理是大量决策中的误差能够相互抵消。


但是,群体智慧也有失效的时候。例如,让一群人回答这个问题——费城是宾夕法尼亚州的首府吗?绝大多数人会错误地回答说“是的”。这是因为他们知道:①费城是宾夕法尼亚州的一座大城市,②首府都是大城市。但实际上,正确答案是哈里斯堡,而往往只有少数人会说出这个正确答案。


为了找出那些不为多数人所知的正确信息,普林斯顿大学和 MIT 的研究者设计了一种新的方法,将其称为“意外流行”(surprisingly popular)算法。研究人员表示,这种算法能更好地从群体中获取正确答案,尤其是当大多数人的看法是错误的时候。相关论文日前在 Nature 发表。


实验中,研究人员会询问接受调查的人他们对某个问题的看法,以及他们认为其他人会如何看待这个问题:①你认为正确答案是什么?②你认为流行的答案(即多数人会选择的回答)是什么?


然后,算法会找出“意外流行”的答案,也就是比大多数人预测中更受欢迎的答案。大部分情况中,这些超出大多数人预计的选择,就是正确的答案。


“我们以为社会平均意见一般是对的,过往对群体智慧的统计也支持这一看法,”研究负责人、MIT 斯隆管理学院的行为经济学家 Drazen Prelec 说:“但事实证明并非如此。有像医生那样的专家存在。这让我们意识到了少部分人掌握的知识。”


实验过程


研究分为四部分,针对的问题都是二元的,也即回答只有“是”和“否”。第一个实验包括了 50 道有关美国各州首府的问题。第二个实验使用了 80 道判断真假的问题,其中包括了一般人都会回答正确的和多数人都会回答错误的问题。第三个实验则是让皮肤科医生看 80 张皮肤病变图片,让他们判断是病变良性的还是恶性的,以及其他皮肤科医生会如何判断这些图片。最后的实验则是估计 90 件艺术品的市值:参与调查的人分为两组,一组是艺术专家,一组是 MIT 的学生;此外,参与调查的人还需要预计有多少人给出了超过 3 万美元的估值。


在全部四次实验中,新的方法,也即选择“意外流行”的回答,结果是最好的,超过了单独采用多数人意见,也超过了仅凭参与者对答案的自信程度来选择,将错误率分别降低了 21.3% 和 35%。


具体看,以“费城是宾夕法尼亚州的首府吗?”这个问题为例。


面对这个问题,基于上面解释过的原因,大多数人会回答“是”(当然这是错误的。)同时,回答“是”的这些人,几乎都会以为其他人也会回答“是”。


但是,有少部分人知道宾夕法尼亚州的首府是哈里斯堡,因此他们的回答是“否”。而这部分知道正确答案的人,一般也都知道大部分人会答错。所以,他们在估计其他的人的回答时,也是选择“是”。


这样,基本上所有人都估计其他人会回答“是”,但实际上回答“是”的人并没有这么多。所以,在这里“意外受欢迎”的回答就是“否”——“否”占的比例超出了大多数人的预计。


所以,“否”才是正确的答案:费城不是宾夕法尼亚州的首府。


在这个意义上,“意外流行”原则并非简单地从群体智慧中衍生而来。相反,它利用了集体中小部分具有专业知识的人,凭借这部分人的知识作为寻找正确答案的指南。


“很多群体智慧[的方法]给予了每个人同等的知识权重,”研究的另一位负责人、MIT 认知科学家 John McCoy 解释说。“但是,有些人拥有更多的专业知识。”如果这些拥有正确的信息的人同时也对公众看法有很好的把握(也即能正确判断大多数人是什么意见),在决策中将带来有很大的不同。


实验中,研究人员要求艺术专业人士推测不同当代艺术品的价格范围。单个看,专家一般会将艺术品价值往低了估计,或许因为这是更加保守和安全的做法。但在这种情况下,群体智慧——根据大多数专家的意见,就会导致艺术品价值被低估。


“意外流行”方法不依赖绝对多数的专家的意见。少数个别专家认为某件艺术品售价 10 万美元,同时他们预计大多数人会以为价格更低。这就使“意外流行”的观点成了这件艺术品比大多数人想的都要贵。


研究评价及意义


加州大学尔湾分校的认知科学家 Michael Lee 说,“这里有一个关键的想法,那就是询问人他们认为有多少人会同意自己的观点。”Lee 没有参与这项工作,他指出:“在涉及皮肤科医生的实验中,虽然新的方法表现最好,但差异并不具有统计学意义,很可能是因为所有参与者都是专家,缩小了群体知识的范围。”


“这个方法非常聪明,是一种非常简单的投票方式,”加州大学尔湾分校认知科学家 Mark Steyvers 说。Steyvers 也没有参与这项研究,他指出在现实生活中,人们可以依靠互相询问各自的专业背景和技能来确定他们给出的信息的有效性。但是,对于匿名轮询的情况,就可以用 Prelec 的方法来识别专业的观点。


研究人员还将该方法扩展到多项选择的情况做了理论分析。但是,“意外流行”方法在更复杂的设置(例如估计或排序问题)中是否有效,仍然是悬而未决的问题。


这项工作可能具有直接的现实应用价值。Herzog 去年发表了一项研究,使用“群体智慧”改善乳腺癌和皮肤癌的诊断。这种新的方法“可以应用于新兴的远程皮肤病学领域,结合多个医生的诊断意见。” Herzog 表示,“原则上,意外流行法可以用于任何使用多数投票决策的情况,不仅询问每个人他们自己的决定是什么,还要询问他们认为有多少人会同意自己。”


这项工作较长期的目标则是对那些没有已知明确的答案的问题进行良好的预估,比如谁将赢得美国总统选举或体育比赛的结果。Prelec 对他的工作表示乐观:“无论预测的问题是什么,我们做的推理都是非常相似的,都是针对可以验证的问题不断调整策略,然后大胆假设,在无法验证的问题上,相信这是你能做出的最好选择。”


论文:单问题群体智慧新解


群体智慧优于任何个人智慧的概念一度曾被视为激进的观点(provocative),但已经成为一种群体智慧,导致有人猜测在线投票都方式可能很快会使认证专家失业。群体智慧近来被用于政治和经济预测、评估核安全、公共政策、化学探测质量检测,以及潜在火山爆发危机应对措施。用于获取群体智慧的算法通常基于民主投票程序,易于应用并且保持了个人判断的独立性。然而,民主方法有严重的局限性,容易抛弃那些没有被广泛共享的新颖或专业知识,反而侧重肤浅、最低的共同信息。基于测量置信度的调整也不能可靠地解决这个问题。在这里,我们提出了民主投票的替代方案:选择比人们预测更受欢迎的答案。我们表明,这个原则在关于选民行为的合理假设下能够产生最佳答案,而标准的“最受欢迎”或“最自信”原则在相同的假设下无法实现这一点。与传统投票一样,该原则适用于单独的问题,例如关于科学或艺术价值的小组裁决以及法律或历史争端。因此,这一方法的潜在应用领域比机器学习和心理测量方法更加广泛,后两者都需要来自多个问题的数据。


新智元编译   编译:闻菲

编译来源:

  1. https://www.scientificamerican.com/article/hive-mind-new-approach-could-improve-on-crowd-wisdom/

  2. http://news.mit.edu/2017/algorithm-better-wisdom-crowds-0125

  3. http://www.nature.com/news/how-to-find-the-right-answer-when-the-wisdom-of-the-crowd-fails-1.21370




打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机