来自 话题 2017-02-13 13:50 的文章

也许有一天,人类要向人工智能学习怎么做人

“逃票”与“在电影院喧哗”

今年过年,有两个或者说两类新闻引发了颇多关注,而且具有共性。其一是宁波动物园男子逃票误入虎山不幸丧命,与此类似的是去年北京八达岭野生动物园女子下车被老虎咬的事件;其二是桂林某女士去看电影时看到偶像出场很激动开闪光灯拍照,结果散场后被两名女子打得鼻青脸肿,类似的事情还有山东淄博某电影院“熊孩子太吵闹,母子均遭掌掴”等等。

电影院不当行为引发很多关注电影院不当行为引发很多关注

这些新闻的共性在哪?都不新鲜,都不算罕见,但都招致大量网友跟帖评论,而且大部分人态度一致:认为当事人活该。为什么会这样,这反映出网友们对“不遵守规则现象”的痛恨,对“无规则意识者”的厌恶。但与大多数社会新闻一样,人们在网上骂得最凶的,现实生活中往往多见。当然,因不遵守规则被老虎袭击的是少数,但在电影院喧哗打闹的现象,确实很常见,人们对此类现象的容忍度也越来越低——“凭什么打扰我欣赏电影?”

为什么有这么多不守规则、不懂礼仪、不讲究尊重他人的人?逃票进虎山是低估了违反规则的风险有多大——为什么会低估?就是因为“在电影院喧哗打闹”这种没啥风险、也少人出来管的事情中,很多人养成了不遵守规则的习惯,类似的事情还有在公共场合吸烟、随地吐痰、随手乱扔垃圾等等等等,这些不守规则的现象更为普遍,也就更没人进行管束。

如何解决这个问题?一般来说是向发达国家或地区学习。像强调规则、礼仪以及对他人的尊重,这都是老生常谈。强调规则学新加坡,强调礼仪学日本,强调对别人尊重学习西方国家,等等。这些做法当然都是没有错的,不过我们不妨进行下更加深度的思考。

人类社会为什么规则意识起不了作用?

其实,礼仪、尊重都可以归类到规则意识中,而规则意识怎么产生则是个经济学或者说行为学的问题。往根子上说,人类是群居动物,而人又有逐利的本性(有一个说法叫“自私的基因”),在这两个前提下,人类出现了集体行动的逻辑,这些逻辑在自然状态下是“丛林法则”,优胜劣汰弱肉强食,出现“所有人反对所有人的战争”。但人还有理性,知道怎么进行合作,于是就有了促进合作的规则,实现互惠互利。买票进动物园,在电影院保持安静都是规则。人人都遵守规则,自然是好事,能促进集体利益最大化。而规则意识的树立,一是来源于关于契约精神的教育,一是来源于规则的强制力、约束力,这两点不必多说,还有一个来源是“重复博弈”,指的是不同的人反复博弈后,共同意识到了怎么做对大家都好。

然而,理论与现实总是有着差距,不该逃票,不该在电影院喧哗,这些简单的规则却愣是有人不遵守。这除了平时人们规则、契约精神就不彰,规则的强制力约束力不够外,很重要的原因还是在于,规则意识往往压抑不了人类的自私本性——“我觉得票太贵了,所以我逃票”“我就是想拍照片照我家偶像”“我家孩子小,看电影吵闹点不很正常嘛”。美国经济学家奥尔森就认为,在集体行动的逻辑中,个人的自利倾向总是使得集体的一致行动变得很难实现。而且集团越大,就越难克服集体行动中的“搭便车”行为:人人都想分享集体行动的成果,但不愿分担集体行动的成本。

博弈论中的“囚徒困境”表明人类合作存在天然的障碍博弈论中的“囚徒困境”表明人类合作存在天然的障碍

其实,逃票、电影院喧哗这些行为,多数人都是反对且能遵守规则的,所以尽管违反规则的人相当多,但更多的人还是愿意去批评与呵斥的——至少是在网上呵斥。但在人们的实际生活中,有更多的事情是规则意识几乎起不了作用的,理由就是前面提到的自利倾向难以克服。比如说,中小学生补课的问题。理想的情况是,每个学校都不补课,既保证公平性,又减轻孩子负担。不过,对于每个学校,都会去想,如果别的学校不补课,我们学校哪怕只补一个小时,我们就赚到了。结果是,所有学校都意识到这一点后,每个学校都会争着再多补一个小时。最终导致各个学校依然没完没了补课,教委的文件成为一纸空文。在商业竞争中,那些“价格联盟”为啥搞不起来,也往往是因为个别成员因为自己的利益,短视,才让联盟垮掉。那这些人如果聪明到既不短视、合作精神又非常足会怎样?有些情况下,也达不到理想状态——著名的“囚徒困境”,说的就是某些情况下,就算你再精明,你也没法去做双赢的选项,结果只能双输。在数学上,这是被“纳什均衡”所证明了的。

回到“如何做人”上面来,即使只关心讲究礼仪和对他人尊重,这些千百年来流传下来的集体行动逻辑,恐怕也避免不了衰败下去。这很大程度上是时代因素造成的,人们越来越多地把时间放在互联网和手机上,人与人见面交往的实践机会在不断减少,对公共场合言谈举止的规范可能也越来越不熟悉。现在人们所诟病的“熊孩子”,有可能会成长为“熊青年”、“熊家长”。前景不容乐观。

解决问题的希望可能在“人工智能”

解决合作难题、规则意识难题的钥匙,是强调“重复博弈”的价值。此前,在《解医患僵局,需相信“好心有好报”》这个专题中,我们设计过一个让医患之间减少矛盾的基本想法,核心就是“一报还一报”策略。如果医患双方每次都选择不退让,所付出的代价毫无疑问是巨大的,而只要双方都开始采取“一报还一报”策略,在一方释放了善意后另一方以善意回报,重复下去,则双方的损失都会变少。这一想法来自于美国政治学者阿克塞尔罗德的“重复囚徒困境”实验,给人们在复杂的社会中寻求合作和善意提供了思路。这个研究发现,人类社会存在很多问题会造成策略不起效,比如有太多彻底的自私自利之徒,就会让好人受损,而坏人也没有什么便宜可占。

真正的希望,也许要寄托在人工智能上——开发出战胜围棋世界冠军的AlphaGo的Deepmind公司,最近就在探讨用人工智能来解决这个重大社会问题——寻求自身利益的人们聚集在一起可以实现很多伟大的成就,为什么会是这样?最符合自己利益的策略会是只关注自己,而忽视他人利益的行动吗?自私的个人如何、在什么情况下会趋向于合作?

Deepmind团队正在用“深度学习”的工具来研究“理性智能体”的合作问题Deepmind团队正在用“深度学习”的工具来研究“理性智能体”的合作问题

这家人工智能公司用深度学习的办法找到了解决社会困境问题的新工具——通过建模出“理性智能体”,来模拟“理性人”的博弈,这是真正的“理性人”,而不是人类这种存在诸多缺点的“理性人”——以至于世界银行都承认“可以把人类视为理性人”这个假设不成立。这些真正的“理性人”通过博弈会如何产生合作与规则,是很有趣的问题,目前研究已经有一些初步成果,比如发现,在资源较多的时候,“理性智能体”会很自然地进行更多的合作,而在资源较少的时候,则会对其他智能体进行更多的标记,标记的意义是采取针对性策略。在不同情况下,人工智能体如何去产生合作与规则,也许对人类有很重要的参考意义。

 

人类有很多弱点,导致很多人“不懂做人”,不懂遵守规则、不讲究礼仪和尊重,也许真有一天,会由机器来向人类展示什么才是真正的规则意识和合作精神。这并不是空谈。