知乎李大海:如何用AI技术打造智能社区

2018 GMIC全球移动互联网大会昨日在北京开幕,本届大会主题为“AI生万物”。在AI产业领军者峰会上,知乎合伙人、高级副总裁李大海发表了演讲,阐述了知乎如何利用AI算法打造智能社区,增强知乎的人文价值。

李大海透露,截止今年三月底,知乎注册用户1.4亿,日活用户达到3400万,月PV 230亿,累积提问量2300万,累计回答量1亿,人均访问时长1小时。而面对庞杂的内容,知乎如何筛选高质量用户行为,打造社区治理正向闭环?李大海介绍了将AI算法用在知乎的内容治理上的几个手段。

目前,知乎已经上线了算法机器人“瓦力”,可以自动识别答非所问、占坑不答、拿评论当回答的行为,甚至还能识别一些不友善评论、歧视、恶意贴标签的行为。知乎还进行了“有理由反对”功能内测,以帮助瓦力机器人进行机器学习。另外,知乎还研发了Siamese网络结构,这使得知乎上的任何一个回答发出来,很快就能够得到反馈。

知乎还开发了“反讽”(阴阳怪气)识别算法,基于深层语义理解、庞大且高质量的用户行为数据,先对用户亲密度进行识别,同时使用知乎站内大量一致的用户行为语料,把行为转化为标注,从而达到”反讽”识别的效果。

对于接下来的计划,李大海称,知乎希望通过AI技术打造一个智能社区,用技术实现更精准高效的连接。“每一个知乎用户都能快速找到自己感兴趣的人和内容,每一个优质的问答都能快速推荐给相关的人,并快速找到共同兴趣的用户进行交流讨论碰撞。”李大海说到。(小羿)

以下为知乎合伙人李大海演讲实录:

李大海:谢邀。很荣幸能够代表知乎来参与在GMIC上的分享。刚才Dean和李先生在专利战略上讨论对我也很有启发。我们在深度学习引发的AI热潮里,现在AI算法已经全面的被应用在了内容平台的各个环节,是不可缺少的一部分。业界对于AI算法,对于平台的商业价值,还有业务价值都已经讲的很多了,今天我想借此机会跟大家讲讲AI的人文价值。

我先介绍一下知乎,知乎诞生源于一个非常简单的初心。我们相信在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的,基于这样的理念我们想建立这样的平台,能够把用户脑子里彼此最重要的信息能够分享出来,能互相利用。另外,这些信息还能够沉淀下来,当有其他用户有类似问题的时候,我们能够很方便的找到。这样进而让说话用户都能够更好的去认识这个世界。

要让用户主动分享自己脑袋里的知识、经验、见解,我们认为他一定要有开放、包容的讨论环境。这件事情是很重要的,所以我们诞生第一天起我们就在用运营和产品手段去维护良好的一个讨论氛围。我们也是第一个把友善作为要求写进社区规范的一个第一个社区。这个决策是非常重要的,因为在良好的社区讨论氛围下知乎已经成为中国互联网中最大的知识分享平台。这里跟大家分享一组数字,截止到今年三月底,知乎已经有超过1.4亿的注册用户,我们的全平台的日活跃用户达到了3400万,用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。在知乎人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。如果我们把知乎比作一个城市的话,这是一个超级城市,里面有上亿的居民跟游客。这个城市的法律法规就是我们社区的规范。在这样一个规模的城市里,我们维护法律法规还是人工方式运维的话一定低效的,所以这时候我们引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。

我们要解决的问题都是自然语言领域处理的问题,也就是NLP的问题。其实AI在NLP领域是不如像图片等等这样一些领域的成果这么出色的,但是很幸运的是知乎积累了一个非常高质量的中文语料库。我们拥有大量的优质的提问跟回答的文本。同时用户的行为本身在我们这儿也是非常重要的数据。这个怎么理解呢?用户来知乎去生产和消费内容的时候,他们同时也在建设这个社区,他们的行为本身就是社区体系的一部分。举个例子,用户对一个回答的赞同或者反对,他们对任何内容的举报,他们对一个问题发起一个话题,或者对问题或者话题进行公共编辑,在某种程度上我们都可以把它认为是对相应文本语料进行标注。有了这样标注数据以后,我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示,从而能让我们对语言的理解能够达到一个更高的层次。

另外这还是形成一个正向的闭环。因为我们的良好的社区氛围,所以我们的用户在知乎的行为大部分都是高质量的。有了这些高质量行为我们就会有高质量的标注数据,这就更有利于我们用AI算法维持或者提升我们的讨论氛围。

另一方面,经过七年多的运营,知乎团队已经培养了非常丰富的社区管理的经验。我们已经认识到一个社区的规范,它不是制定出来的,它一定是平台和用户相互之间和摸索出来的。我们在这个过程中理解了不同用户不同诉求,然后能让我们规范去匹配复杂多变的各种场景。这样一些丰富的经验对于我们去把AI落地是非常有帮助的。因为它能够把氛围这个很虚无的大问题分解为很多小的目标明确的,可以解决的问题,降低这个问题的难度。

给大家展示一些有伤害社区氛围的例子,这些例子都是比较不好,我就不念了。第一种是答非所问。所谓的答非所问就是没有答到点子里,离题万里的回答。这些回答往往是没有什么价值的信息,有些甚至只有情绪。所以读者看到这样不能获得有效的信息,是在浪费的他们的时间。第二,不有效的评论。大家看到这些有效评论后,自己换位思考一下,如果自己是一位作者花了半天辛辛苦苦写了一个回答,评论区都是这样调调的回答,你们是什么感受。不是作者也没关系,作为读者看到每一个精彩的答案下面的讨论区域都是这种乌烟瘴气的氛围,其实也不是一个良好的体验。还有一种是阴阳怪气,阴阳怪气不算什么,但是根据我们的经验它对于创作者的创作热情,还有创作体验的伤害更大。这个大家看看就可以了。当然损害社区氛围的例子不仅仅是这些,我提这些只是给大家一个之滚的感性的认识。经过两年多的工作,我们建设了一个算法机器人,叫瓦力,目前瓦力已经在线上能够快速适时去响应去处理像答非所问和不友善的内容,像歧视,恶意贴标签,辱骂等等低质内容,全力帮助我们知乎小管家团队去减少低质内容和无关内容对用户的干扰。给用户提供人文关怀。我们这个机器人最好的遵守率能做到99.13%。我们在这个工作有两个方向,第一,在不同的领域再进一步提高它的准确率和召回,第二,不断提高瓦力机器人的适用范围。

瓦力机器人能力提升后面是离不开我们的用户的。举个例子,我们最近上线了一个理由反对的功能么测,这个功能有五万名用户参加了内测。所谓有理由反对就是用户点击反对的时候,同时选择一下反对的理由。用户每次选择都是瓦力去学习的一些新的机会。我们在内测期间通过用户选择和瓦力结合一共梳理了超过两万条答非所问的回答。

下面我从技术的角度简单去讲讲我们的瓦力机器人怎么做的。这边以答非所问作为例子来简单的讲一讲。我们最早解决这个问题的时候采用的是随机森林的模型。什么是随机森林呢?简单的来讲,随机森林就是用随机的机制去产生很多分类数组成的森林。它的分类数就是把这个样本放到每个数里去分类。举个例子,就是知乎来讨论一个问题,知乎的宠物是狗还是狐。这样就让每个树自己投票。在完成这个模型以后,我们取得了还不错的一个效果,它的准确率能够达到97%,是一个非常高的准确率。但是有两个问题,第一个,它的召回率不高,只有58%,不到60%。这个召回率意味着什么呢,意味着我们会错过坏人,就把一些答非所问的回答放到线上去了。这样的话这样的回答给用户带来不好的体验,所以召回率是我们很在意的东西。另外,这个模型会用到用户的行为统计特征,也就是说,就是需要去看有多少用户对这个进行了点击回答或者点击举报的特征。这个特征有什么问题,用了这个特征,如果对一个新的回答做分类判断是不是答非所问的时候必须放到线上观察一段时间,看看线上对它的点击量反对或者举报。这就出问题了,因为它上线了。如果真的是一个答非所问的话,看到这个回答的用户他的体验其实就已经受到了伤害,这个时间差是存在的。我们就开发了一个模型,这个模型是基于卵生模型的思路,这个思路是去提升网络结构的表达能力。同时对特征进行选取的时候也做了很多仔细的考虑,去避免使用前面所说的用户行为的统计特征。最后的结果是这样,我们在召回率上有了一个非常大的提升,从60%提升到80%。同时任何一个回答只要发出来,很快就能够被分类。是还是不是一个答非所问。当然它也有缺点,它的准确率下降了,但是在这个场景我们可以结合其他的业务策略来弥补这个差距。所以最后我们就把新的模型上线了,去替代了老的模型。

我们算法团队在这个月发表了三篇文章,在知乎专栏上比较详细的阐述了知乎在瓦力机器人的工作,其中包括了这部分的工作。大家感兴趣的话可以上知乎专栏看一看。

我这里还想再跟大家同步一下,知乎在阴阳怪气这个领域的识别的一些实践。这个工作还没有做完,但是我特别想跟大家同步,因为这是一个非常难的问题,也非常有意思。阴阳怪气就是反讽。我们处理的思路,首先还是要基于深层语义理解,也就是语义分析这个工作。但是这个是不够的。因为从我们的实践来看,往往一句话,同一句话如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但是如果是两个陌生人之间一定是有敌意或者不友善的。所以基于这样的思考我们会从两个方向去综合判断。反讽这个问题之所以要跟大家分享,是因为它是情感分析领域的前沿问题,它很难。因为反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。像谢尔顿作为物理学家,他的智商在全人类排名前10,他也常常听不懂别人对他的讽刺。

在训练中我们会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等。但是不会把用户统计特征放进去,这个理由和前面是一样的。我们使用的网络拓扑模型使用的CNN和LSTL的结合。最关键的其实是最后一部分,我们在分类层是用知乎层大量一致的语料产生标准数据,这就是我前面讲的用户行为。举个例子,简单的说,如果一个评论有很多好的用户,他们都进行了反对,可能我们认为这就是一个负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。基于这个我们可以构建大量的一个标注数据。这样一个方案我们现在还在开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。当然这个问题比较难,可能我们还要解决很多细节问题,时间可能会比较久。但是没有关系,我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。能够像在反讽前沿领域的突破,任何一个突破对中文互联网,甚至全球互联网讨论环境中都应该有非常正面的作用。

以上是我关于AI算法和人文价值的一些分享。一个开放包容包括氛围是很重要的,它是孕育文化上百花齐放状态的一个非常非常重要的土壤。当然知乎作为一家技术公司我们不仅仅把AI用在了这个领域,事实上AI技术已经广泛应用在知乎的内容生产,流通,消费等等环节。我们接下来的计划是用AI,人机结合去打造一个智能社区。什么是我们所说的智能社区呢,我们坚信每个人脑子里的知识、经验、见解都是另外一群人非常感兴趣和想知道的。所以知乎长久以来所做的一切都是为了建立这种前所未有的连接,满足彼此的需求。这也是知乎的初心和长久的愿景。我们相信在不远的未来每个知乎用户,上知乎后都能很快找到他感兴趣的人和内容。他的问题能够快速的被推到能回答和有意愿回答的人意愿满足。他也能发现让自己拍案叫好的问题,然后分享出知道自己最懂的信息,获得让自己愉悦和满足的认可,并且遇到有共鸣的人去产生更深刻的交流、碰撞的化学反应。我们将以前所未有的效率建立这样思维的连接,让每一个个体脑袋里的警世通言见解都能够被分享,被筛选,被转化,被转变成这个时代的知识。知识的生产方式和迭代效率在这样的连接之下就会发生质的改变,这就是我们认为的智能社区。

在这边这样一个智能社区的过程中我们会遇到什么样的挑战呢,我们有很好的数据,我们的问题也都很明确,我们的挑战其实主要是在人上。相比于我们要解决的问题来说,我们的团队,我们团队很不错,但是相比于这些问题我们的人还是比较少的,所以我们希望业界厉害的人加入我们,一起把知乎创建成为一个具有人文价值的一个智能社区。谢谢大家。(完)

关注网易智能公众号(smartman163),为你解读AI领域大公司大事件,新观点新应用。

免责声明:本文由用户投稿,(图文、音视频)均由用户自行上传分享,文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。若您的权利被侵害,请联系本站在线客服进行删除。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索