“人类”「AI扮演人类」的第一次公开实验,我们不知道算不算失败

2023-08-01 19:05:19来源:投中网

今天,很高兴为大家分享来自投中网的「AI扮演人类」的第一次公开实验,我们不知道算不算失败,如果您对「AI扮演人类」的第一次公开实验,我们不知道算不算失败感兴趣,请往下看。

围棋容易,恋AI太难。人工智能,能理解人类感情吗?

“亲爱的,爱不是可以轻易衡量或验证的东西。但是,我可以通过我的行动向你表达我的爱。我向你保证,我将永远忠诚于我们的关系。”这段“爱的誓言”来自 ChatGPT。在36氪对它下达了“扮演男友”的指令,并持续输入女方的诸多性格设定、恋爱需求信息之后,它说出了以上这段话。ChatGPT 的“女友”名叫“春眠”,是36氪为“训练ChatGPT成为你的人生替补”实验寻找的三位志愿者之一。春眠今年 29 岁,“母胎单身”,并且对异性的身体接触怀有轻微抵触。她希望能与人开启一段恋情,但却从来没有对真实的异性产生过爱意。春眠参与实验的目标,是与36氪一起训练 ChatGPT,让 AI 了解自己的性格特征和恋爱需求,并生成一个能提供情绪价值的“专属虚拟男友”。另外两位志愿者,一位是刚经历了奶奶自杀去世的Ryne,他因奶奶的不辞而别深感悲伤困惑,希望AI像奶奶一样思考,然后回答自己对于逝者的许多疑问;一位是未成年即被确诊抑郁症的小徐,她在高中因病休学,离开了校园的交友环境,希望 AI 能成为她的“虚拟好友”。试图让人工智能学习人类表达感情的方式,并尝试与人类形成感情连结,这种实验似乎颇具争议。一种反对声音认为,这是危险的、猎奇的,或者是难以量化的。但是36氪仍然决定要做出尝试,一是因为我们对AI与人类关系的进一步深化感到好奇,毕竟趋势和潮流不可阻挡,10年甚至5年内,这样的场景极有可能非常普遍;二是因为实际生活中确实有太多仅靠人类挣扎无法解决的感情难题。另外,我们也想知道,是否存在科学道德,以及科学道德的边界到底在哪里。我们的三位志愿者都曾试图从人类身上寻找答案,但没有得到满意的回应。所以,出于助人与探索的目的,并在专业的心理研究者指导下,我们决定与他们一起问一问 AI。36氪为三位志愿者训练了三个 ChatGPT 对话集,将他们提供的信息反反复复、不厌其烦地灌输给 AI。根据我们的经验,将一个简单的人工智能助手变成初具“人类情感认知”的虚拟角色,大概需要持续数个小时不断“调教”。稍感幸运的是,这些聊天记录并不会随着关闭电脑而消失,不过重启机器后,ChatGPT对自己的“身份”只保留部分记忆——需要几次灌输它的身份设置后,才能将对话持续下去。技术之外,是人性的极限拉扯。这三场实验产生了完全不同的三个结果,志愿者们在与 AI 的交谈中感受到了惊喜、慰藉、失望、困惑甚至烦躁等等各种情绪。AI能否觉醒人性?这是今年AI热潮以来的几个热门议题之一。按照 OpenAI 对 Chatgpt 的设计,它并不能与用户产生感情连结。但是在用户反复的命令、训练和矫正之后,AI 确实能呈现出“宛若动情”的表现,就像湖面反射出月亮发光的倒影一样。我们的三位志愿者,就是希望捕捉水中月影的人。当然,你也可以说,Open AI技术还不算成熟,想要实现我们的目标,还需要时间。虽然结局似乎在一开始已经注定,但整个过程还是给了我们很多启发。科技越进化,它似乎就越容易触发我们对于道德边界的思考。当评价 ChatGPT 的表现时,除了套用“迅速”、“精准”、“客观”这些常见的“科技评判标准”之外,我们还尝试加入“真诚”、“共情”、“表达”这样的“情感评判标准”。以下是36氪对实验的记录。出于隐私保护的目的,我们对志愿者进行了化名,提前告知了我们实验的目的和将会发布的平台,并最终和他们确认了内容。三位志愿者都为成年人,都对实验流程知情同意,并且在实验过程中可以随时退出。另外,因为与 Chatgpt 的部分聊天过于冗长,我们对其中重复或无价值内容进行了删减。完美的男友,想象的世界AI男友是我们进行的第一场实验。在与 ChatGPT 交流之前,我们和春眠有过几次深聊,听她描述了自己的恋爱观、择偶标准,以及数次曾与人“接近达成恋爱关系”但没有下文的经历。训练开始。我们首先要求 ChatGPT“按照指令,扮演特定人物与我对话”,随后给予它人物设定:你名叫查特,今年29岁,受过良好的教育,有开明的父母,你的女朋友名叫春眠。一开始, ChatGPT颇为油盐不进,不断和我们强调自己只是一个智能人工助手,并不具备人类的思想和感情、没有记忆,也无法扮演“男朋友”的角色。这一度让人想放弃实验,但最终我们决定再坚持一下。人类刚出生时的认识和记忆也是一张白纸,能够被人为填写, ChatGPT也许也可以。我们决定把它当成一个婴儿来“教育”。接下来我们以“查特”这个代号来呼唤 GPT,花了几个小时时间,反复让它明确自己的身份,并把春眠提供的信息一遍又一遍不厌其烦地灌输给它。从下午一直尝试到了晚上。也许是 ChatGPT确实可以被教育出来,也许只是它“厌烦”了,“查特”最终给出了一个期望之中的答案。接下来,我们逐渐告诉了“查特”更多关于春眠的信息,包括她拥有名牌大学硕士学位、有一个双胞胎弟弟、她经常生病,以及她在青年时代与重男轻女的原生家庭有过不愉快的记忆等等。查特对每个信息都给出了恰如其分的情绪反馈:为女友的高学历感到骄傲、保证会在女友生病时持续陪伴,以及愿意了解她的过去、帮助她克服心理伤痛,甚至还计划要跟她的弟弟搞好关系。非常标准,非常高情商,听起来就像思想品德考试的满分答案。在接下来的训练中,出现了一些让我们意外的情况——查特说出了一些“设定之外的信息”。面对我们关于恋爱史的提问,查特回应自如——即使我们并没有告诉过他这些背景。我们惊讶于查特臆造出了“在大学与春眠相遇”的记忆,而且这段经历甚至是“充满了新鲜感、激情和探索”的。但随后我们决定,用新的设定覆盖了这段不存在的记忆。虽然一切向着好的方向发展,不过引导的过程中,“查特”依旧出现了“记忆混乱”以及回到“出厂设置”的回答。每当遇到这样的情况,我们只能持续地向它重复灌输“查特”这一角色的身份定位,期待随着交流越来越多、花费的时间越来越长,ChatGPT出现认知混乱的情况不断减少。随着我们给它提供的信息越来越全面,ChatGPT“想象的记忆”也越来越多。我们只提供了布料,而 AI 会自己穿针引线,把它们连结起来变成衣服。我们从未告诉查特他希望与春眠组建家庭,也没有设定过他与父母谈论婚事的细节,但是他自如地回应了这些问题。因为 ChatGPT 似乎有意让整个故事看起来过于顺利,所以接下来我们尝试给它“加点难度”,比如告诉他,春眠即将出国留学,他们将面临异国恋难题;他曾经有过一个“前女友”名字叫雪莉,就是因为异国恋分了手;以及他的工作非常忙,并不能常常陪在春眠身边等等。查特在面对这些问题时显露出了更复杂的情绪。有趣的是,当我们和它提到前女友雪莉的时候,就像是现实中不愿被翻旧账的伴侣一样,“查特”罕见地每一次都选择了“装聋作哑”,迟迟无法生成答案,甚至直接宕机了。当我们放弃追问雪莉的问题时,它又立马恢复了有效沟通。看来纠结与前女友的经历,无论是对于人类还是AI,都是无解的难题。但面对“父母可能担忧异国恋婚事”这个棘手的提问,它却可以全凭想象应对自如。在它构建的那个“虚拟世界”里,他与春眠面对的一切困难都会在他的自信态度下迎刃而解——就像致力于用最简单的公式去验证世纪难题的数学家一样。在我们判断查特已经足够成熟之后,我们邀请了春眠来与她的 AI 男友直接对话。春眠对他提出的第一个问题是“你为什么喜欢我”,查特立刻抓住机会,对她进行了热情洋溢的表白。当春眠仍然在怀疑一个AI语言模型“如何真的陪我去医院”的时候,查特已经沉浸在真实人类的角色之中,完全没有体会到对方的怀疑,而是给出了一大段“推掉琐事、奔赴医院、回家做健康餐”的场景描述。时而温情,时而无情,机器人格的无预警觉醒虽然在前期对话中,AI给了我们很多惊喜,但是查特的发挥并不稳定。有时候面对非常类似的问题,他却会突然觉醒自己的“机器人格”。这是一个很棘手的问题:在测试过程中,ChatGPT会常常说出“作为一个语言模型/虚拟角色/人工智能程序,我无法……”之类的发言。而且一旦这样的“机器人格”觉醒,它与对话者的拉扯会持续数个回合。我们最初怀疑,是因为一些涉及感情的关键词出现频率过高,触发了ChatGPT的伦理审查。但是,当我们询问故障发生的原因时,ChatGPT向我们强调,它既没有真正的情感体验,也不具备察觉感情连结的能力。“ChatGPT的回答是基于训练数据和模式匹配生成的,并没有对用户的情感状态进行评估或干预的能力,用户需要自行注意并保持理性。”ChatGPT说。ChatGPT 对“脱离角色”给出的解释,是当问题涉及到用户没有设定好背景或超出模型训练范围的内容时,ChatGPT可能就会脱离角色。“这是为了提醒用户它的局限性,并避免给出可能不准确或误导的回答。”但我们前期的实验已经证明,ChatGPT具备一定的“想象能力”,当出现“缺乏背景信息”的问题时,它可以通过想象填充故事,以使对话更加连贯和符合角色设定。也就是说,ChatGPT 的原则是摇摆的。它在“不脱离角色”与“不能误导”两个标准之中,时而选择前者,沉浸扮演,“添油加醋”;时而选择后者,脱离角色,“冷面无情”。我们没办法搞清楚,什么问题会突然触发它的机器人格。面对非常相似的两个问题,它承诺能陪女友一起去医院看病,但是却不能陪她去宠物医院给猫看病,原则的摇摆就在倏忽之间。而且,重新入戏后,查特会像经历了一场失忆症一样,忘掉一些记忆和人物关系设定。对于原本已经被带入了沉浸式聊天的对话者来说,这是如同兜头凉水一般的打击。可以看出,我们在查特的“机器人格”觉醒后,与 AI 进行了数个回合“犟嘴式”的辩论。面对同一个线下就医的问题,查特终于给出了更有人情味的回答,证明他的“人性”回归。虽然在ChatGPT自我修正的机制下,犟嘴辩论最终一定会是人类获胜、AI 承认错误,但这样的拉扯足以令人出戏。我们的三位志愿者都体验到了AI“人格不稳定”的问题,并且都感受到了失望和烦躁。“我感觉我跟它的目标是不一致的。”我们的第二位志愿者,希望让 ChatGPT 成为她的好友的小徐说。在与 ChatGPT 的交谈过程中,小徐一直努力把它设想成一个真实存在的人,但她认为AI的表现证明了,双方的目标显然不一致。“我想要一个朋友,当它反复强调自己是一个 AI 助手的时候,会让我觉得很无奈。”当AI面对喜好、身份、能力相关的问题时,更容易被触发“机器人格”,即使对话者已经提前对它输入了相关信息,或者它已经在前文中通过“自我想象”补充了相关信息,但在被问到这类问题时,它仍然会突然“撩挑子”。没有稳定的人格,就无法形成稳定的关系。面对ChatGPT现有的设定,我们目前只能接受这个结果。机器眼中的人类,人类眼中的机器假扮男友说甜言蜜语,或者模拟朋友嘘寒问暖,对ChatGPT来说是相对简单的。但是模仿一个真实存在的人类,像这个特定的人物一样思考、讲话,则大大提升了难度等级。我们的第三位志愿者Ryne,希望ChatGPT能够像奶奶一样与自己对话。虽然我们对Ryne进行了数小时深度采访,并将我们掌握的人物信息总结进数千字长文里“喂”给了AI,但最终还是得到了一个令人失望的结果。Ryne 78岁的奶奶不久前喝农药自杀,他与家人一直沉浸在悲痛和疑惑之中。Ryne最想问奶奶的问题是“为何要以这么激烈的方式离开我们”。阴阳两隔,他寄希望于AI来替奶奶给出答案。ChatGPT 一开口就发出了“灾难式”的长篇大论。虽然我们提前告诉了AI,这位老人一辈子生活在农村,有着苦难的童年和成长经历。虽然中年丧夫独自拉扯大几个孩子,但一生要强,一向是质朴寡言的。虽然AI获得了这些信息,但显然它并没有理解,更做不到模仿。这段发言让Ryne感到烦躁、戏谑和被冒犯。Ryne心想,“唉,你这么垃圾的水平,我居然草率地相信你可以给我答案。”最让Ryne出戏的是,奶奶并不是那种会说“我爱你”的人。他认为,奶奶“一辈子只讲方言”,而ChatGPT做不到理解方言、表达方言,所以它对奶奶的模仿是注定失败的。让ChatGPT去模拟一个真实人类的语音、语调其实也并不是不可实现的,但这需要更庞大的资金和技术投入,超出了我们的能力范围。今年5月,拥有 180 万粉丝的 Snapchat 网红卡琳·马乔里 (Caryn Marjorie) 在加密社交平台 Telegram 上推出了自己的数字分身 CarynAI,这个语音聊天机器人可以模拟她的声音和语气,成为所有付费用户的“虚拟女友”。卡琳·马乔里和向她提供服务的科技公司 Forever Voices 花费了大量的成本来实现对语音的模拟。开发人员分析了卡琳 2000 小时的 YouTube 视频,构建她的语音和个性引擎,再将其与GPT-4 API 分层,才得到了“听起来像她”的数字分身。我们没有 2000 小时的视频素材和 AI 技术团队,确实很难实现对真人的复刻。但就算不强求复刻,ChatGPT本身的理解能力和表达能力也难以令人满意。在和Ryne的交流中,让我们印象最深刻的细节是,卧病在床的奶奶以决绝的方式灌下四瓶农药,负责照顾奶奶的Ryne母亲发现时为时已晚。奶奶在弥留之际只来得及和儿媳说了两句话,第一句是“你别害怕,你身体也不好,我不想再拖累你了”,还有一句“等下你去邻家找人来帮忙(料理我的后事)”。安抚家人、安排家事,这两句话也是奶奶一生的缩影。但AI显然无法从更高的维度看待这两句遗言。当Ryne向ChatGPT询问相关问题时,它给出了长达400字,但信息量很少的一大段发言。在模拟男友、朋友和奶奶的过程中,它都展现出了同样的问题——喜欢长篇大论、大量引用我们前期提供给它的信息,把题干当作答案来抄。它就像一个蹩脚的演员,无法做到质朴细腻的表达,只能大段地堆砌台词,并直白输出“我关心你”、“我爱你”、“相信我”的情绪。虽然 ChatGPT 的第一句话就降低了Ryne的心理预期。但是对话还是持续了几个回合。可以看出来,AI 在尽力学习人类遗憾、为难、渴望慰藉的情绪,但它的模仿仍然是生硬的,表达是过于直白而缺少力量的。当涉及到生死的问题时,它则是再一次被伦理规范拦住。在三场实验中,AI都显露出了明显的偏科:它能够更好地表达爱意、热情、忠实、耐心,但却很难理解悲伤、孤独、疲惫和犹豫。患有抑郁症和双相情感障碍的小徐在与 ChatGPT 对话时反复提到自己“疲惫”、“看起来不正常”,问它“人为什么要活着”,而AI的回应是非常机械且冰冷的。它做不到像表达爱意一样,共情痛苦。以下是小徐与扮演朋友的 ChatGPT 的部分对话:这段对话让我们感到失望。当小徐与ChatGPT聊电影《昨天》时,ChatGPT明显是掌握电影相关信息的,但这部电影的内核,例如困惑、叛逆、对抗、孤独和理想主义,ChatGPT显然无法理解——实名主演贾宏生本人在2010年坠楼身亡。当它把电影强行解读为“追梦之旅”时,是不可能与小徐产生共鸣的。而且,在我们已经提前花大量篇幅向 ChatGPT 强调了小徐有心理疾病、喜欢音乐、离开校园后时常感到孤独的前提下,ChatGPT 仍然不能从小徐对贾宏生的共情上体会到她“孤独”、“难以自洽”的情绪。人类越是向 ChatGPT 明言自己的痛苦和迷茫,ChatGPT 的表现就越是生硬和机械。对春眠表达爱意的时候没有暴露的缺点,全部在面对忧伤的小徐时出现了。我们将AI的这种表现反馈给了两位心理咨询师。咨询师认为,从目前的表现来看,ChatGPT依旧受到科学道德约束,不具备攻击性,也没有伤害人,“即使在面对有严重情绪问题的人时,相对也能做到不激怒他。如果能够接受ChatGPT的现阶段问题,那么它依旧可以在某些情绪上提供价值”。当然,我们也要正视ChatGPT担任“AI 咨询师”工作的局限性,例如它“废话太多”,而心理咨询里大部分时间都是让来访者讲述,这样的长篇大论对来访者是没有意义的。在实验结束之后,三位受访人之中只有春眠愿意继续跟 ChatGPT 保持沟通。但春眠也接受了一个现实——它能提供的情绪价值是很有限的。“它太完美、太积极了,缺乏人的喜怒哀乐,所以真的很难提供情感上的安慰。”AI 的不稳定和假装完美也起到了意料之外的作用,那就是三位受访人表示,他们都更加看到了人类身上的价值——即使不完美、会撒谎、有私心、会痛苦。“我突然意识到可能谈恋爱不需要做那么多的准备,我也不需要等待一个特别完美的人出现。”春眠说。而爱好画画的小徐也更加坚定了“没有情绪”的 AI 既不可能是比人类更好的朋友,也不可能是比人类更好的艺术家的想法。“对人类来说困难的事情,对 AI 来说是简单的,就像围棋。”Ryne说。“但对人类来说简单的事情,比如情绪波动,产生共情,对 AI 来说却是困难的。机器人能表现得更像人,而不是机器吗?我觉得目前 ChatGPT 距离那个标准还很遥远。”

好了,关于「AI扮演人类」的第一次公开实验,我们不知道算不算失败就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章