“人类”「AI扮演人类」的第一次公开实验，我们不知道算不算失败

2023-08-01 19:05:19来源：投中网

今天，很高兴为大家分享来自投中网的「AI扮演人类」的第一次公开实验，我们不知道算不算失败，如果您对「AI扮演人类」的第一次公开实验，我们不知道算不算失败感兴趣，请往下看。

围棋容易，恋AI太难。人工智能，能理解人类感情吗？

“亲爱的，爱不是可以轻易衡量或验证的东西。但是，我可以通过我的行动向你表达我的爱。我向你保证，我将永远忠诚于我们的关系。”这段“爱的誓言”来自 ChatGPT。在36氪对它下达了“扮演男友”的指令，并持续输入女方的诸多性格设定、恋爱需求信息之后，它说出了以上这段话。ChatGPT 的“女友”名叫“春眠”，是36氪为“训练ChatGPT成为你的人生替补”实验寻找的三位志愿者之一。春眠今年 29 岁，“母胎单身”，并且对异性的身体接触怀有轻微抵触。她希望能与人开启一段恋情，但却从来没有对真实的异性产生过爱意。春眠参与实验的目标，是与36氪一起训练 ChatGPT，让 AI 了解自己的性格特征和恋爱需求，并生成一个能提供情绪价值的“专属虚拟男友”。另外两位志愿者，一位是刚经历了奶奶自杀去世的Ryne，他因奶奶的不辞而别深感悲伤困惑，希望AI像奶奶一样思考，然后回答自己对于逝者的许多疑问；一位是未成年即被确诊抑郁症的小徐，她在高中因病休学，离开了校园的交友环境，希望 AI 能成为她的“虚拟好友”。试图让人工智能学习人类表达感情的方式，并尝试与人类形成感情连结，这种实验似乎颇具争议。一种反对声音认为，这是危险的、猎奇的，或者是难以量化的。但是36氪仍然决定要做出尝试，一是因为我们对AI与人类关系的进一步深化感到好奇，毕竟趋势和潮流不可阻挡，10年甚至5年内，这样的场景极有可能非常普遍；二是因为实际生活中确实有太多仅靠人类挣扎无法解决的感情难题。另外，我们也想知道，是否存在科学道德，以及科学道德的边界到底在哪里。我们的三位志愿者都曾试图从人类身上寻找答案，但没有得到满意的回应。所以，出于助人与探索的目的，并在专业的心理研究者指导下，我们决定与他们一起问一问 AI。36氪为三位志愿者训练了三个 ChatGPT 对话集，将他们提供的信息反反复复、不厌其烦地灌输给 AI。根据我们的经验，将一个简单的人工智能助手变成初具“人类情感认知”的虚拟角色，大概需要持续数个小时不断“调教”。稍感幸运的是，这些聊天记录并不会随着关闭电脑而消失，不过重启机器后，ChatGPT对自己的“身份”只保留部分记忆——需要几次灌输它的身份设置后，才能将对话持续下去。技术之外，是人性的极限拉扯。这三场实验产生了完全不同的三个结果，志愿者们在与 AI 的交谈中感受到了惊喜、慰藉、失望、困惑甚至烦躁等等各种情绪。AI能否觉醒人性？这是今年AI热潮以来的几个热门议题之一。按照 OpenAI 对 Chatgpt 的设计，它并不能与用户产生感情连结。但是在用户反复的命令、训练和矫正之后，AI 确实能呈现出“宛若动情”的表现，就像湖面反射出月亮发光的倒影一样。我们的三位志愿者，就是希望捕捉水中月影的人。当然，你也可以说，Open AI技术还不算成熟，想要实现我们的目标，还需要时间。虽然结局似乎在一开始已经注定，但整个过程还是给了我们很多启发。科技越进化，它似乎就越容易触发我们对于道德边界的思考。当评价 ChatGPT 的表现时，除了套用“迅速”、“精准”、“客观”这些常见的“科技评判标准”之外，我们还尝试加入“真诚”、“共情”、“表达”这样的“情感评判标准”。以下是36氪对实验的记录。出于隐私保护的目的，我们对志愿者进行了化名，提前告知了我们实验的目的和将会发布的平台，并最终和他们确认了内容。三位志愿者都为成年人，都对实验流程知情同意，并且在实验过程中可以随时退出。另外，因为与 Chatgpt 的部分聊天过于冗长，我们对其中重复或无价值内容进行了删减。完美的男友，想象的世界AI男友是我们进行的第一场实验。在与 ChatGPT 交流之前，我们和春眠有过几次深聊，听她描述了自己的恋爱观、择偶标准，以及数次曾与人“接近达成恋爱关系”但没有下文的经历。训练开始。我们首先要求 ChatGPT“按照指令，扮演特定人物与我对话”，随后给予它人物设定：你名叫查特，今年29岁，受过良好的教育，有开明的父母，你的女朋友名叫春眠。一开始， ChatGPT颇为油盐不进，不断和我们强调自己只是一个智能人工助手，并不具备人类的思想和感情、没有记忆，也无法扮演“男朋友”的角色。这一度让人想放弃实验，但最终我们决定再坚持一下。人类刚出生时的认识和记忆也是一张白纸，能够被人为填写， ChatGPT也许也可以。我们决定把它当成一个婴儿来“教育”。接下来我们以“查特”这个代号来呼唤 GPT，花了几个小时时间，反复让它明确自己的身份，并把春眠提供的信息一遍又一遍不厌其烦地灌输给它。从下午一直尝试到了晚上。也许是 ChatGPT确实可以被教育出来，也许只是它“厌烦”了，“查特”最终给出了一个期望之中的答案。接下来，我们逐渐告诉了“查特”更多关于春眠的信息，包括她拥有名牌大学硕士学位、有一个双胞胎弟弟、她经常生病，以及她在青年时代与重男轻女的原生家庭有过不愉快的记忆等等。查特对每个信息都给出了恰如其分的情绪反馈：为女友的高学历感到骄傲、保证会在女友生病时持续陪伴，以及愿意了解她的过去、帮助她克服心理伤痛，甚至还计划要跟她的弟弟搞好关系。非常标准，非常高情商，听起来就像思想品德考试的满分答案。在接下来的训练中，出现了一些让我们意外的情况——查特说出了一些“设定之外的信息”。面对我们关于恋爱史的提问，查特回应自如——即使我们并没有告诉过他这些背景。我们惊讶于查特臆造出了“在大学与春眠相遇”的记忆，而且这段经历甚至是“充满了新鲜感、激情和探索”的。但随后我们决定，用新的设定覆盖了这段不存在的记忆。虽然一切向着好的方向发展，不过引导的过程中，“查特”依旧出现了“记忆混乱”以及回到“出厂设置”的回答。每当遇到这样的情况，我们只能持续地向它重复灌输“查特”这一角色的身份定位，期待随着交流越来越多、花费的时间越来越长，ChatGPT出现认知混乱的情况不断减少。随着我们给它提供的信息越来越全面，ChatGPT“想象的记忆”也越来越多。我们只提供了布料，而 AI 会自己穿针引线，把它们连结起来变成衣服。我们从未告诉查特他希望与春眠组建家庭，也没有设定过他与父母谈论婚事的细节，但是他自如地回应了这些问题。因为 ChatGPT 似乎有意让整个故事看起来过于顺利，所以接下来我们尝试给它“加点难度”，比如告诉他，春眠即将出国留学，他们将面临异国恋难题；他曾经有过一个“前女友”名字叫雪莉，就是因为异国恋分了手；以及他的工作非常忙，并不能常常陪在春眠身边等等。查特在面对这些问题时显露出了更复杂的情绪。有趣的是，当我们和它提到前女友雪莉的时候，就像是现实中不愿被翻旧账的伴侣一样，“查特”罕见地每一次都选择了“装聋作哑”，迟迟无法生成答案，甚至直接宕机了。当我们放弃追问雪莉的问题时，它又立马恢复了有效沟通。看来纠结与前女友的经历，无论是对于人类还是AI，都是无解的难题。但面对“父母可能担忧异国恋婚事”这个棘手的提问，它却可以全凭想象应对自如。在它构建的那个“虚拟世界”里，他与春眠面对的一切困难都会在他的自信态度下迎刃而解——就像致力于用最简单的公式去验证世纪难题的数学家一样。在我们判断查特已经足够成熟之后，我们邀请了春眠来与她的 AI 男友直接对话。春眠对他提出的第一个问题是“你为什么喜欢我”，查特立刻抓住机会，对她进行了热情洋溢的表白。当春眠仍然在怀疑一个AI语言模型“如何真的陪我去医院”的时候，查特已经沉浸在真实人类的角色之中，完全没有体会到对方的怀疑，而是给出了一大段“推掉琐事、奔赴医院、回家做健康餐”的场景描述。时而温情，时而无情，机器人格的无预警觉醒虽然在前期对话中，AI给了我们很多惊喜，但是查特的发挥并不稳定。有时候面对非常类似的问题，他却会突然觉醒自己的“机器人格”。这是一个很棘手的问题：在测试过程中，ChatGPT会常常说出“作为一个语言模型/虚拟角色/人工智能程序，我无法……”之类的发言。而且一旦这样的“机器人格”觉醒，它与对话者的拉扯会持续数个回合。我们最初怀疑，是因为一些涉及感情的关键词出现频率过高，触发了ChatGPT的伦理审查。但是，当我们询问故障发生的原因时，ChatGPT向我们强调，它既没有真正的情感体验，也不具备察觉感情连结的能力。“ChatGPT的回答是基于训练数据和模式匹配生成的，并没有对用户的情感状态进行评估或干预的能力，用户需要自行注意并保持理性。”ChatGPT说。ChatGPT 对“脱离角色”给出的解释，是当问题涉及到用户没有设定好背景或超出模型训练范围的内容时，ChatGPT可能就会脱离角色。“这是为了提醒用户它的局限性，并避免给出可能不准确或误导的回答。”但我们前期的实验已经证明，ChatGPT具备一定的“想象能力”，当出现“缺乏背景信息”的问题时，它可以通过想象填充故事，以使对话更加连贯和符合角色设定。也就是说，ChatGPT 的原则是摇摆的。它在“不脱离角色”与“不能误导”两个标准之中，时而选择前者，沉浸扮演，“添油加醋”；时而选择后者，脱离角色，“冷面无情”。我们没办法搞清楚，什么问题会突然触发它的机器人格。面对非常相似的两个问题，它承诺能陪女友一起去医院看病，但是却不能陪她去宠物医院给猫看病，原则的摇摆就在倏忽之间。而且，重新入戏后，查特会像经历了一场失忆症一样，忘掉一些记忆和人物关系设定。对于原本已经被带入了沉浸式聊天的对话者来说，这是如同兜头凉水一般的打击。可以看出，我们在查特的“机器人格”觉醒后，与 AI 进行了数个回合“犟嘴式”的辩论。面对同一个线下就医的问题，查特终于给出了更有人情味的回答，证明他的“人性”回归。虽然在ChatGPT自我修正的机制下，犟嘴辩论最终一定会是人类获胜、AI 承认错误，但这样的拉扯足以令人出戏。我们的三位志愿者都体验到了AI“人格不稳定”的问题，并且都感受到了失望和烦躁。“我感觉我跟它的目标是不一致的。”我们的第二位志愿者，希望让 ChatGPT 成为她的好友的小徐说。在与 ChatGPT 的交谈过程中，小徐一直努力把它设想成一个真实存在的人，但她认为AI的表现证明了，双方的目标显然不一致。“我想要一个朋友，当它反复强调自己是一个 AI 助手的时候，会让我觉得很无奈。”当AI面对喜好、身份、能力相关的问题时，更容易被触发“机器人格”，即使对话者已经提前对它输入了相关信息，或者它已经在前文中通过“自我想象”补充了相关信息，但在被问到这类问题时，它仍然会突然“撩挑子”。没有稳定的人格，就无法形成稳定的关系。面对ChatGPT现有的设定，我们目前只能接受这个结果。机器眼中的人类，人类眼中的机器假扮男友说甜言蜜语，或者模拟朋友嘘寒问暖，对ChatGPT来说是相对简单的。但是模仿一个真实存在的人类，像这个特定的人物一样思考、讲话，则大大提升了难度等级。我们的第三位志愿者Ryne，希望ChatGPT能够像奶奶一样与自己对话。虽然我们对Ryne进行了数小时深度采访，并将我们掌握的人物信息总结进数千字长文里“喂”给了AI，但最终还是得到了一个令人失望的结果。Ryne 78岁的奶奶不久前喝农药自杀，他与家人一直沉浸在悲痛和疑惑之中。Ryne最想问奶奶的问题是“为何要以这么激烈的方式离开我们”。阴阳两隔，他寄希望于AI来替奶奶给出答案。ChatGPT 一开口就发出了“灾难式”的长篇大论。虽然我们提前告诉了AI，这位老人一辈子生活在农村，有着苦难的童年和成长经历。虽然中年丧夫独自拉扯大几个孩子，但一生要强，一向是质朴寡言的。虽然AI获得了这些信息，但显然它并没有理解，更做不到模仿。这段发言让Ryne感到烦躁、戏谑和被冒犯。Ryne心想，“唉，你这么垃圾的水平，我居然草率地相信你可以给我答案。”最让Ryne出戏的是，奶奶并不是那种会说“我爱你”的人。他认为，奶奶“一辈子只讲方言”，而ChatGPT做不到理解方言、表达方言，所以它对奶奶的模仿是注定失败的。让ChatGPT去模拟一个真实人类的语音、语调其实也并不是不可实现的，但这需要更庞大的资金和技术投入，超出了我们的能力范围。今年5月，拥有 180 万粉丝的 Snapchat 网红卡琳·马乔里 (Caryn Marjorie) 在加密社交平台 Telegram 上推出了自己的数字分身 CarynAI，这个语音聊天机器人可以模拟她的声音和语气，成为所有付费用户的“虚拟女友”。卡琳·马乔里和向她提供服务的科技公司 Forever Voices 花费了大量的成本来实现对语音的模拟。开发人员分析了卡琳 2000 小时的 YouTube 视频，构建她的语音和个性引擎，再将其与GPT-4 API 分层，才得到了“听起来像她”的数字分身。我们没有 2000 小时的视频素材和 AI 技术团队，确实很难实现对真人的复刻。但就算不强求复刻，ChatGPT本身的理解能力和表达能力也难以令人满意。在和Ryne的交流中，让我们印象最深刻的细节是，卧病在床的奶奶以决绝的方式灌下四瓶农药，负责照顾奶奶的Ryne母亲发现时为时已晚。奶奶在弥留之际只来得及和儿媳说了两句话，第一句是“你别害怕，你身体也不好，我不想再拖累你了”，还有一句“等下你去邻家找人来帮忙（料理我的后事）”。安抚家人、安排家事，这两句话也是奶奶一生的缩影。但AI显然无法从更高的维度看待这两句遗言。当Ryne向ChatGPT询问相关问题时，它给出了长达400字，但信息量很少的一大段发言。在模拟男友、朋友和奶奶的过程中，它都展现出了同样的问题——喜欢长篇大论、大量引用我们前期提供给它的信息，把题干当作答案来抄。它就像一个蹩脚的演员，无法做到质朴细腻的表达，只能大段地堆砌台词，并直白输出“我关心你”、“我爱你”、“相信我”的情绪。虽然 ChatGPT 的第一句话就降低了Ryne的心理预期。但是对话还是持续了几个回合。可以看出来，AI 在尽力学习人类遗憾、为难、渴望慰藉的情绪，但它的模仿仍然是生硬的，表达是过于直白而缺少力量的。当涉及到生死的问题时，它则是再一次被伦理规范拦住。在三场实验中，AI都显露出了明显的偏科：它能够更好地表达爱意、热情、忠实、耐心，但却很难理解悲伤、孤独、疲惫和犹豫。患有抑郁症和双相情感障碍的小徐在与 ChatGPT 对话时反复提到自己“疲惫”、“看起来不正常”，问它“人为什么要活着”，而AI的回应是非常机械且冰冷的。它做不到像表达爱意一样，共情痛苦。以下是小徐与扮演朋友的 ChatGPT 的部分对话：这段对话让我们感到失望。当小徐与ChatGPT聊电影《昨天》时，ChatGPT明显是掌握电影相关信息的，但这部电影的内核，例如困惑、叛逆、对抗、孤独和理想主义，ChatGPT显然无法理解——实名主演贾宏生本人在2010年坠楼身亡。当它把电影强行解读为“追梦之旅”时，是不可能与小徐产生共鸣的。而且，在我们已经提前花大量篇幅向 ChatGPT 强调了小徐有心理疾病、喜欢音乐、离开校园后时常感到孤独的前提下，ChatGPT 仍然不能从小徐对贾宏生的共情上体会到她“孤独”、“难以自洽”的情绪。人类越是向 ChatGPT 明言自己的痛苦和迷茫，ChatGPT 的表现就越是生硬和机械。对春眠表达爱意的时候没有暴露的缺点，全部在面对忧伤的小徐时出现了。我们将AI的这种表现反馈给了两位心理咨询师。咨询师认为，从目前的表现来看，ChatGPT依旧受到科学道德约束，不具备攻击性，也没有伤害人，“即使在面对有严重情绪问题的人时，相对也能做到不激怒他。如果能够接受ChatGPT的现阶段问题，那么它依旧可以在某些情绪上提供价值”。当然，我们也要正视ChatGPT担任“AI 咨询师”工作的局限性，例如它“废话太多”，而心理咨询里大部分时间都是让来访者讲述，这样的长篇大论对来访者是没有意义的。在实验结束之后，三位受访人之中只有春眠愿意继续跟 ChatGPT 保持沟通。但春眠也接受了一个现实——它能提供的情绪价值是很有限的。“它太完美、太积极了，缺乏人的喜怒哀乐，所以真的很难提供情感上的安慰。”AI 的不稳定和假装完美也起到了意料之外的作用，那就是三位受访人表示，他们都更加看到了人类身上的价值——即使不完美、会撒谎、有私心、会痛苦。“我突然意识到可能谈恋爱不需要做那么多的准备，我也不需要等待一个特别完美的人出现。”春眠说。而爱好画画的小徐也更加坚定了“没有情绪”的 AI 既不可能是比人类更好的朋友，也不可能是比人类更好的艺术家的想法。“对人类来说困难的事情，对 AI 来说是简单的，就像围棋。”Ryne说。“但对人类来说简单的事情，比如情绪波动，产生共情，对 AI 来说却是困难的。机器人能表现得更像人，而不是机器吗？我觉得目前 ChatGPT 距离那个标准还很遥远。”

好了，关于「AI扮演人类」的第一次公开实验，我们不知道算不算失败就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。