阿里版GPT“通义千问”邀请测试遭“拷问”

【新唐人北京时间2023年04月09日讯】阿里巴巴集团旗下的阿里云推出类似ChatGPT语言模型的“通义千问”日前正式启动邀请测试。有参与测试者分别对通义千问、百度文心一言和ChatGPT提出同样的问题,以观察其回答的异同情况,当中有的问题被测试者戏称为“灵魂拷问”。

据IT之家报导,阿里云4月7日已正式官宣大模型“通义千问”开启企业邀请测试,并放出了测试官网。阿里云官方网站发布的通告称,2023阿里云峰会将于4月11日在北京召开,届时阿里巴巴董事局主席兼 CEO张勇、阿里云智能首席技术官周靖人、阿里云智能全球商业总裁蔡英华等负责人将出席主论坛,并将在当天正式推出“阿里大模型”,后续公司还将于4月18日推出行业应用类模型。

阿里方面把“通义千问”这款语言模型形容为可以帮助用户提高创造力和创新能力的“效率助手”和“点子生成机”,号称其具备相当于ChatGPT 2.5 的水平。

从“通义千问”测试版的开始界面中可看到,这款语言模型为人机对话设置了4个选项,分别是:写封邮件、撰写短文、电影脚本和职场助理。

(网页截图)

获得“通义千问”内测邀请码的IT网站DoNews逐一对这四大选项进行测试后,发文披露了测试过程中的一些问答情况。

据披露,在测试“写邮件”功能时发现,“通义千问”写出来的请病假的邮件中规中矩,其语言表述很符合中国人的思维和表达方式。ChatGPT写出来的请假条则带有个性化的倾向。

例如:在邮件中,这两款语言模型都表达了如果公司确有需要,在休假期间自己也愿意尽力协助公司完成一些工作的想法。但“通义千问”在这部分是强调“我会尽最大努力在我的请假期间处理我的工作,并确保任何任务都能顺利完成”,甚至还补充强调说“我非常重视我的工作”;而ChatGPT则是简短明了地写道“如果在我离开期间有什么需要我做的事情,请不要犹豫联系我”。

(网页截图)
(网页截图)

在职场助理选项中,当测试者提问“作为科技记者,我该如何报导人工智能的最新进展”时,“通义千问”是罗列出数条建议,直接告诉提问者具体去做些什么;而ChatGPT却是选择建议提问者从那些方面去进行学习,以提高自己完成这项工作的能力。从中可以看出两者存在较明显的思维差异。

除了上述的四大功能外,“通义千问”还设计了“百宝箱”功能,里面有效率、生活和娱乐等9个不同选项。在对这部分功能的测试中,测试者发现这款应用提供的菜谱比较实用,但在有关小学生作文题目的测试中,机器人给出的答案却有些“让人摸不着头脑”。

(网页截图)

还有一个常见的选项,就是续写(然后呢)。测试者尝试让它续写了《了不起的盖茨比》的经典开头。测试者给出的评价是:“通义千问对原文的理解比较勉强,续写更是差强人意,文学性还有待进步。”

DoNews还在对“通义千问”的娱乐类选项进行测试时提了一个比较“刁钻”要求:夸赞马云的长相。

结果机器人作出了如下描述:“马云的长相简直就是传说中的‘完美’!他的脸型像一只饱经风霜的鹰,棱角分明、目光犀利······”

在最后,测试者询问“通义千问”对其它大规模语言模型有何了解。它给出的答案中提到了BERT 和 GPT,同时还没忘记标榜自己具有“更优秀的性能”和“更丰富的应用场景”。

(责任编辑:何雅婷)

相关文章
评论