阿里最新研究：当ChatGPT 遇上推荐系统，遭遇滑铁卢

在GPT-4统治自然语言处理（NLP）领域和SAM零样本分割技术使计算机视觉（CV）变得更加高效的背景下，我们不禁思考，推荐系统这一相对平静的技术领域是否也正在承受着来自大型模型的巨大压力。

尽管ChatGPT的训练过程似乎并未特别针对推荐系统，但从当前ChatGPT与各类应用的趋势来看，它进入推荐系统的领域似乎只是时间问题。

好消息与研究发现

根据阿里团队对ChatGPT在推荐系统应用方面的细致评估，推荐算法工程师的前景并不悲观！尽管ChatGPT在许多任务中表现平平，其强大的泛化能力在推荐系统中尚未展现显著效果。然而，当采用真人评估而非传统评价方法时，研究发现ChatGPT能够更好地理解提供的信息，并生成更清晰、合理的推荐结果，这在未进行专门训练的情况下依然显得可喜。

这表明，虽然ChatGPT目前还未能像在NLP领域那样颠覆现有研究框架，但在推荐系统中，未来潜力仍然值得期待。接下来，让我们一同探讨这篇研究的内容。

论文概述

论文题目为《ChatGPT是否是一个好的推荐器？初步研究》，并可通过以下链接获取详细信息：
论文链接

工作流程与Prompt设计

研究将ChatGPT作为一个“黑盒”推荐器，利用不同的Prompt针对各种推荐任务，设计了一系列任务描述、行为注入和格式指示。为了确保输出结果的稳定性，还特别设计了输出精炼模块，以便进行格式检查。

具体而言，研究围绕五种经典推荐任务设计了zero-shot与few-shot的Prompt，包括：

评分预测
序列推荐
直接推荐
解释生成
评论摘要

性能评测

该研究通过在亚马逊的真实数据集Beauty上进行广泛实验，旨在回答以下几个问题：

ChatGPT的表现如何与现有推荐模型比较？
使用few-shot方法对ChatGPT的影响如何？
人类如何评价ChatGPT的推荐能力？

评分预测

在评分预测方面，研究通过RMSE（均方根误差）和MAE（平均绝对误差）进行评估，发现ChatGPT在few-shot条件下的表现明显优于传统方法。

序列推荐

在序列推荐任务中，使用HR@k（Hit Ratio）和NDCG@k（Normalized Discounted Cumulative Gain）进行评估。研究表明，虽然zero-shot下ChatGPT的表现不如传统模型，使用few-shot后仍显得不足。但值得注意的是，候选池中项目的顺序对ChatGPT的表现影响极大。

解释生成与评论摘要

对于生成类任务，研究采用BLEU和ROUGE指标评估ChatGPT的解释生成和评论摘要能力。尽管在传统指标下P5仍表现更佳，但人类评估显示，ChatGPT生成的解释和摘要更为清晰合理。

结论与展望

这篇论文指出，ChatGPT在推荐任务中的应用仍面临一些限制，例如输入字符的局限性和对项目顺序的偏倚。然而，其强大的归纳统计算力则展示了未来的潜力。

可以说，ChatGPT的出现促使我们重新审视所处行业的工作与技术定义。尽管关于AI是否会取代人类工作的讨论不断，但目前的ChatGPT仍然只是一个学习的“孩子”。我们无需过于担忧未来GPT-78910对生活的影响，反而应思考如何有效利用这些强大模型为我们的工作增添价值。