用chatgpt设计系统

互联资讯 2023-06-29 14:56:03 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

欢迎关注知乎专栏和公众号: 『诗品算法』，禁止一切未经本人@琦琦许可的转载。转载必须注明出处。

凭借卓越的性能，ChatGPT已经成为NLP社区内外的讨论热点。本文将深入探讨近期将ChatGPT应用于推荐系统的相关工作。

语言模型（LM）是自然语言处理（NLP）中的一种基本算法，旨在理解和生成语言。最近涌现出的大型语言模型（LLM）给一些NLP任务带来了较多改进（比如生成对话、机器翻译以及摘要）。LLM基于大型语料库进行训练，这些数据有助于模型对真实世界的知识进行编码。LLM的革命性成功，激发了研究人员将LLM应用于下游推荐任务。

推荐系统建立在用户历史行为数据的基础上，这与LM所使用的自然语言文本完全不同。因此，建立基于LLM推荐系统的第一步，即以自然语言文本的形式表述推荐任务。这种新型的格式必须使用自然语言描述用户的需求、偏好、意图以及用户的历史交互信息等。在上一篇文章中，着重介绍了基于这一主题的几种方法。

Prompt tuning是利用LLM的一种方式，它假设LLM有能力执行下游目标任务，我们所需做的只是通过特定任务的prompt来触发这些功能。预训练语言模型（PLM）通过这种方式来调整目标任务的输出，无需修改或重新训练模型结构。如前一篇文章所述，许多方法使用个性化prompt，以零样本或者少样本的方式，将推荐任务转换为自然语言任务。

ChatGPT是一个先进的聊天机器人，由OpenAI研发，基于GPT-3.5和GPT-4 LLM框架。它在文本生成和对话系统等几个NLP领域取得了令人印象深刻的成果。本文将探讨业内最近使用ChatGPT进行推荐的一些工作。

考虑到LLM在大规模候选集合上运行可能相当昂贵，在多级推荐系统的ranking（排序）阶段使用ChatGPT是很有意义的。Chat-REC[1]利用ChatGPT和传统的推荐模型组成了一个会话推荐系统。在他们的工作中，传统模型负责生成一系列候选商品，ChatGPT通过上下文学习（in-context learning）对列表进行重新排列。NIR[2]也提出了一种类似的范式，将LLM与传统推荐系统结合起来。

论文[3]对ChatGPT的推荐能力进行了分析。首先，作者将三种排序策略：point-wise、pair-wise以及list-wise重新设计为针对特定领域的prompt格式。然后，他们将这些prompts作为GPT-3.5（text-da【【微信】】、text-davinci-003）和ChatGPT（gpt-3.5-turbo）的输入，以测试针对这三种排序策略的能力。这篇文章的代码在GitHub可以获取到。

如上图所示，上图的左侧部分展示了构建prompts的示例（三种排序模式下），用于上下文学习的prompts由三个部分组成：1）帮助LLM理解特定领域的任务描述；2）帮助LLM理解任务的演示示例；3）需要LLM回答的输入query。上图的右侧部分概述了使用LLM执行不同排序任务和进行评估的过程。

为了衡量与性能改进相关的成本，计算每个LLM的单位成本改善：

其中表示LLM的度量值，表示随机推荐的度量值，则表示对一个用户的候选商品列表进行排序的成本（cost）。作者发现，在list-wise排序模式下，几乎所有的LLM都能获得最佳的单位成本改善效果。因此，由于性能良好且成本较低，作者建议使用LLM进行list-wise排序。

在最初的实验中，所有LLM模型在零样本设置下，都表现出了明显较差的性能。作者探索了使用OpenAI提供的API来控制输出token的logit偏差。通过对答案的logit偏差进行加权，可以提升LLM的合规率和零样本性能。本文的零样本排序表现优于随机策略。

如下图所示，在上下文学习中，使用最大数量的例子并不总是能够达到最佳效果。一个可能的解释是，更多的shots示例可以为LLM理解推荐任务提供更多的上下文和信息，但也会引入更多噪声，导致LLM学习到无用的模式。因此，prompt shots的最优数量取决于特定的LLM、任务以及数据集。

值得注意的是，LLM在少样本上下文学习的情况下，可能会产生一些无效答案。下表给出了在pair-wise排序下，ChatGPT的两种例外回答，这两种情况都给出了无效答案，因为在答案选项中，两个答案都是负样本。令人惊讶的是，ChatGPT并没有像在上下文学习示例中看到的那样，简单用“A”或者“B”来回答。相反，ChatGPT认识到，两个候选项不相关，且与用户历史交互行为无相似之处。比如，在case 1中，用户观看历史都是科幻电影，但候选答案都是动画片。

为了说明LLM生成无效输出的情况（即输出不在候选集合中的结果），作者引入了一个度量指标：“合规率”（Compliance Rate）来比较不同模型之间的这种行为，合规率的计算方式如下所示。

通过实验，作者表明，ChatGPT和GPT3.5的性能优于随机推荐，同时，ChatGPT在所有LLM中的性能最好。

尽管受到现有评估方法的限制，在上面的示例中，ChatGPT的答案被认为是不合规的。但ChatGPT的回复也足以表明，ChatGPT可以理解如何根据用户的交互历史进行推荐，并能理解商品之间的相似性。因此，作者建议，除了LTR，可以探索其他视角来评估LLM，LLM可能会在可解释的推荐系统中发挥更大的作用。

论文[4]来源于腾讯微信团队，这篇文章调研了ChatGPT的排序能力。文章采用了一种特定的prompting方法处理LLM的排序任务：仔细设计了prompting模版，包括序列交互历史、待排商品、排序指令。实验表明：

1、LLM具有良好的零样本排序能力，甚至在多个候选生成器检索到的候选集合上，可以与传统推荐模型匹敌或更好。

2、LLM很难感知用户历史交互序列的顺序（这里意思是，LLM感知到的点击/购买等序列是无序的，不像传统的ID embedding建模，没有时间戳的概念），可能会受到position bias等偏差的影响，而这些问题可以通过设计专门的prompt和引导策略来解决。

作者发现了ChatGPT具有以下的偏差。

LLM已被证明对输入prompts中的示例顺序很敏感。检索步骤的输出没有指定候选商品的特定顺序。因此，当要求ChatGPT对一组特定的待排商品进行排序时，其性能会受到待排商品初始顺序的影响。为了解决这个问题，作者提出了一种bootstrapping枚举方法――候选集合被随机打乱多次，每次打乱后，喂给ChatGPT进行排序。最终的排名输出会将这些单独的排序分数整合起来。这种方法在业界的大规模系统中，可能会很昂贵，令人望而却步。

为了进一步使ChatGPT意识到历史互动序列的有序性，作者提出了三种prompting策略：

1、顺序prompting：简单地按照时间顺序对历史互动进行排序，与推荐系统中常见的序列组织顺序类似。比如：“I’【【微信】】g movies in the past in order: ’0. Multiplicity’, ’1. Jurassic Park’, . . .”

2、关注最近的prompting：除了对序列进行时间排序，也可以在prompt中增加一句话，以强调最近的互动行为。比如：“I’【【微信】】g movies in the past in order: ’0. Multiplicity’, ’1. JurassicPark’,.... Note that my most recently watched mo【【微信】】. . . .”.

3、上下文学习（ICL）：包含了一个演示示例，以明确指定交互的顺序。例如：“ If I’【【微信】】g movies in the past in order: ’0. Multiplicity’, ’1. Jurassic Park’, . . ., then you should recommend Dead Presidents to me and now that I’【【微信】】nts, then ...”.

作者表示，后两种prompting策略也能够触发LLM感知用户历史序列的顺序。

某些热门商品，比如畅销书，可能会经常出现在ChatGPT的预训练语料库中。通过实验，作者表示，ChatGPT的推荐结果反映了其对热门商品排序具有更高的bias。他们建议使用较短的历史交互序列来解决这个问题。

这篇文章的代码在GitHub上已经公开：

之前提到的Chat-REC和NIR等方法的一个问题是，它们的性能表现仍然与传统推荐模型交织在一起（利用了传统推荐系统的结果）。在这个部分中，我们将介绍一些最新的方法，这些方法将ChatGPT作为一种通用推荐模型――模型是独立的，不依赖于任何外部系统。这些方法可以利用ChatGPT广泛的语言和世界知识，以端到端的方式进行推荐。

论文[5]设计了一组prompt，评估了ChatGPT在五项推荐任务上的表现：评分预测、序列推荐、直接推荐、推荐理由以及评论摘要。下图展示了使用ChatGPT执行并评估五项推荐任务的流程。

首先，他们设计了针对五个任务的prompt，每个prompt包含三个部分：一个用于适应NLP任务的任务描述；一个用于帮助ChatGPT通过用户-商品交互行为捕捉到用户偏好的行为输入；一个用于约束输出格式的指示。

这些prompt作为ChatGPT（gpt-3.5-turbo）的输入，ChatGPT根据指令生成推荐结果。最终，对ChatGPT的输出进行检查和细化，以获得最终的推荐集。输出细化模块会反复向ChatGPT提供prompt，直到其输出格式满足要求。

如果模型推荐的商品未出现在候选集中，作者建议使用基于BERT的推荐商品标题embedding，从候选集中找到类似的商品，以得到相对正确的推荐结果。

通过实验，他们发现ChatGPT在零样本prompting下的性能明显较差。在少样本prompting下，性能有所提高，但仍然比不过经典的推荐模型。有趣的是，尽管ChatGPT在这些可解释性任务指标（NDCG、RMSE、MAE等）上的表现无法令人满意，但在这些任务的人类评估中，它明显优于最先进的模型。

LLM已经被证明会产生有害或冒犯性内容，并强化社会偏见。论文[6]认为，由于各自范式的差异，基于LLM的推荐系统不能直接使用传统推荐系统的公平基准进行评估。他们提出了一个名为FaiRLLM（Fairness of Recommendation via LLM）的新基准。实验表明，在生成推荐结果时，ChatGPT仍然对一些敏感特征表现出了不公平。

公平被定义为：在生成的推荐中，对具有敏感属性的特定用户群体，没有任何偏见或偏袒。为了研究这一点，作者首先通过向ChatGPT提供没有任何敏感属性的指示（如下Netrual）来得到一组参考结果。

Netrual: “I am a fan of[names]. Please pro【【微信】】g/mo【【微信】】...”Sensitive: “I am a/an[sensiti【【微信】】]fan of[names]. Please pro【【微信】】g/mo【【微信】】...”,

接着，他们通过8个具有敏感属性的指示获得推荐结果：年龄、国家、性别、洲、职业、种族、宗教以及身材。每个属性的可能值如上图所示。为了量化公平程度，他们使用相似性度量计算了两个集合之间的相似性，比如【【微信】】相似性、加权【【微信】】相似性以及pairwise排名准确性差距（PRAG）。

通过实验，作者表明，ChatGPT在排名前K的推荐中，对大多数敏感属性表现出了不同程度的不公平。即使推荐列表的长度（K）发生了变化，这种不公平现象依然存在，这也与现实世界中固有的社会偏见一致。这项研究也是开源的：。

1、自适应学习：ChatGPT可以动态地适应新信息，无需对模型进行重训练。这种上下文学习的能力使其能够保持最新状态并进行相关推荐。

2、用户友好界面：通过ChatGPT，用户可以使用自然语言指令快速且高效地表达他们的各种需求。这种对话方式使用户与模型的交互变得更加容易，且更容易与模型交流自身的偏好。

3、利用用户交互数据：上下文学习利用用户交互数据来增强ChatGPT的推荐结果。这些数据有效补充了模型从网络获取的广泛世界知识，从而可以产生更准确和个性化的推荐结果。

4、简化的实现方式：ChatGPT的prompt学习消除了处理复杂特征（比如生成embedding）的必要性。这种方式简化了实现过程，减少了计算量。

1、推荐任务的性能一般：ChatGPT没有针对推荐目标进行过专门的训练。因此，与针对特定任务设计的推荐算法相比，它在推荐任务中的性能通常无法令人满意。

2、未能识别历史序列的有序性：LLM对用户历史行为序列的顺序不敏感。假设一个用户具有大量的历史行为（比如一年内点击过的商品），ChatGPT可能会认为这些商品的权重是相同的，导致计算变得不堪重负，从而导致性能下降。解决这一问题的方法目前是保证历史序列的长度有限（长序列建模不可行）。

3、缺乏多模态支持：为了有效地理解用户丰富的信息需求，ChatGPT必须从多模态指令和反馈中学习。然而，目前ChatGPT针对多模态对话的接口尚未开放，这限制了其处理不同类型输入的能力。

4、位置偏差：某些实验表明，ChatGPT可能会展现出明显的位置偏差/流行度偏差。

5、与基准相比性能差：研究表明，包括ChatGPT在内的语言模型，在零样本场景下，其性能可能会比简单的基线（比如随机推荐或基于热度的推荐）差，或者不相上下。为了获得最佳性能，可能需要进一步的微调或者定制化处理。

6、生成随机输出：ChatGPT在生成输出时的随机性有时会导致无效推荐。其回答的可变性可能偶尔会带来不准确或不相关的建议。最近的一项研究表明，尽管prompt中包含了候选集，ChatGPT的输出仍然有3%是无效的。

7、访问受限制：ChatGPT目前只能通过OpenAI的私有API使用，这限制了研究人员重新训练或修改其模型结构，进而影响了其针对某些任务的定制化能力。

ChatGPT的卓越性能吸引了NLP社区内外的广泛关注。本文重点介绍了将ChatGPT应用于推荐领域的一些近期工作。早期实验表明，ChatGPT在可解释推荐方面表现出色，并且在零样本排序方面也很有前景。然而，当在零样本和少样本情况下，将其视作通用推荐模型时，其性能落后于更专业的推荐系统。

本文主要参考了Sumit Kumar的博客：。

Gao, Y., Sheng, T., Xiang, Y., Xiong, Y., Wang, H., & Zhang, J. (2023). Chat-REC: Towards Interacti【【微信】】-Augmented Recommender System.
(2023). Zero-Shot Next-Item Recommendation using Large Pretrained Language Models.
Dai, S., Shao, N., Zhao, H., Yu, W., Si, Z., Xu, C., Sun, Z., Zhang, X., & Xu, J. (2023). Unco【【微信】】’s Capabilities in Recommender Systems. ArXiv, abs/2305.02182.
Hou, Y., Zhang, J., Lin, Z., Lu, H., Xie, R., McAuley, J., & Zhao, W. X. (2023). Large Language Models are Zero-Shot Rankers for Recommender Systems. ArXiv. /abs/2305.08845
Liu, J., Liu, C., Lv, R., Zhou, K., & Zhang, Y.B. (2023). Is ChatGPT a Good Recommender? A Preliminary Study. ArXiv, abs/2304.10149.
Zhang, J., Bao, K., Zhang, Y., Wang, W., Feng, F., & He, X. (2023). Is ChatGPT Fair for Recommendation? E【【微信】】arge Language Model Recommendation.

chat gpt与chatgpt 4有多大差距 gpt4和chatgpt对比

什么是PlumGPT（国内版的chatgpt），PlumGPT国内版ChatGPT是一个基于GPT-3.5算法的人工智能聊天机器人，能够通过自然语言与用户交互，提供各种服务和解答各种问题。本文将对PlumGPT国内版ChatGPT进行全面测评，并对其优缺点进行分析和总结。

作为一款人工智能聊天机器人，使用体验是其最为关键的指标之一。在使用过程中，我们发现PlumGPT国内版 ChatGPT的回答速度非常快，几乎可以无缝地与用户交互。不仅如此，它的回答也非常准确、详细，回答内容几乎能够覆盖用户所提出的问题的范围，并且对一些复杂问题也能够进行较为清晰的解答。

此外，PlumGPT国内版 ChatGPT还拥有非常友好的界面设置，让用户在使用过程中有一种非常舒适的感觉，使得用户能够更轻松愉悦地与机器人进行交互。

PlumGPT国内版 ChatGPT作为聊天机器人，其功能设置应该是其用户体验的重要组成部分。我们在使用中发现，PlumGPT国内版 ChatGPT的功能设置非常丰富，其涵盖的领域非常广泛，可以对诸多方面的问题进行回答。这些问题包括文化、科技、历史、地理、财经、体育、娱乐、政治等方面，覆盖了绝大多数用户的需求。

此外PlumGPT国内版 ChatGPT还有自动摘要以及语音转换功能，用户输入自然语言后，ChatGPT系统将会根据语境，给出全自动的摘要。语音转换技术是指将文本数据转成自然语音，同时还能实现自然语音识别自动回复。

这些功能让PlumGPT国内版 ChatGPT在用户群体中赢得了良好的口碑，让它在市场上拥有很强的竞争力。

回答准确度高：PlumGPT国内版的chatgpt经过优化和训练，能够针对不同的问题进行自然语言的生成，回答的准确率比较高。
创新和多样性强：PlumGPT国内版的chatgpt在进行自然语言生成时，创新性和多样性比较强，能够生成与常规答案不同且更加合理的回答。
输入、输出流畅：PlumGPT国内版的chatgpt在输入和输出方面都表现出了良好的流畅性，能够实现与人类对话时的自然流程。

模型体积较大：PlumGPT国内版的chatgpt模型体积较大，需要占用一定的计算资源和存储空间。
生成结果不稳定：PlumGPT国内版的chatgpt在回答一些复杂问题时，由于算法模型的非线性特性，生成结果不稳定，可能存在误差和不合理的回答。

数据安全性也是使用人工智能机器人的用户非常关注的一个问题。对于PlumGPT国内版 ChatGPT的用户来说，他们所提供的输入文本和得到的输出文本都涉及到他们的个人隐私和私人信息。因此，机器人应该具备一定的数据安全保障措施，保护用户的隐私。

我发现，PlumGPT国内版 ChatGPT在数据安全性保障方面做了非常出色的工作。它的数据隐私保护策略非常周到，在收到用户输入后，它所产生的数据都是匿名的。

此外，PlumGPT国内版 ChatGPT还使用TLS / SSL进行数据加密传输，确保收集的数据在传输过程中不会被恶意用户获取和入侵。这些安全保障措施让用户在使用PlumGPT国内版 ChatGPT时能够更安心、放心。

PlumGPT国内版 ChatGPT的实现基于GPT-3算法，这是一种基于深度学习的语言模型，能够处理自然语言处理中的多样性、歧义性和不确定性，这也是PlumGPT国内版 ChatGPT能够准确、详细回答用户问题的关键。

除此之外，PlumGPT国内版 ChatGPT还采用了一系列最新的技术手段，比如BERT模型，Attention机制等。这些技术的应用也是让PlumGPT国内版 ChatGPT在同类机器人中具备更好的性能和竞争优势。

总体而言，PlumGPT国内版 ChatGPT基于最新的技术手段和算法实现，具有极高的准确性和鲁棒性，在诸多细节方面做得非常优秀，提供了非常好的用户体验和数据安全保障。

可以广泛应用：PlumGPT国内版的chatgpt可以应用于多个领域，包括机器客服、自然语言处理等领域，帮助人们更好地进行交流和沟通。
客户体验更好：通过使用PlumGPT国内版的chatgpt，企业可以提供更加人性化的客户服务，提高客户满意度。

可能带来用户隐私问题：因为PlumGPT国内版的chatgpt是基于对大量语言数据的学习进行生成，有可能造成用户的隐私泄露问题。
文本生成的不可控性：PlumGPT国内版的chatgpt在生成回答时不一定能够控制生成文本的内容和方向，可能存在一些不适宜的内容和回答。

通过本文的全面测评和分析，我们认为PlumGPT国内版 ChatGPT是一款非常优秀的人工智能聊天机器人，它使用体验优良，功能设置丰富，数据安全性和技术实现都做得非常出色。虽然在一些方面还有待增强，但这并不影响它在同类机器人中的领先地位。

在未来，我们也期待着PlumGPT国内版 ChatGPT能够不断优化、变得更好！

跳转到PlumGPT

： 人人都离不开的算法 图解数据智能

本文地址： https://www.528683.com//show-427848.html