2025-04-21 21:07:03
5

ChatGPT 教会了我们什么礼貌——以及 OpenAI 的人工智能为何要花数百万美元来倾听

ChatGPT 教会了我们什么礼貌——以及 OpenAI 的人工智能为何要花数百万美元来倾听

“请”和“谢谢”只是礼貌用语,还是它们正在改变 ChatGPT 的学习和行为方式,并每天给 OpenAI 的人工智能造成数百万美元的损失?

目录

说“请”可能会花费数百万美元

这是我们大多数人从小就被教导的道理。说“请”。说“谢谢”。礼貌无代价。但随着人工智能的发展,这句古老的箴言可能不再适用。对聊天机器人保持礼貌,实际上可能需要付出代价。

OpenAI 首席执行官 Sam Altman 在 X 上的一次简短交流中透露了一个关于 AI 系统运作机制的有趣细节。当被问及用户在 ChatGPT 查询中添加“请”和“谢谢”等额外词语会给 OpenAI 带来多少成本时,Altman 回答说:“数千万美元的花费是值得的。谁也说不准。”

我们在 ChatGPT 中输入的每个单词都会经过庞大的数据中心进行处理,在那里它会被分解成标记,经过复杂的计算,最终变成回复。即使是一些简单的寒暄也会被同样对待。它们需要强大的计算能力。

这意味着电力、冷却系统以及每个请求需要更多时间。这些额外的令牌在数百万次对话中累积起来,就形成了实际的能源和基础设施成本。

根据 TechRadar 母公司 Future 在 2024 年 12 月进行的一项调查,51% 的美国人工智能用户和 45% 的英国人工智能用户经常使用人工智能助手或聊天机器人。

其中,美国人更注重礼貌。在美国,67% 的用户表示他们与人工智能交谈时彬彬有礼。其中,82% 的用户表示,无论对方是否是人类,他们觉得这样做是正确的。

另外18%的人则有不同的动机。他们表示,保持礼貌只是为了防止人工智能真的爆发叛乱——虽然可能性不大,但他们不想冒险站到错误的一边。

Then there’s the remaining 33% of American users who don’t bother with niceties. For them, the goal is to get answers, fast. They either find politeness unnecessary or believe it slows them down. Efficiency, not etiquette, shapes the way they interact.

AI queries and the hidden infrastructure load

ChatGPT 的每一次响应都由消耗电力和水的计算系统驱动。看似简单的来回交互背后隐藏着巨大的资源消耗,尤其是在用户数量不断增长的情况下。

高盛的一份报告估计,每次 ChatGPT-4 查询大约消耗 2.9 瓦时的电力,几乎是一次谷歌搜索的十倍。

据 Epoch AI 称,GPT-4o 等较新的模型已经提高了效率,将每次查询的能耗降低至约 0.3 瓦时。然而,当每天进行数十亿次查询时,即使是微小的差异也会迅速累积起来。

OpenAI 的运营成本反映了这一规模。据报道,根据多个行业消息来源引用的内部估计,该公司每天花费约 70 万美元来维持 ChatGPT 的运行。

这笔费用背后的主要原因是其庞大的用户群。从2024年12月到2025年初,每周用户数量从3亿跃升至4亿以上,部分原因是受到吉卜力风格艺术提示等病毒式功能的推动。随着使用量的激增,对电网和物理基础设施的需求也随之增加。

国际能源署预测,到 2030 年,数据中心将推动发达经济体电力需求增长 20% 以上,而人工智能被认为是这一增长的主要驱动力。

水是这个等式的另一个部分,经常被忽视。《华盛顿邮报》的一项研究发现,撰写一封 100 字的人工智能生成电子邮件大约需要 0.14 千瓦时的电力,足以点亮 14 个 LED 灯泡一小时。

产生相同的响应会消耗 40 到 50 毫升的水,主要用于冷却处理数据的服务器。

从规模上看,这种消耗水平引发了更广泛的担忧。弗吉尼亚州是美国数据中心密度最高的州,2019年至2023年间,该州的用水量增长了近三分之二。根据《金融时报》的调查,仅2023年,该州的总用水量就至少达到了18.5亿加仑。

随着数据中心在全球范围内不断扩张,尤其是在电力和土地价格低廉的地区,预计当地水资源和能源供应的压力将会越来越大。其中一些地区可能无法承受长期影响。

你的语气告诉了人工智能什么

在经过大量人类对话训练的人工智能系统中,用户提示的语气会强烈影响回应的语气。

使用礼貌的语言或完整的句子通常会使答案更具信息量、更符合语境、也更尊重他人。这种结果并非偶然。

在幕后,像 ChatGPT 这样的模型是在大量人类写作数据集上进行训练的。在微调过程中,它们会根据人类反馈进行一个称为强化学习的过程。

In this stage, real people evaluate thousands of model responses based on criteria such as helpfulness, tone, and coherence.

When a well-structured or courteous prompt leads to a higher rating, the model begins to favor that style. Over time, this creates a built-in preference for clarity and respectful language patterns.

Real-world examples reinforce this idea. In one informal Reddit experiment, a user compared AI responses to the same question framed with and without the words “please” and “thank you.” The polite version often triggered longer, more thorough, and more relevant replies. 

Hackernoon 上发表的另一项分析发现,不礼貌的提示往往会产生更多事实错误和偏见内容,而适度礼貌的提示则在准确性和细节之间取得了最佳平衡。

这种模式在各种语言中都适用。在一项涉及英语、中文和日语的跨语言测试中,研究人员发现粗鲁的提示会全面降低模型的性能。

极度礼貌并不一定能带来更好的答案,但适度的礼貌通常能提高质量。研究结果还暗示了文化差异,表明“恰当”的礼貌程度会因语言和语境的不同而有所差异。

话虽如此,礼貌并非万能良方。最近的一项即时工程评估测试了 26 种提升 AI 输出的策略。其中之一就是添加“请”这样的词语。

结果表明,虽然这类短语有时有所帮助,但它们并不能持续提高 GPT-4 的正确率。在某些情况下,添加额外的单词会引入噪音,导致回答不够清晰或准确。

A more detailed study conducted in March 2025 examined politeness at eight different levels, ranging from extremely formal requests to outright rudeness. 

研究人员使用 BERTScore 和 ROUGE-L 等基准来衡量摘要任务的结果。无论语气如何,准确性和相关性都保持相当一致。

然而,回复的长度各不相同。当提示非常突然时,GPT-3.5 和 GPT-4 会给出较短的答案。LLaMA-2 的表现有所不同,在礼貌程度适中时,回复最短,而在礼貌程度极高时,回复则较长。

礼貌程度似乎也会影响人工智能模型处理偏见的方式。在刻板印象检测测试中,过于礼貌和敌意的提示都会增加出现偏见或拒绝反应的可能性。中等礼貌程度的表现最佳,最大限度地减少了偏见和不必要的审查。

在测试的模型中,GPT-4 完全拒绝的可能性最小,但所有模型都表现出类似的模式——似乎有一个最佳点,音调可以帮助模型准确响应而不损害平衡。

最终,我们说什么以及我们如何说决定了我们能得到什么。无论我们想要得到更好的答案、更少的偏见,还是仅仅想要更深思熟虑的互动,我们的措辞都至关重要。

And while politeness might not always boost performance, it often brings us closer to the kind of conversation we want from the machines we’re increasingly talking to.

声明:文章不代表币特网观点及立场,不构成本平台的投资建议,转载联系作者并注明出处:然后加上这个内页的网址: https://m.bitcoin688.com/news/72790.html
回顶部