文 | 锦缎
下面的情景是不是有些似曾相识?
当满怀期待地给 AI 大模型下达指令,比如"帮我分析一下这周的股价走势"。
等待数十秒后,得到了一份空洞无物,只有数据罗列的通用模板,令人大失所望。
转念一想,不应该啊,之前看过的短视频里介绍 AI 都和点石成金一样:
有的人能用 AI 在朋友圈、小红书和微博上追逐时尚潮流生成爆款文案;
有的人能用 AI 生成胜过资深程序员编写的高质量代码;
有的人能让 AI 充当各领域内的行业专家,随随便便来一份分析报告都不在话下;
同样是 AI,天差地别的结果。
不同的 AI 大模型之间能力存在差距,这是事实。
但造成这一差异的更为主要的原因在于,使用 AI 的方法,也就是提问的方式。
我们注意到,为了降低使用门槛,加速 AI 大模型应用普及,各大厂也在"提示词工程"上下大心思。PromptPilot,便是字节系的大模型提示词解决方案平台。
以其为样本,本文将就"提示词工程"与字节系的"提示词工厂",一探究竟。
01 提示词的演进过程
人与 AI 沟通的媒介,即为提示词(Prompt)。
有人会问:"写 Prompt 不就是打字提问吗?"
非也,这是一门学问。
这门学问在 AI 诞生至今的短短几年内,已经经历了从"远古时代"到"现代"的飞速进化。
简单了解一下提示词的发展路径,或许能够帮助理解为什么我们需要更"工程化"的思维。
Stage.1 "魔法咒语"时代
这是最早期的阶段,但也是大多数人目前所处的阶段。
使用 AI 大模型和使用搜索引擎的方法并无两样,就像最初大家在使用 GPT3.5 时,只需要随意抛出问题,就可以把 AI 当作百科全书使用。
这个阶段的提示词特点也很鲜明,"一问一答,简单直接"。
当然,使用效果也有些靠运气。对于一些需要思考、推理或创意的任务,AI 的回答时而惊艳,时而平庸。
Stage.2 "启蒙与引导"时代
此后,AI 的发展速度远超人们的想象。
研究者和"高级玩家"们发现,AI 就像一个孩子,直接下命令,它有时根本听不懂。
但如果给 AI 一些适当的提示和引导,有助于孩子的成长,最终得到更好的结果。
在这一阶段,诞生了两种里程碑式的 AI 使用方式:
一是示例学习:在向 AI 正式发文之前,先给出范例,让 AI 进行模仿;
二是思维链路:不是直接生成最终答案,而是像做中学数学题一样,必须把过程写清楚,最后给出解答。思维链路的出现,使 AI 在计算、推理和逻辑类任务中取得了巨大的飞跃。
因此,这时的 AI ,虽然本质上只是一段早已编写好的程序,但它也可以被视为一个可以教导和启发的学生。
Stage.3 "系统化工程"时代
这是我们现在所处的时代。AI 产品五花八门,其能力已经达到"逆天"的水平。
简单的小技巧已经无法有效驾驭 AI,是时候设计出一套系统化、规范化且可复用的方法来更加有效地利用 AI 了。
因此,不论是 LLM 应用开发平台,还是各家厂商最新版本的 AI 大模型,如果让它们自动生成提示词,都已经不再是零散的指令,而是采用一个包含角色、背景、任务、规则、输出格式和限制等元素的结构化框架。
其目的也很简单,让 AI 的输出稳定、可控、易于复制。
02 提示词工程
"提示词工程"是什么?
AI 给出的回答是:"一门设计和优化提示词的科学,旨在更有效地与大型语言模型进行沟通,从而引导它们生成更准确、更相关、更高质量的输出结果。"
如前文所述,提示词的重要性源于" Garbage In, Garbage Out "原则,AI 模型的输出质量直接取决于输入提示词的质量。
优质的提示词,最重要的功能在于有效减少 AI 出现"幻觉"的概率,使其回答更加贴近现实和用户意图。
同时,提示词有助于发掘 AI 的"潜力"。相比简单的指令,提示词工程可以让 AI 实现更多功能,比如编写代码、市场分析、创意生成等更加复杂、更加抽象的任务。
此外,用户还可以对 AI 的回答添加格式、语气、长度等约束条件,灵活地调整答案的展现形式,同时节约调试时间。
对于编写提示词的方法,Gemini 2.5 Pro 给出了名为 R.O.L.E.S. 的法则,这里选择构建工作流时使用的实例:
R - Role(角色):你希望 AI 是谁?
这是 AI 使用者在编写提示词时最容易忽略的一步,因为我们常常上来就直接把问题抛给 AI。通过赋予 AI 一个具体且专业的角色,能够激活它在该领域的知识库,使其回答更具深度和专业性。
例如:
# 角色
你是一个顶级的金融数据分析师,能够解析用户的请求,并为后续的数据库检索程序准备一份精确的数据需求清单。
O - Objective(目标):你想完成什么核心任务?
用户需要清楚地告诉 AI 最终目的是什么。不要担心语言过于繁琐,AI "听不懂"的是短句,而不是长难句。任务越明确,AI 的行动路径就越清晰。
# 核心任务
你的任务是分析用户关于"谷歌"(别称:Google)的指令 "{{query}}"。你的最终输出不是直接回答用户的问题,而是列出为了回答这个问题,必须从我们的财务知识库中检索的 ** 所有基础数据字段 **。
L - Limit&Constraint(限制与约束):有哪些规则必须遵守?
AI 作为一个自由创作的作家,输出方式向来是不拘一格。要想获得准确的结果,就必须对其加以限制和约束,包括但不仅限于风格、语气、字数、禁止事项等等。
例如:
# 输出要求
- ** 严格遵循格式 **: 严格输出由 ` 键 : 值 ` 对、逗号 `,` 和分号 `;` 组成的字符串。
- ** 纯净输出 **: 不要包含任何前缀、解释、引号、空格或任何其他多余的文字。
- ** 空处理 **: 如果指令与谷歌的财务或市场数据完全无关,输出 NO_QUERY`。
E - Examples(示例):有没有可以参考的例子?
如果用户的要求比较复杂或独特(比如某一个细分领域),那么提供给 AI 一个具体的例子会是比较高效的沟通方式,这有助于让 AI 迅速理解用户期望的格式和风格,而不是通过多轮对话让 AI 不断去尝试。
# 示例
* * 用户说 *: " 谷歌的收入和市值是多少?"
* * 你的思考 *: 用户直接要"营业收入"和"市值"。这是基础指标。
* * 最终输出 *: 营业收入 , 市值
S - Steps(步骤):完成任务需要分几步?
对于较为复杂的任务,就轮到之前提过的"思维链路"出场了。一次把任务灌输给 AI 通常得不到理想的结果,但如果能引导 AI 按照步骤思考和执行,就可以大幅提升输出结果的逻辑性和准确性。
# 步骤
首先判断用户指定的财务指标是否能够从给定的财报中直接获取;若不能获取,再根据计算公式获取相关指标;最后分析该指标的含义。
对于上面这套法则,还有一些需要注意的细节:
第一,提示词的编写并没有严格的规定,上面的五个部分可以按需修改;
第二,给出的例子中可能包含 {}、**、等符号,这些符号也是提示词工程中的小技巧,每种符号都具有特定的功能,可以把一个纯自然语言的段落转变成一个类似于"程序"的指令集。
03 字节的"提示词工厂"
在明确提示词的编写流程后,就该思考这套方法的实用性了。
很明显,如果按部就班地完成每个步骤,工作量已经接近于写一篇作文。
换个角度来看,我们需要使用提示词让 AI 完成任务,而写提示词恰好就是一项任务。
因此,我们可以再偷个懒,干脆让 AI 把提示词也帮着写完得了。
字节在 6 月推出了一款名为 PromptPilot 的产品,是面向大模型应用的全链路优化平台。
平台介绍中提到,该产品不仅可以提供精准、专业、可持续迭代的提示词,还可以覆盖大模型开发从构想、开发部署到迭代优化的全过程。
该产品免费试用至 2025 年 9 月 11 日,链接:https://promptpilot.volcengine.com/home
眼见为实,下面我们来试用一下看看效果如何。
主界面 UI 看上去很简洁,功能主要有三个:Prompt 生成、Prompt 优化和视觉理解 Solution。
由于本篇文章主要讨论提示词相关内容,因此只介绍前两个功能。
图:PromptPilot 使用流程图
对于没有提示词编写经验的用户,可以直接在平台上生成结构化的提示词:
图:生成提示词界面
任务描述并不需要太复杂,只要表达清楚就好,也不必担心描述不够精细,后面还可以进行调整。
这是平台生成的初版提示词,虽然尚不完备,可能与用户的详细需求仍然存在差异,但其效果已经远比使用短句给 AI 下达命令要好。
接下来,需要验证这份提示词的效果究竟如何。点击"验证 Prompt "进入调优环节:
图:选择调优模式
PromptPilot 提供了两种调优模式,评分模式类似于"简答题",需要用户填写分数、评价意见(可选)和理想回答(可选),GSB 比较模式则类似于"选择题",需要用户对答案进行比较,并给出 Good、Same 和 Bad 的判断。
提示词的重要性我们已经提过很多次,因此更推荐选择评分模式。
图:调优界面
选择评分模式进入调优界面后,需要进行几项设置:
首先,如果用户觉得提示词无法满足需求,可以使用"一键改写 Prompt "。
然后,在提示词中可以看到熟悉的标识 {{AI_NEWS}},表示这里需要填入相关领域的 AI 新闻。点击"填写变量",将新闻内容粘贴进去即可。
PromptPilot 还提供了一项很贴心的服务:AI 生成变量内容。
也就是说,如果我们并没有足够的新闻,就可以让 AI 现编一条。这个功能在不需要信息真实性的情况下能帮上大忙,快速构造数据集就靠它了。
不过,我们需要真实新闻才能发布文章,而有些聪明的模型可以识别出虚假的新闻,因此这里还是不要使用 AI 生成变量内容。
最后,在模型回答窗口中可以自由选择大模型版本,其中 DeepSeek 和豆包的部分版本免费。
这里,考虑尝试一下豆包的新模型:Doubao-Seed-1.6-Thinking,开启深度思考功能。
完成上述设置后,点击"保存并生成模型回答",平台会调用选择的模型,按照给定的提示词开始编写文章。生成文章后,需要点击"添加至评测集"。
只靠一篇文章是无法衡量提示词质量的优劣的,因此我们需要更多的数据来进行评判。
图:评测数据集界面
与前面的操作相同,我们需要把新闻粘贴至评测数据集中的 AI_NEWS 一列。
点击"生成全部回答",模型开始编写对应的文章。
评分同样可以由 AI 完成,点击"智能评分" - " AI 评分标准" - "生成评分标准"即可获得一套较为详细的评分标准,用户可以在此基础上进行修改或是直接使用。
开启智能评分功能后,AI 在文章编写文章后会自动生成评分及理由。需要注意的是,智能评分功能并不完善,经常出现全是满分的情况,而这样的评分对于调优 Prompt 没有意义。
当然,这个环节也可以由我们手动完成,主观的评阅意见能够使文章的风格更接近于理想中的状态。但新闻数量较多时,人工评阅的工作量还是有些过大。
这个时候,就又轮到"老朋友"工作流登场了。
既然 PromptPilot 是火山引擎的工具,而大模型我们又选择了豆包,因此工作流我们也选择字节系的 Coze 进行开发。
图:AI 生成文章评分工作流
工作流的结构很简单,开始节点接收两个参数:news(原始新闻)和 article(AI 生成的文章)。
大模型节点用来进行评分,同样将上面两个参数作为输入,并开始编写提示词。
既然研究 AI,当然提示词也要让 AI 来生成。需要注意的是,适当提高文章评分的区分度,有助于提示词的优化。
因此,我让 AI 生成了一份评分标准,并告知需要严格评判产生区分度,并生成了对应的结构化提示词。
图:AI 评分提示词 |
提示词编写完成后,大模型节点的模型同样选择豆包 · 1.6 · 深度思考 · 多模态。
现在,只需要运行工作流,把新闻原文和 AI 生成的文章粘贴进去就可以得到评分及打分理由,完成后粘贴到 PromptPilot 中即可。
最终,数据集包含 36 条新闻及对应文章,开始进行提示词的智能优化。
图:智能优化界面
可以看到,平台推荐的数据是 50 条以上并给出理想回答,但这并非必须。只有评分是必须项。
智能优化环节花费了约 17 分钟,迭代了 28 次,结果如下:
图:智能优化结果
这样,我们就得到了一份优化后的提示词,相比上一版提示词增加了更多任务描述和细节。
下拉该页面还可以看到根据新的提示词生成的文章,这里就不一一展示了。
但还请不要忘记,提示词工程并非到此而止,而是可以继续通过添加数据、评分和理想回答的方法进行下一轮优化,直到它能够完全满足需求。
至此,我们已经掌握了一套标准化的用于优化提示词的方法。
而事实上,这个过程就是我们常常提到的——强化学习。
04 结语
回到最初的问题:为什么同样的 AI,在不同人手中会产生天壤之别?
答案正是提示词工程——与 AI 高效写作的艺术与科学。
它并非计算机行业的专利,而是未来人们需要具备的基础素养。
掌握它,意味着驾驭 AI,拥有放大自身价值的能力。
然而,知易行难。"知道"结构化提示词的重要性,与"做到"在每次向 AI 提问时熟练运用,中间还存在一道不那么容易跨越的鸿沟。
坦诚地说,字节跳动当前版本 PromptPilot 远非完美,也绝非终点。
请不要指望它能一键生成满足所有精细化需求,同时还拥有绝佳效果的"神级"提示词。
在面对较为复杂或创新需求的任务时,我们会清楚地感受到它提供的框架仍然有所局限。
同时别忘了,它也有一定的使用门槛,需要我们花时间去学习、去配置、去适应。
但与此同时,这也揭示了 PromptPilot 的核心价值:它并非"答案机",而是"思维矫正器"。
在学习和使用 PromptPilot 的过程中,它强行打破了我们用大白话随口一问的惯性。
它的结构化编辑器更像是一个"思维脚手架",也许本身并不美观,但能保证搭建出的建筑地基稳固、结构完整。
而它的存在,能够帮助那些面对 AI 聊天框总是无从下手,或是因 AI 输出质量不佳而苦恼的用户,完整从 0 到 1 的初次跃迁。
它的目标用户,并非那些随手写出上百字的复杂指令的提示词工程师,而是每一个希望告别低效提问,着手建立系统化和结构化思维的"学生"。
最终,在熟练掌握思维模式后,我们可能不再使用 PromptPilot,但已经具备了与 AI 高效对话的底层能力。
而这,正是 AI 时代真正的通行证。
博牛配资-手机配资炒股网-专业在线股票配资交易平台-股票配资论坛官网提示:文章来自网络,不代表本站观点。