2026.2.4 - AI随笔

AI聊天时经常遇到这种情况：你尽可能的描述了整件事，想让AI给点有用的建议，描述过程中仍然难免有漏掉的重要细节，AI有可能给出不符合现实场景的回答。这属于典型的：上下文缺失。

试试用手机输入法的语音转文字功能详细说出你的问题，桌面端也有类似的语音打字应用（例如Typeless或LazyTyper），甚至能缕清句子语义、移除语气词和停用词等冗余信息。

如果你在微信等IM已经跟其他人讨论过这个问题了，试试直接复制聊天记录+你的问题（PC微信复制聊天记录非常方便：拖选、Ctrl+C就可以了；手机麻烦一些：多选、收藏、再把收藏转为笔记），这样相比只复制聊天文字本身，更能保留每个发言人的身份/昵称，避免上下文错乱。

AI特别擅长从琐碎的信息拼凑出整件事的来龙去脉（上下文），基于现实情境进行推理给出答案。

更高阶的用法，举几个例子：

1. 自我放逐

有个多年前短暂共事过的前同事，我都忘记他的名字了。
最近他〔发表了一段言论/发布了一个产品/写了一个软件/做了一件事〕。
我简单看了看，大概是〔描述详情〕，附图为相关截图〔可选〕。
请你客观评价一下〔如果想多讲点不足可以改为：请你进行锐评〕。

这个“前同事”很可能是你自己、与你有亲密关系、与你利益相关的人。

你对AI撒谎，把受评价者疏离成“曾经认识、如今路人”的关系，你会自然而然的在描述时减少主观色彩，同时这也会让AI卸下“思想包袱”，专注于事情本身，坦率的进行点评。

点评时AI会更少的使用第二人称（你），更多的使用第三人称（他），从而不必奉承你（“取悦用户”甚至是当前各家AI模型的出厂设定，但很多时候这种设定是多余的），不必特意照顾你的感受、自尊/虚荣心，这有助于让你得到更加理性客观的评价和中肯建议。

2. 移形换位

英雄联盟1月份由于某个SSL证书意外过期导致全服停机维护，引发的讨论。

我谎称自己是对方辩友让AI给我挑错，本意是想让AI在保持礼貌的前提下指出谬误，如果AI能直接指出“我”的谬误，说明“我”的观点已经错的离谱了。

AI没有保留丝毫情面，可能还是Gemini太强了（其实是“最大化搜索”系统提示词里有基于事实的Critical Rules），换作豆包不会这么刚烈~~（不是瞧不上豆包，我更愿意称豆包为情感陪伴小助手）~~。

3. 最大化搜索

我在OpenAI WebUI Lite项目中初次尝试在工程侧集成“联网搜索”功能，在开发“提示词工坊”的角色 —— “Max - 深度检索问答专家”时，对这套方案进行打磨迭代，进一步提升了搜索质量，这套方案最终应用在上述两个项目中。

整体流程：

接到用户问句后，先由前置的小参数模型（例如GPT-4.1-mini，特点是快）进行“正交拆解”得到与主题相关但维度较发散的多个（0至5个）搜索关键词，以及每个关键词的搜索结果数量限制（5至10个），甚至中/英文信息源的占比（可以由关键词的语种决定）都通过规则事先约定，输出JSON。

工程侧根据步骤1输出的JSON，执行批量并行搜索，将Tavily搜索结果汇聚成为JSON数组，作为下一步回答问题的依据。

使用用户选择的AI模型，在提示词中：拼合用户原始问句及搜索语料；对齐当前真实时间；约束AI优先基于搜索引擎得来的语料（而非过时的训练知识库）进行回答；强制在回答末尾注明参考链接。

我只能说这套方案效果拔群，虽然搜索出的语料比不上Perplexity多步骤深度检索/深度研究那样的巨量和渐进式增强 & Tavily在中文信源的丰富度上也存在明显短板，但相比Gemini API with Grounding Search已经有显著提升（Grounding Search是个黑箱，你无法强制它启用搜索，有时它甚至偷懒根本不去搜索）；相比无搜索的普通模型API更是有质的飞跃、极大程度的避免幻觉。毕竟：此刻的“事实”与2024年某天（模型知识库截止日期）的“事实”是不同的。

“最大化搜索”可以让略显落后的DeepSeek-V3等第二梯队开源模型在回答时效性问题时直接提升档次，因为生成式人工智能说到底还是复读机、Token预测器，它预训练知识库里没有的知识，你帮它补全了，它就能答到点上。

4. 自然语言转JSON生图指令

我愿称之为最强Nano Banana Pro元提示词，提示词全文在这里：https://n8n.keyi.ma/webhook/aigc#detail_93

这套“元提示词”强大之处在于2点：

即使是提示词小白，通过简单描述需求要点，也能让聊天模型生成专业大师级的规格化JSON指令。可以人工review过、修订过（可选），再让生图模型去按照JSON生图。好处是：模型经过合理推断，补全了缺失的元素信息和最最重要的风格指南，这些前置的联想是很必要的，能显著提升画面的审美等级，避免生成“怪味道”的作品。

生成一版以后，你对某处细节感觉不满意，回看JSON指令，噢原来是这里指定了造成的，稍微修改一下，重新生成，整体风格不会大幅度漂移，这就方便你重复迭代，直到你得到满意的AI作品，避免无意义的“抽卡”浪费宝贵生图额度。

Nano Banana Pro模型文生图能力固然强大，但它要在接收指令后1分钟左右交付成品，它花费在构思画面（服饰、布景、构图、镜头、光线等等）的时间和Token预算必定有限，因此“给它模糊的生图指令→得到差强人意的产物”就很说得通。如果将这部分思考外包出去，由前置的聊天模型给出可以被精确执行的JSON指令显然可以更好的“榨干”生图模型能力上限。

由于生成JSON时固化了所有参数（即使用户没给出的信息，也经过聊天模型合理推断，变为确定参数固化到JSON里），所以用同一个JSON重复生成的多张图片大概率是近似的。

这有点像拿着固定的分镜剧本摆拍，或者像控制变量法的小白鼠生物实验（每次只改动JSON里的一点点信息，来针对不满意的部位做微小调整，而不用担心下次生成另一种完全天马行空大相径庭的其他风格图片），这是这个JSON指令最迷人的部分。如果你喜欢生图模型的多样性结果，应该重新聊天生成新的JSON再去生图（或者直接用自然语言生图）。

后附缩略图是我用这套方法给孩子生成的若干AI作品：4K油画风格锁屏壁纸（分辨率2688x6336，鸣谢谷大善人的AntiGravity）