和智能产物的交互，应该是怎么样的？

2025年8月28日作者：凯伦

如果你想支持我们，请考虑分享这篇文章

让更多人看到这篇文章

新时代的到来

2024 年，ChatGPT 的出现让所有人都意识到，人工智能已经不再是遥不可及的未来，而是实实在在地进入了我们的生活。随着 GPT、Claude 等大模型的不断迭代，生成式 AI 的能力也在不断提升，从文本生成到图像生成，AI 正在各个领域展现出强大的创造力和生产力。

拥有智能的机器，以前听着会是个很虚幻的事情，但是现在的我们离这个目标很近了，能力不断增加，场景也在不断增加，关于怎么和这些智能产物交互，我们着实还没有答案。

智能助理 App 的功能随着大模型能力的提升而不断复杂化。所以，我们分化出了两种流派：堆按钮派和让 LLM 决定派。

堆按钮派的代表是豆包这种全能型选手，豆包大模型家族的能力很多很复杂，而豆包 App 又想要什么都做，所以一个豆包 App 塞下了 P 图、播客、网页生成、团购、导航等功能。这不是一般的多，是多到让人无法想象，所以豆包选择了一个处理技能显示的最基本方法：堆按钮。把所有技能按钮都展示给用户来选择。

豆包的技能按钮滑动列表

这个列表现在很长，以至于你需要滑动好几下才能翻到尽头。加上这种办法实在复杂，用户在找按钮的时候挫折就不少，对新功能认知不多的用户也可能不会选择自己不知道的功能，这种方法并没有被所有产品使用。

这种方法其实还有其他的优点，能很好的拉起 UI 来确定用户的需求，能力运转的也会更好，模型拿到的上下文和指令也会明确。

让 LLM 决定派的代表是一些新兴的智能助理产品，它们试图通过大模型的能力来简化用户的操作。与堆按钮派不同，这些产品并不直接展示所有功能，而是通过自然语言处理和上下文理解，让用户以更自然的方式与智能产物交互。

这种方法的优势在于，它可以根据用户的需求和上下文动态调整展示的功能，减少用户的选择负担。然而，这也对大模型的理解能力和推理能力提出了更高的要求。

现在的让 LLM 决定派并不多，有的功能也不像豆包一样多而全，不过也是有例子的。

OpenAI 在最新的 GPT-5 更新中给 ChatGPT 引入了一种新的模式，允许模型根据请求来选择所运行的模型，让模型主动发起工具调用来满足请求。但是这还是有些局限性，用户对「聊天」这一模式可能有不信任，因为模型如果没有一种能力，幻觉就可能编造模型正利用这一能力工作的假象。

如果说堆按钮能让上下文被完善的提供，让 LLM 决定能让体验更舒服，那如果 LLM 在被请求时会主动拉起相关能力的 UI，会怎么样？

我们在 MuerAI 上做了这样的一个尝试，MuerAI 对上下文的请求对于用户是主动的，他会拉起小问卷来对复杂的、需要上下文的问题来请求上下文，主动引导用户提供信息。对于视频生成、文章书写等场景，这种解决方案也能起作用，用户对 UI 界面的信任感也会比一般的聊天强。

MuerAI 拉起的问卷 UI

在与智能产物的交互中，如何平衡用户的选择自由和系统的智能引导是一个重要的课题。无论是堆按钮派还是让 LLM 决定派，各有优缺点。未来的智能助理产品可能会结合这两种方法，既能提供丰富的功能选择，又能通过智能引导提升用户体验。我们期待看到更多创新的交互方式，让人机对话变得更加自然和高效。