搜索

  • 语言选择
  • 中文
  • English
  • 我们暂时仅支持以简体中文显示网页内容,如有不便,敬请谅解。

和智能产物的交互,应该是怎么样的?

作者:凯伦

如果你想支持我们,请考虑分享这篇文章

让更多人看到这篇文章

新时代的到来

2024 年,ChatGPT 的出现让所有人都意识到,人工智能已经不再是遥不可及的未来,而是实实在在地进入了我们的生活。随着 GPT、Claude 等大模型的不断迭代,生成式 AI 的能力也在不断提升,从文本生成到图像生成,AI 正在各个领域展现出强大的创造力和生产力。

拥有智能的机器,以前听着会是个很虚幻的事情,但是现在的我们离这个目标很近了,能力不断增加,场景也在不断增加,关于怎么和这些智能产物交互,我们着实还没有答案。

是堆按钮,还是让 LLM 决定?

智能助理 App 的功能随着大模型能力的提升而不断复杂化。所以,我们分化出了两种流派:堆按钮派和让 LLM 决定派。

堆按钮派

堆按钮派的代表是豆包这种全能型选手,豆包大模型家族的能力很多很复杂,而豆包 App 又想要什么都做,所以一个豆包 App 塞下了 P 图、播客、网页生成、团购、导航等功能。这不是一般的多,是多到让人无法想象,所以豆包选择了一个处理技能显示的最基本方法:堆按钮。把所有技能按钮都展示给用户来选择。

豆包的技能按钮滑动列表

这个列表现在很长,以至于你需要滑动好几下才能翻到尽头。加上这种办法实在复杂,用户在找按钮的时候挫折就不少,对新功能认知不多的用户也可能不会选择自己不知道的功能,这种方法并没有被所有产品使用。

这种方法其实还有其他的优点,能很好的拉起 UI 来确定用户的需求,能力运转的也会更好,模型拿到的上下文和指令也会明确。

让 LLM 决定派

让 LLM 决定派的代表是一些新兴的智能助理产品,它们试图通过大模型的能力来简化用户的操作。与堆按钮派不同,这些产品并不直接展示所有功能,而是通过自然语言处理和上下文理解,让用户以更自然的方式与智能产物交互。

这种方法的优势在于,它可以根据用户的需求和上下文动态调整展示的功能,减少用户的选择负担。然而,这也对大模型的理解能力和推理能力提出了更高的要求。

现在的让 LLM 决定派并不多,有的功能也不像豆包一样多而全,不过也是有例子的。

OpenAI 在最新的 GPT-5 更新中给 ChatGPT 引入了一种新的模式,允许模型根据请求来选择所运行的模型,让模型主动发起工具调用来满足请求。但是这还是有些局限性,用户对「聊天」这一模式可能有不信任,因为模型如果没有一种能力,幻觉就可能编造模型正利用这一能力工作的假象。

有别的方法吗?

如果说堆按钮能让上下文被完善的提供,让 LLM 决定能让体验更舒服,那如果 LLM 在被请求时会主动拉起相关能力的 UI,会怎么样?

我们在 MuerAI 上做了这样的一个尝试,MuerAI 对上下文的请求对于用户是主动的,他会拉起小问卷来对复杂的、需要上下文的问题来请求上下文,主动引导用户提供信息。对于视频生成、文章书写等场景,这种解决方案也能起作用,用户对 UI 界面的信任感也会比一般的聊天强。

MuerAI 拉起的问卷 UI

结论

在与智能产物的交互中,如何平衡用户的选择自由和系统的智能引导是一个重要的课题。无论是堆按钮派还是让 LLM 决定派,各有优缺点。未来的智能助理产品可能会结合这两种方法,既能提供丰富的功能选择,又能通过智能引导提升用户体验。我们期待看到更多创新的交互方式,让人机对话变得更加自然和高效。