7个AI研究助理的对比分析

撰写文献综述既耗时又费力。一波新的AI工具声称可以提高这一过程的效率,通过改变我们搜索和综合学术内容的方式。许多行业观察者已经称赞了最近出现的自主性搜索工具,因为OpenAI(以及GooglePerplexity,和Grok) 推出了多步骤研究工具的变体。这些系统通常共享一些共同组件:LLM创建一个研究计划,连接搜索引擎以查找并阅读相关的网页,并将发现的内容综合成报告风格的输出。

除了这些通用工具外,还出现了专门针对学术研究的基于LLM的系统。像ConsensusElicitScite这样的产品旨在结合传统的文献检索功能与LLM驱动的帮助和综合能力。然而,评估这些工具带来了独特的挑战——与具有客观正确输出的编码任务不同,合成学术文献涉及主观解释,并且需要基于高质量来源进行判断。

因此,我的评估更侧重于定性评估而不是定量指标——根据专家判断,哪些工具能够产生最相关文献的最佳书面综合。为了在我的熟悉领域测试这些系统,我要求它们总结关于有效标题写作的研究,这是我发表过多个学术 论文的领域。

1、方法论

在这次测试中,我编写了一个提示,让每个工具分析关于能显著提高点击率的标题写作实践的研究,具体要求包括实证验证、新闻网站重点以及方法学严谨性。这是我在测试中使用的完整提示:

分析来自权威来源的学术研究、营销研究和行业报告,这些报告展示了标题写作实践如何显著提高点击率。具体来说:

1. 总结来自A/B测试和控制研究中最经实证验证的标题技术

2. 重点关注对新闻网站的有效性(而非,例如,社交媒体或搜索引擎)

3. 确定对参与度指标有统计显著影响的标题特征

4. 指出研究中的矛盾发现或局限性

5. 提供基于证据的最佳实践示例标题

以简洁的形式呈现发现,尽可能引用原始研究,优先考虑样本量大且方法学严谨的研究。

我用这个提示测试了七种AI研究工具:四种通用LLM搜索产品(ChatGPT Deep Research、Gemini Deep Research、Perplexity Deep Research和Claude Search)以及三种学术特定研究工具(Scite、Consensus和ScholarQA)。为了确保公平比较,除非工具明确请求澄清,否则我接受了每个工具的第一份输出。

为了评估这些输出的质量,我进行了盲测(由于我必须从每个工具的源中复制粘贴输出,所以并非完全盲测),类似于Chatbot Arena,并对它们进行了排名。

2、结果

你可以在这个gist中阅读每个工具的完整输出,但这次练习让我得出了三个主要结论:

ScholarQA和Gemini Deep Research表现最佳。 这些工具与其他选项的区别在于来源写作风格。ScholarQA提供了最强的学术文献基础,而Gemini则在融合研究论文与行业见解方面做得最好。此外,这两个工具都写出了很好的平衡具体标题写作技巧、局限性和相反发现以及在线标题写作更广泛背景之间的文本——正是我所寻找的元素!以下是从ScholarQA的回应中摘录的一段:

新闻网站的标题同时服务于多种功能,从总结内容到吸引注意力,再到体现出版物的声音并优化搜索引擎。在在线环境中,标题变得越来越重要,因为它们通常是社交媒体信息流、微博帖子和新闻聚合网站中文章唯一可见的部分(Szymanski等,2017年)。这种重要性的增加使负责为多个上下文创作最佳标题的新闻编辑变得更加复杂。

其他Deep Research/搜索工具在来源方面表现不佳。 Claude、Perplexity和OpenAI都没有找到与此提示相关的良好来源。Claude的搜索是全新的,也没有被宣传为研究工具,所以我并不惊讶。然而,在阅读了如此多对OpenAI的Deep Research的赞扬后,我感到惊讶的是,ChatGPT并没有深入任何相关的学术文献。相反,它专注于行业出版物和广告营销博客,这些内容只是间接地回答了我的问题。这些失误确实强调了在这个研究范式中来源和排名的重要性。

学术专用工具对于深度探索非常有价值。 通过这次探索,我也更加熟悉了像Scite和Consensus这样的工具可能在文献综述中扮演的角色。这些工具提供了迄今为止最丰富的界面来探索学术文献,通过一个简短的综述将查询结果结合起来。这使得它们成为深入研究的一个很好的起点。它们将是有价值的起点,用于在一个不熟悉的领域定位文献综述,但它们还没有完全自主的搜索和综合能力(目前没有)。

3、判决:探索文献的良好起点

在我在一个我熟悉的主题上测试了这些AI研究工具后,我的评估是务实的:它们是有用的起点,而不是完整的解决方案。表现出色的ScholarQA和Gemini Deep Research展示了当这些系统在搜索和综合方面都做对时,什么是可能的。

区分有效的研究工具和平庸的工具归根结底在于来源质量。即使是最先进的LLM,在使用劣质来源时也会产生浅显的分析,正如一些通用工具未能纳入相关学术文献所显示的那样。

对于研究人员来说,这些系统提供的最大价值在于作为发现工具——绘制陌生领域的地图,揭示矛盾,并识别潜在有价值的来源。它们补充而不是取代仍然根本是人类工作的批判性评估和综合。

这项技术正在迅速发展,但就目前而言,请将这些工具视为研究加速器,而不是自动化的文献评论员。


原文链接:AI Research Assistants: A Comparative Analysis

汇智网翻译整理,转载请标明出处