用GPT-4进行科研或许将成为每个人的标准配置,但要高效利用LLM工具,掌握一些技巧是必不可少的。最近,一位哈佛博士分享了他的经验,并获得了LeCun的推荐。
随着GPT-4的推出,很多人对自己的科研能力产生了焦虑,甚至有人调侃称自然语言处理(NLP)不再重要。然而,面对这一变化,不如将其应用于科研,换个思维方式来应对挑战。
来自哈佛大学的生物统计学博士Kareem Carr表示,他已经开始利用GPT-4等大型语言模型进行学术研究。他强调,这些工具非常强大,但同样存在一些让人感到棘手的问题。
他的关于LLM使用的建议推文甚至获得了LeCun的推荐。接下来,让我们一起看看Kareem Carr是如何利用AI工具进行科研的。
第一原则:不验证的信息不应询问LLM
Carr提出的第一个原则是:
永远不要向大型语言模型询问你无法自行验证的信息,或者要求其执行无法验证的任务。
唯一的例外是,如果该任务不是关键性任务,例如向LLM询问公寓装饰的建议。他指出,像“使用文献综述的最佳实践,总结过去10年乳腺癌研究”这样的请求比较糟糕,因为你无法直接验证其准确性。相对而言,更优的提问方式是:“请给我一份过去10年关于乳腺癌研究的顶级评论文章的清单。”这样的提示不仅可以验证信息来源,还能让你确认其可靠性。
撰写高效提示的小技巧
要求LLM为你编写代码或查找信息非常简单,但其输出的质量可能差异很大。你可以采取以下措施提高输出质量:
- 设定上下文:明确告诉LLM应使用哪些信息,使用专业术语和符号,以引导LLM更倾向于正确的信息。
- 具体明确:与其问“二次项的联立方程如何求解?”,不如问“如何求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 的方程组?”
- 定义输出格式:利用LLM的灵活性,将输出格式设置为最适合自己的方式,例如:代码、数学公式、文章、教程或简明指南。你甚至可以要求生成代码来创建表格、绘图或图表。
尽管得到了LLM的输出,但这只是个开始。你仍需对输出内容进行验证,包括:
- 检查不一致之处
- 通过Google检索术语来获取可靠的来源
- 在可能的情况下,编写代码进行自行测试
自行验证的原因在于,LLM可能会出现与其看似专业水平不符的奇怪错误。比如,LLM可能会提到一个相当复杂的数学概念,但对简单的代数问题却束手无策。
多问几次
大型语言模型生成的内容是随机的。有时,如果在新窗口中重新提问,可能会得到更好的答案。同时,使用多个LLM工具也是个不错的选择。Kareem Carr在科研中使用了Bing AI、GPT-4、GPT-3.5和Bard AI,各有优缺点。
引用与生产力
根据Carr的经验,最好是同时向GPT-4和Bard AI提出相同的数学问题,以获得不同的见解。Bing AI适合网络搜索,而GPT-4相比GPT-3.5更加智能,但OpenAI目前限制了每三小时的消息数量,这使得访问变得困难。
在引用问题上,LLM的表现相对较弱。有时候,LLM提供的参考资料出于虚构,被业内称为“幻觉”问题,可能并不存在。
Kareem Carr指出,尽管虚假的引用并非完全无用,但其中的术语和相关领域的研究人员往往与真实情况相符,因此通过Google搜索这些术语,能够更接近你要寻找的信息。此外,Bing在寻求来源时也表现得相当不错。
提高生产力
有很多关于LLM如何提高生产率的不切实际的说法,诸如“LLM可以将你的生产力提高10倍,甚至100倍”。Carr认为这种加速前提是,没对工作进行双重检查,这对学者来说是极不负责的。然而,LLM确实对他的学术工作流程产生了积极的改进,具体包括:
- 原型设计
- 识别不必要的想法
- 加速繁琐的数据重新格式化任务
- 学习新的编程语言、库和概念
- Google搜索
借助目前的LLM,Carr表示他将花费在决定下一步操作上的时间减少了。LLM帮助他将模糊或不完整的想法推进到完整的解决方案,同时也减少了他在与主要目标无关的副业上浪费的时间。
Carr在LinkedIn上分享了他使用ChatGPT的体验,表示作为一名数据科学家,他在实验中发现ChatGPT并没有人们想象中那么强大。虽然一开始让他失望,但他认为类似ChatGPT的系统可以为标准的数据分析工作流程增加巨大价值。
Carr指出,目前最大的问题仍然是评估和改进ChatGPT的解决方案是否更容易,或者从头开始更简单。他发现,即便ChatGPT的解决方案很糟糕,也能激发他大脑的相关思维,而自己从头开始可能无法做到。
结论
网友对于AI输出内容的验证问题表示,在大多数情况下,人工智能的正确率约为90%。然而,剩下的10%错误可能是致命的。Carr调侃道:“如果100%无误,那我就没有工作了。”
那么,为什么ChatGPT会生成虚假的参考文献呢?需要注意的是,ChatGPT使用的是基于统计的模型,依赖概率推测下一个单词、句子和段落,以匹配用户提供的上下文。由于源数据的规模极其庞大,模型需要进行“压缩”,而这往往导致最终结果失去精度。
因此,即使原始数据包含真实的陈述,模型的“失真”可能产生模糊性,从而导致输出信号出现错误。此外,该模型的数据来源于通过“Common Crawl”等途径收集的公共网络数据,而这些数据在2021年截止,且大多未经过滤,可能包含大量错误信息。
最近,NewsGuard的一项分析发现,GPT-4实际上比GPT-3.5更倾向于生成错误信息,并且在回复中的说服力更强。1月份的测试发现GPT-3.5在100个虚假新闻叙述中生成了80个,而在3月的测试中,GPT-4对所有100种虚假叙述都给出了虚假和误导性的回应。
综上所述,在使用LLM工具的过程中,进行来源的验证和内容的审查是十分必要的。