17个高质量LLM数据集

从生成图像到总结复杂的研究论文,LLM 迅速改变了营销、客户服务和软件开发等行业。最近的一项研究估计,到 2030 年,LLM 市场将达到惊人的 361 亿美元。但每个强大的 LLM 背后都有一个关键因素:它的训练数据。就像人类从他们所消费的信息中学习一样,LLM 需要大量数据集来完善他们的能力。


为什么需要 LLM 数据集进行训练?

LLM 数据集对于训练至关重要,因为它们提供了 LLM 学习和理解语言所需的大量信息。就像孩子需要大量输入来发展语言技能一样,LLM 需要大量数据集来学习人类语言的基础。这些数据集来自各种文本格式,从网页和书籍到新闻文章和社交媒体对话。这种多样性使 LLM 接触到不同的写作风格、词汇和句子结构,使其变得多功能和全面。训练数据的质量显著影响大型语言模型的性能。开源数据集提供了一个很好的起点,但可以为专门的任务创建自定义数据集,以使模型专注于特定领域,从而获得更准确、更相关的结果。

用于文本生成的 LLM 数据集

大型语言模型 (LLM) 由大量文本数据驱动,从书籍和代码到文章和网络爬取信息。这些数据为 LLM 提供了理解人类语言模式的统计知识。在这里,我们将讨论一些用于训练 LLM 进行文本生成任务的流行数据集。

1、falcon-refinedweb

Falcon RefinedWeb 是一个庞大的英语文本数据集,用于预训练大型语言模型 (LLM)。它利用来自 CommonCrawl 的网络数据,通过过滤和重复数据删除专注于可扩展性和质量。它可以独立使用,也可以与精选来源(如 Wikipedia 或 StackOverflow)一起增强,为 LLM 提供更全面的训练体验。

  • 数据类型:仅文本,带有源信息和图像的附加注释。
  • 语言:英语
  • 大小:Falcon RefinedWeb 数据集的公开摘录估计在 500 到 650 GT 之间,具体取决于处理过程中使用的标记器。下载需要约 500GB,解压后需要 2.8TB 的本地存储空间。
  • 来源:CommonCrawl 公开提供的网页。

falcon-refineweb的主要优势:

  • 大规模和开源。
  • 实现与在精选数据集上训练的模型相当的性能。
  • 严格的过滤和重复数据删除以进行质量控制。
  • 包括处理样本中图像的链接和替代文本(多模式友好)。

2、fineweb-edu-score-2

fineweb-edu-score-2 是一个用于训练大型语言模型 (LLM) 的文本数据集。它提供了大量的教育内容,达到 5.4 万亿个标记。该数据集优先考虑教育价值而不是绝对质量,使其成为专注于教育目的的 LLM 的研究人员的宝贵资源。

用于过滤此数据集的教育质量分类基于另一个 LLM,LLama3-70B-Instruct 生成的标注。值得注意的是,用于训练分类器和使用数据集的代码可供公众使用。使用此数据集训练 LLM 的研究人员可能会考虑将其与其他更专业的数据集相结合,为他们的模型创建更全面的训练体验。例如,包括特定于代码的数据集可以解决 fineweb-edu-score-2 中可能缺乏代码内容的问题。

  • 数据类型:仅文本。此数据集仅包含从网页中提取的文本内容。
  • 语言:英语
  • 大小:5.4 万亿个 token
  • 来源:数据来源于公开可用的网络爬虫(自 2013 年以来的 Common Crawl)。

fineweb-edu-score-2的主要优势:

  • 提供大量文本数据用于训练大型语言模型 (LLM)。
  • 针对教育内容,可能提高 LLM 在相关任务上的表现。
  • 可免费用于研究和开发目的。

3、cosmopedia

Cosmopedia 是一个免费提供的合成文本数据集(超过 250 亿个 token),旨在训练大型语言模型 (LLM)。它包含各种文本格式,包括教科书、博客文章、故事和 WikiHow 文章。

  • 大小:3000 万个文件,250 亿个 token
  • 语言:英语
  • 数据类型:纯文本
  • 来源:在 Hugging Face 上公开提供
  • 分割:基于种子样本来源(网络样本、教育资源等)

Cosmopedia的主要优势:

  • Cosmopedia 是最大的开源合成数据集,涵盖广泛的主题。
  • 它包括各种文本格式,适合不同的学习风格和应用。
  • 数据集经过精心挑选,具有教育性和信息性。
  • 通过及时细化采取措施尽量减少重复内容。
用于问答的 LLM 训练数据集

在问答方面,LLM 需要的不仅仅是语言技能。他们需要具有问答对和上下文的专门数据集来理解它们之间的关系。以下是一些用于 LLM 问答训练的流行数据集 -

4、rajpurkar/squad

rajpurkar/squad 数据集是斯坦福问答数据集 (SQuAD),旨在训练问答模型。它由大量(超过 100,000 个)来自维基百科文章的问答对组成。每个问题都与特定段落相关联,答案是直接在该段落中找到的一段文本。也存在问题可能无法在提供的上下文中得到回答的情况。

rajpurkar/squad的主要优势:

  • 大量问答对(100,000+)
  • 提取式 QA(答案是一段文本)
  • 支持 AI 模型中阅读理解能力的开发

5、nvidia/OpenMathInstruct-1

OpenMathInstruct-1 数据集提供 180 万个文本代码对,用于训练大型语言模型以解决数学问题。它将自然语言指令与 Python 代码执行相结合,反映了现实世界的场景。数据集提供有关每个问题的详细信息,包括解决方案、预期答案和正确性。 OpenMathInstruct-1 公开可用,具有预训练模型,准确率超过 84%,是从事 AI 数学教学的研究人员的宝贵资源。

  • 大小:180 万个问题解决方案对
  • 数据类型:文本代码
  • 来源:公开可用的 [Hugging Face]([数据集 OpenMathInstruct 1])

OpenMathInstruct-1 的主要优势:

  • 用于训练大型语言模型 (LLM) 解决数学问题的大型数据集。
  • 解决方案将文本推理与 Python 代码执行相结合,模仿现实世界的问题解决。
  • 数据集包括各种数据字段以供详细分析:原始问题、生成的解决方案、预期答案、预测答案和正确性标志。
  • 它通过预训练的 OpenMath 模型实现了高精度(在 GSM8K 和 MATH 基准上高达 84.7%)。

6、stanfordnlp/SHP

SHP (斯坦福人类偏好数据集)  收集了 385,000 份人类书写的回复,这些回复对训练 NLG 评估和 RLHF 奖励模型的帮助程度具有偏好。这些回复来自 Reddit 上的真实对话,涉及烹饪建议 (askculinary) 和科学探究 (askscience) 等各个领域。SHP 的关键方面在于确定哪种回复是首选。与仅仅依赖于点赞数的数据集不同,SHP 会同时考虑时间戳和点赞数。如果后一条评论的点赞数高于前一条评论,则后一条评论被认为更有帮助和更具信息量。这种方法有助于避免因评论的初始可见性而引入的偏见。

  • 数据类型:纯文本
  • 来源:在 Hugging Face 上公开提供

SHP的主要优势:

  • 该数据集包含大量带有偏好的人工书写回复。
  • 它涵盖了不同的领域(烹饪、法律建议等)。
  • 偏好标签侧重于有用性,这有助于 NLG 评估。

7、Open-Orca/OpenOrca

OpenOrca 数据集是一组文本条目,旨在提高自然语言处理 (NLP) 模型的推理能力。它非常适合研究人员和开发人员训练 NLP 模型以完成问答和文本生成等任务。该数据集将 FLAN 集合中的现有问题与 GPT-3.5 或 GPT-4 生成的新答案相结合,本质上为原始数据添加了一层解释。这种方法在训练高性能模型方面取得了成功。

  • 大小:约 420 万个条目(100 万个 GPT-4 完成,320 万个 GPT-3.5 完成)
  • 数据类型:纯文本
  • 来源:在 Hugging Face 上公开提供 https://huggingface.co/Open-Orca
  • 语言:主要是英语

OpenOrca的主要优势:

  • 旨在提高 NLP 模型的推理能力。
  • 在训练模型中取得了高性能(例如,OpenOrca-Platypus2-13B 超越了 LLaMA1-65B)。
  • 使用 GPT 生成的响应增强现有的 FLAN 集合数据。
  • 正在进行中,数据生成正在进行中。
用于文本分类的 LLM 训练数据集

LLM 需要学习如何将文本分类为特定组以进行文本分类。以下是一些用于 LLM 文本分类训练的热门数据集 -

8、dell-research-harvard/AmericanStories

American Stories 数据集是国会图书馆提供的近 2000 万份美国报纸扫描件(1774-1963 年)的历史信息宝库。它提供高质量文本和原始图像,克服了布局复杂和光学字符识别 (OCR) 准确度低的挑战。这些结构化数据包括文章详细信息,如报纸名称、日期、页面、标题、署名和全文本身。研究人员可以利用这个金矿来训练大型历史英语语言模型,并增强他们对过去的理解。它对社会科学研究也很有价值,可以完成主题建模和发现重复使用的内容等任务。

  • 大小:来自 Chronicling America(国会图书馆)的近 2000 万份扫描件,涵盖 1774-1963 年。
  • 数据类型:文本图像(提取的文本和原始图像数据)
  • 来源:公共领域 (https://www.loc.gov/)

American Stories 的主要优势:

  • 该数据集包含大量美国历史报纸文章,具有高质量的文本提取(克服了复杂布局和低 OCR 质量的挑战)。
  • 它具有结构化数据,包括文章元数据(报纸、日期、页面)、标题、署名和文章文本。
  • 能够对历史英语进行大型语言模型训练,并提高对历史世界知识的理解。
  • 对社会科学研究和主题建模和检测重用内容等应用很有价值。
  • 公开可用,可以按年份或全部访问。

9、li2017dailydialog/daily_dialog

li2017dailydialog/daily_dialog 数据集是人类互动中自然对话的公开集合。这些纯文本对话涵盖日常话题,包含丰富的信息,可用于训练聊天机器人和语言系统。每条消息都根据其交流意图(告知、提问等)和传达的情绪(快乐、悲伤等)进行标记,这使其对文本分类任务很有价值。然而,数据集的大小可能会限制它在大型项目中的使用,而且缺乏有关其来源和潜在偏见的信息需要仔细考虑。这种人工编写的高质量数据可以让人们一窥自然对话,但其局限性需要深思熟虑地应用。

  • 大小:下载 4.48 MB,提取 8.63 MB
  • 数据类型:纯文本
  • 来源:公开可用
  • 语言:英语

daily_dialog的主要优势:

  • 对话自然,没有噪音。
  • 它捕捉了来回交流的真实对话。
  • 数据集涵盖了广泛的日常主题。
  • 包括沟通意图(通知、问题等)和情绪。
用于代码生成训练的 LLM 数据集

生成代码需要 LLM 了解编程语言及其背后的逻辑。以下是一些包含代码示例及其功能的数据集,用于训练 LLM 进行代码生成 -

10、bigcode/bigcodebench

BigCodeBench 数据集是用于评估大型语言模型 (LLM) 在实际编码任务上的基准。它有两种变体:基于指令的代码完成 (Complete) 和基于自然语言指令的代码生成 (Instruct)。它源自 GPT-4-0613,并经过人类专家和 LLM 的改进,包含英语和 Python 的各种编码场景。该数据集非常适合研究人员和开发人员提高 LLM 理解和生成代码的能力。

  • 数据类型:文本(代码和自然语言)
  • 来源:在 Hugging Face 上公开提供
  • 语言:英语(自然语言)和 Python(3.0+)代码
  • 数据字段:包括任务 ID、提示(完整、指示、仅代码)、解决方案代码、测试代码、文档字符串结构、描述、注释、要求、参数、返回值、异常和可选示例。

BigCodeBench的主要优势:

  • 易于使用的基准,用于评估 LLM 在实际编程任务上的表现。
  • 多样化的函数调用和复杂的指令挑战 LLM 的推理和遵循指令的能力。
  • 它涵盖了各种编程场景,使其实用。

11、mikex86/stackoverflow-posts

mikex86 的 StackOverflow Posts 数据集是一个庞大的代码相关问题和答案集合,包含 2023 年 6 月 14 日之前来自 Stack Overflow 的大约 6000 万个帖子。该数据集来源于公共 Internet Archive StackExchange Data Dump,提供以可读 Markdown 格式格式化的纯文本数据。每篇帖子都包含其类型(问题、答案等)、分数和相关标签等详细信息,这对于在代码理解、问题解决和在编程环境中生成不同沟通风格等领域训练大型语言模型非常有用。

  • 大小:~6000 万个帖子(35GB,650 亿个字符)
  • 数据类型:纯文本(Markdown 格式)
  • 来源:可从 Internet Archive StackExchange Data Dump 公开获取

StackOverflow Posts 的主要优势

  • 大量与代码相关的问题和答案。
  • 文本采用可读 Markdown 格式。
  • 它包括帖子类型、分数和标签等附加信息。
  • 非常适合 - 在编程相关任务中训练大型语言模型。
医疗行业的 LLM 数据集

为医疗领域量身定制 LLM 也需要专门的数据。查看以下训练数据集,其中包括医学期刊、临床试验信息和去识别患者数据,以训练 LLM 理解医学语言和概念 -

12、chest-xray-classification

Chest-xray-classification数据集旨在训练医学图像分类模型,明确侧重于胸部 X 光片中的肺炎检测。这是一个良好的入门数据集,可用于构建基本的胸部 X 光片分类模型,尤其是用于肺炎检测。但是,具有更广泛类别和强大增强技术的数据集对于更全面的医学诊断来说会更可取。

  • 来源:Roboflow 上公开提供(Roboflow 胸部 X 光数据集
  • 大小:5,824 张图像(4,077 张训练、582 张测试、1,165 张验证)
  • 数据类型:文本图像(带有文本标签的图像文件)

Chest-xray-classification的主要优势:

  • 图像被归类为“正常”或“肺炎”,在训练、测试和验证集之间几乎均匀分布。
  • 图像会自动定向和调整大小以保持一致性。
  • 易于访问和用于研究目的。

13、ncbi/pubmed

ncbi/pubmed 是一个庞大的生物医学研究引文和摘要数据集,来源于美国国立卫生研究院 (NIH)。该公共资源包含超过 3600 万个条目,每个条目都侧重于特定的生物医学主题。数据包括文章标题、总结研究的摘要和作者信息。研究人员可以利用这一丰富的资源来训练生物医学概念和语言的大型语言模型 (LLM),使 LLM 成为文献综述、药物发现和蛋白质功能预测等任务的宝贵工具。

  • 非常适合 - 训练生物医学概念和语言的大型语言模型 (LLM)。
  • 数据类型:纯文本(文章标题、摘要、作者信息)
  • 语言:英语
  • 大小:非常大(>3600 万个条目)

pubmed的主要优势:

  • 它涵盖了广泛的生物医学主题。
  • 数据集包括总结研究文章要点的摘要。
  • 免费访问和使用(有一些限制)。
用于训练的其他杂项 LLM 数据集

14、nampdn-ai/tiny-codes

nampdn-ai/tiny-codes数据集是 160 万个代码片段的集合,旨在训练大型语言模型 (LLM) 使用代码和自然语言进行推理。此数据集包含各种编程语言(如 Python、JavaScript 和 Java)的注释代码片段,强调 if/else 控制流以提高 LLM 的推理能力。此数据集并非专门用于代码生成,而是用于增强 LLM 理解自然语言和代码之间联系的能力,使其对该领域的研究人员很有价值。

  • 大小:160 万个代码片段
  • 数据类型:文本代码(带注释的代码片段)
  • 来源:在 Hugging Face 上公开提供

tiny-codes的主要优势:

  • 提高 LLM 理解自然语言和代码之间关系的能力。
  • 精心编写和注释的代码片段以提高可读性。
  • 它涵盖了 Python、JavaScript、Java 等,促进了更广泛的理解。
  • 使用 if/else 控制流来增强 LLM 的推理技能。
  • 类似于有效 LLM 培训的教育材料。
  • 它旨在提高推理能力,而不是创建新代码。
  • 非常适合 - 训练 LLM 使用代码和自然语言进行推理。

15、THUDM/LongBench

THUDM/LongBench 是一个公共数据集,用于评估大型语言模型对长文本段落的理解程度。它来自 GitHub,提供各种英语和中文任务,从问答和总结到代码完成。所有数据都遵循一致的格式,便于评估,平均文本长度在 5,000 到 15,000 字之间。该数据集对于提高 LLM 在冗长的上下文中处理复杂信息的能力的研究人员特别有用。

  • 大小:21 个任务中的 4,750 个测试数据点。
  • 数据类型:纯文本
  • 来源:在 GitHub 上公开提供
  • 语言:英语和中文

LongBench的主要优势:

  • 它评估英语和中文文本中的模型。
  • 它涵盖了问答、总结、小样本学习和代码完成等任务。
  • 该数据集专注于需要理解长文本段落的任务。
  • 确保自动评估的数据结构一致。
  • 它包括一个具有平衡长度分布的子集 (LongBench-E),用于分析不同的输入长度。

16、lmsys/chatbot_arena_conversations

lmsys/chatbot_arena_conversations 数据集提供了大型语言模型 (LLM) 与人类用户之间的 33,000 个基于文本的对话。它包括用户对这些对话的偏好,这对于研究用户与 LLM 的交互很有价值。该数据集包含来自各种 LLM 的输出,包括 GPT-4 等高级模型,并具有来自真实用户的不受限制的对话。这种丰富性使其有助于研究现实世界的用户提示、训练对话代理、评估 LLM 和改进 AI 安全措施。

  • 大小:33,000 个对话
  • 数据类型:纯文本(OpenAI API JSON 格式)
  • 来源:在 Hugging Face 上公开提供

chatbot_arena_conversations 的主要优势:

  • 它包括用户对不同 LLM 之间对话的偏好。
  • 该数据集包含来自 20 个 LLM 的输出,包括 GPT-4 等最先进的模型。
  • 具有来自真实用户的不受限制的对话。
  • 对于研究用户提示、训练对话代理、LLM 评估和 AI 安全很有价值。

17、hoskinson-center/proof-pile

hoskinson-center/proof-pile 数据集是一个庞大的文本数据集合(83 亿个 token),专门用于训练和改进人工智能模型处理数学任务。该数据集来源于研究论文(arXiv)、教科书、在线论坛(Math Overflow)和代码库等地方,包括非正式解释和代表数学概念的正式代码。研究人员设想这种资源有助于开发能够解决问题、证明定理、搜索数学信息并将非正式想法转化为正式代码的人工智能模型。

proof-pile的主要优势:

  • 大量且多样化的数学文本集合(正式和非正式)。
  • 涵盖各种来源,如 arXiv、教科书、代码库、问答论坛。
  • 专为预训练和微调语言模型而设计,用于以下任务:- 非正式定量推理、正式定理证明、形式数学的语义搜索和证明的自动形式化。

原文链接:15+ High-Quality LLM Datasets for Training your LLM Models

汇智网翻译整理,转载请标明出处