Merge pull request #473 from WayneCui/main

add some Chinese translation for pages/research
3 weeks ago · 58f39c4e26
parent 77d161620f 616154c8e8
commit 58f39c4e26
9 changed files with 172 additions and 0 deletions
--- a/pages/research/guided-cot.zh.mdx
+++ b/pages/research/guided-cot.zh.mdx
@ -0,0 +1,19 @@
+# 语言模型引导的思维链(CoT)
+
+[Lee 等人（2024）的新研究](https://arxiv.org/abs/2404.03414)提出了一种创新方法，利用小型语言模型来提升大语言模型的推理能力。
+
+首先，研究者将大型语言模型生成的解释通过知识蒸馏技术转移到小型语言模型上，以期缩小两者在推理能力上的差距。
+
+在这种方法中，轻量级语言模型负责生成解释，而答案预测则由冻结的大型语言模型完成。这种方法不仅资源高效，而且免去了对大型模型的微调。
+
+随后，研究者使用以解释和任务为导向的多种奖励信号，通过强化学习对知识蒸馏后的小型语言模型进行优化。
+
+!["LM-Guide Chain-of-Thought"](../../img/research/guided-cot.png)
+*来源：https://arxiv.org/pdf/2404.03414.pdf*
+
+该框架在多跳（multi-hop）抽取式问答任务上进行了测试，并在答案预测准确率方面超过了所有基线方法。强化学习的应用提高了生成解释的质量，进而提升了问答性能。
+
+本文提出的语言模型引导的思维链提示方法在性能上超越了标准提示和传统思维链提示。自我一致性解码也进一步提高了性能。
+
+这种方法巧妙地利用了小型语言模型来生成解释，其结果令人瞩目，因为人们通常认为大型语言模型更适合此类任务。开发者应当深入考虑这种任务分解的方式，并非所有任务都需要依赖大型模型来完成。在微调过程中，思考希望优化的具体方面，并探索小型语言模型是否能够胜任，是非常有用的。
+
--- a/pages/research/infini-attention.zh.mdx
+++ b/pages/research/infini-attention.zh.mdx
@ -0,0 +1,17 @@
+# 高效处理无限长文本的Transformer模型
+
+Google的[最新研究](https://arxiv.org/abs/2404.07143)在标准的点积注意力机制中整合了压缩内存技术。
+
+这项技术的目标是让Transformer大语言模型能够使用有限的内存足迹和计算资源，有效地处理长度几乎无限的输入数据。
+
+研究团队提出了一种名为Infini-attention的新型注意力技术，它将一个压缩内存模块融入到了标准的注意力机制中。
+
+!["Infini-Attention"](../../img/research/infini-attention.png)
+
+Infini-attention技术在单个Transformer模块中结合了局部掩蔽注意力和长期线性注意力，这使得Infini-Transformer模型能够高效地同时处理长距离和短距离的上下文依赖。
+
+使用这种技术，模型在处理长文本的语言建模任务中，性能超越了现有的标准模型，内存使用量压缩了114倍。
+
+研究还表明，一个拥有100亿参数的大语言模型可以轻松处理长度为100万的数据序列，而一个拥有800亿参数的模型在处理50万字符长度的书籍摘要任务上，取得了当前最佳的成绩。
+
+随着处理长文本的大型语言模型变得越来越重要，通过高效的内存系统，这些模型将能更好地进行推理、规划和持续学习，展现出更加强大的问题处理能力。
--- a/pages/research/llm-reasoning.zh.mdx
+++ b/pages/research/llm-reasoning.zh.mdx
@ -0,0 +1,36 @@
+# 大语言模型的推理能力
+
+在过去几年里，大语言模型(LLM/Large Language Model)在广泛的任务中取得了长足进展。最近，随着规模的扩大，LLM展现出了具备推理能力的潜力。推理是智力的基础，但 AI 模型如何学会并利用这种能力来解决复杂问题尚不完全清楚。这是目前许多研究实验室关注和大力投资的热门领域。
+
+## 基础模型的推理
+[Sun et al. (2023)](https://arxiv.org/abs/2312.11562) 最近提出了一个关于基础模型推理的概述，重点介绍了各种推理任务的最新进展。该概述还着重探讨了跨多模态模型和自主语言智能体(AI Agent)的推理能力。
+
+推理任务可能包括数学推理、逻辑推理、因果推理、视觉推理等。下图概述了该调查论文中讨论的推理任务，包括基础模型的推理技术，如对齐训练和上下文学习(In-context Learning)。
+
+!["Reasoning Tasks"](../../img/research/reasoning-tasks.png)
+*Figure source: [Sun et al.， 2023](https://arxiv.org/pdf/2212.09597.pdf)*
+
+## 如何引发LLM的推理能力?
+可以通过多种提示方法来引发和增强LLM的推理能力。[Qiao et al. (2023)](https://arxiv.org/abs/2212.09597) 将推理方法研究分为推理增强策略和知识增强推理两大类。推理策略包括提示工程(Prompt Engineering)、过程优化和外部引擎。例如，单级提示策略有[思维链(Chain-of-Thought)](https://www.promptingguide.ai/techniques/cot) 和[主动提示(Active-Prompt)](https://www.promptingguide.ai/techniques/activeprompt)等。下图总结了该论文所提出的语言模型提示推理分类：
+
+!["Reasoning Taxonomy"](../../img/research/reasoning-taxonomy.png)
+*Figure source: [Qiao et al.， 2023](https://arxiv.org/pdf/2212.09597.pdf)*
+
+
+[Huang et al. (2023)](https://arxiv.org/pdf/2212.10403) 也总结了改进或引发大语言模型(LLM，如 GPT-3)推理能力的多种技术，包括使用监督微调模型(在解释数据集上训练)到少样本(Few-shot)和零样本(Zero-shot)的提示方法，如思维链(Chain-of-Thought)、问题分解和上下文学习(In-context Learning)。下图总结了论文中描述的这些技术:
+
+!["Reasoning Techniques"](../../img/research/reasoning-techniques.png)
+*Figure source: [Huang et al.， 2023](https://arxiv.org/pdf/2212.10403.pdf)*
+
+## LLM 能否进行推理和规划?
+关于 LLM 是否具备推理和规划的能力存在很大争议。推理和规划是 LLM 在机器人领域、自主智能体等复杂应用中发挥作用的关键能力。[这篇立场文章](https://arxiv.org/abs/2403.04121) 探讨了 LLM 推理和规划的话题。作者的结论总结如下:
+
+> 从我所阅读、验证或完成的一切来看，都没有让我确信 LLM 确实能够进行通常所理解的推理/规划。它们所做的，是利用网络规模训练数据进行通用近似检索，这有时会被误认为是推理能力。
+
+## 参考文献
+
+- [语言模型提示推理:一项调查](https://arxiv.org/abs/2212.09597)
+- [走向大语言模型推理:一项调查](https://arxiv.org/abs/2212.10403)
+- [大语言模型能够推理和规划吗?](https://arxiv.org/abs/2403.04121)
+- [重新思考LLM推理的范围:多智能体讨论是关键吗?](https://arxiv.org/abs/2402.18272v1)
+- [Awesome LLM Reasoning](https://github.com/atfortes/Awesome-LLM-Reasoning)
--- a/pages/research/llm-recall.zh.mdx
+++ b/pages/research/llm-recall.zh.mdx
@ -0,0 +1,16 @@
+# 大型语言模型的上下文记忆受提示影响
+
+[Machlab 和 Battle（2024）的新研究](https://arxiv.org/abs/2404.08865)分析了不同大型语言模型在“大海捞针”测试中的上下文记忆性能。
+
+研究表明，各种大型语言模型回忆事实的长度和位置各不相同，且模型回忆性能对提示的微小变化非常敏感。
+
+!["Needle In the HayStack Performance"](../../img/research/haystack-performance.png)
+*来源：[Machlab and Battle (2024)](https://arxiv.org/abs/2404.08865)*
+
+此外，提示内容与训练数据之间的相互作用可能会降低回答的质量。
+
+模型的回忆能力可以通过增加模型大小、增强注意力机制、尝试不同的训练策略和进行微调来提高。
+
+论文提供了一个重要的实用建议：“通过持续的评估，可以更好地了解不同LLM在特定用例中的表现，从而做出更明智的选择，以最大化它们在实际应用中的影响力和效率。随着技术的不断发展，这种评估和选择过程将变得更加重要和有效。”
+
+研究的结论是，谨慎设计提示、建立持续的评估协议，并测试不同的模型改进策略对于提高记忆和实用性至关重要。
--- a/pages/research/llm-tokenization.zh.mdx
+++ b/pages/research/llm-tokenization.zh.mdx
@ -0,0 +1,27 @@
+# 大语言模型（LLM）的标记化处理
+
+Andrej Karpathy 最近发布了一个关于如何对大型语言模型（Large Language Model，简称 LLM）进行标记化处理的新[讲座视频](https://youtu.be/zduSFxRajkE?si=Hq_93DBE72SQt73V)。标记化是训练这类模型时的核心环节，它包括使用专属的数据集和算法（比如[字节对编码](https://en.wikipedia.org/wiki/Byte_pair_encoding)）来训练标记器。
+
+在讲座中，Karpathy 向我们展示了如何从零开始构建一个 GPT 标记器，并探讨了与标记化相关的一些异常行为。
+
+!["LLM Tokenization"](../../img/research/tokenization.png)
+
+
+*图源：https://youtu.be/zduSFxRajkE?t=6711*
+以下是视频中提及的列表内容：
+- 为什么大语言模型不能正确拼写单词？这是因为标记化。
+- 为什么它不能执行像字符串反转这样的简单任务？同样是因为标记化。
+- 为什么在处理日语等非英语语言时表现不佳？标记化的问题。
+- 为什么它在简单算术方面表现糟糕？也是标记化导致的。
+- GPT-2 为什么在用 Python 编码时遇到更多问题？依旧是标记化的问题。
+- 当模型遇到 "\<endoftext\>" 这个字符串时为什么会突然停止？还是标记化的问题。
+- 那些关于 "trailing whitespace" 的警告是什么意思？也是标记化引起的。
+- 为什么询问 "SolidGoldMagikarp" 时模型会出错？同样是标记化的问题。
+- 为什么在使用大语言模型时更倾向于使用 YAML 而不是 JSON？这也是标记化的问题。
+- 为什么大语言模型并不是真正的端到端语言模型？原因在于标记化。
+- 什么才是痛苦真正的根源？在这一点上，讲座中以幽默的方式指出，也是标记化。
+
+为了提升大语言模型的可靠性，了解如何有效地提示模型至关重要，这包括认识到它们的局限性。虽然在模型推理时对标记器的关注不多（除了设置 `max_tokens` 参数之外），但要想进行有效的提示工程，就需要像考虑如何构建和格式化提示一样，理解标记化过程中的内在限制和约束。例如，如果提示没有达到预期效果，可能是因为模型未能正确处理或标记化某个缩写词或概念，这是一个很多开发者和研究者在开发大语言模型时容易忽视的问题。
+
+[Tiktokenizer](https://tiktokenizer.vercel.app/) 是一个实用的标记化工具，Karpathy 在讲座中就是用它来演示的。
+
--- a/pages/research/rag-faithfulness.zh.mdx
+++ b/pages/research/rag-faithfulness.zh.mdx
@ -0,0 +1,16 @@
+# RAG 模型的忠实度如何？
+
+[Wu 等人（2024）的研究](https://arxiv.org/abs/2404.10198)旨在衡量 RAG 与 LLM 内部先验之间的角力。
+
+研究重点分析了 GPT-4 和其他 LLMs 在问答任务上的表现。
+
+研究发现，提供准确检索信息能显著减少模型错误，达到 94% 的准确率。
+
+!["RAG Faithfulness"](../../img/research/rag-faith.png)
+*来源：[Wu et al. (2024)](https://arxiv.org/abs/2404.10198)*
+
+当文档中的错误信息增多且 LLM 的内部先验较弱时，LLM 更倾向于重复错误信息。但是，当 LLM 拥有较强的先验时，它们对此类错误的抵抗力更强。
+
+论文还指出，修改后的信息与模型先验的差异越大，模型选择这种信息的可能性就越小。
+
+由于许多开发者和公司已经在生产环境中使用 RAG 系统，这项工作强调了在使用大型语言模型时，评估上下文信息中的支持性、矛盾性和错误性内容的重要性。
--- a/pages/research/rag_hallucinations.zh.mdx
+++ b/pages/research/rag_hallucinations.zh.mdx
@ -0,0 +1,12 @@
+
+# 利用 RAG 降低结构化输出中的虚假信息
+
+ServiceNow 的研究人员发表了一篇[新论文](https://arxiv.org/abs/2404.08189)，探讨了如何为结构化输出任务高效部署 RAG 系统。
+
+!["RAG Hallucination"](../../img/research/structured_outputs.png)
+
+RAG 系统整合了小型语言模型和极小型检索器。研究表明，RAG 使得在资源受限的环境下部署强大的 LLM 驱动的系统成为可能，同时减轻了虚假信息问题并提升了输出的可靠性。
+
+论文讨论了一种极具实用价值的企业应用，即将自然语言需求转换为工作流程（以 JSON 格式）。这项任务能够极大提升生产力，尽管还有许多优化空间（例如，采用推测性解码或使用 YAML 代替 JSON）。
+
+论文提供了关于如何在现实世界中有效开发 RAG 系统的宝贵见解和实用建议。
--- a/pages/research/synthetic_data.zh.mdx
+++ b/pages/research/synthetic_data.zh.mdx
@ -0,0 +1,11 @@
+# 语言模型合成数据的实用技巧与经验
+
+这篇[论文](https://arxiv.org/abs/2404.07503)总结了语言模型合成数据的实用技巧与经验，由 Google DeepMind 及其他合作者共同发表。
+
+该论文聚焦于合成数据，探讨了其在应用、挑战以及未来发展方向上的作用。鉴于 AI 领域合成数据带来的显著进步，这是一篇非常重要的论文。
+
+我们深知，向模型提供高质量的数据越多，它们的性能就越好。然而，创建合成数据并不困难，真正的挑战在于确保其质量。
+
+此外，该论文还讨论了在使用合成数据时需要关注的重要话题，如数据质量、事实性、忠实度、无偏见性、可信度、隐私等。
+
+相关工作部分也列举了许多有价值的参考文献。
--- a/pages/research/thoughtsculpt.zh.mdx
+++ b/pages/research/thoughtsculpt.zh.mdx
@ -0,0 +1,18 @@
+
+# 大语言模型的中间修订与搜索推理
+
+[Chi 等人（2024）的研究](https://arxiv.org/abs/2404.05966))提出了一种用于可分解为组件的任务的通用推理和搜索方法。
+
+他们提出的基于图的框架——THOUGHTSCULPT，融入了迭代自我修正的能力，允许大语言模型构建一个交织的思维网络。
+
+与 Tree-of-thoughts 这样使用树形结构塑造推理过程的方法不同，这个新方法结合了蒙特卡洛树搜索（MCTS）来高效地导航搜索空间。
+
+这个新方法使用了一个由大语言模型驱动的思维评估器来对候选的部分输出提供反馈。然后一个思维生成器组件产生可能的解决方案。思维评估器和思维生成器组成了扩展阶段，这一阶段有助于改进当前的解决方案。
+
+!["ThoughtSculpt"](../../img/research/thoughtsculpt.png)
+
+最后，决策模拟器（作为 MCTS 过程的一部分）模拟连续的思维线索来评估一条路径的潜在价值。
+
+由于其能够持续迭代思维，THOUGHTSCULPT 特别适合于诸如开放式生成、多步骤推理和创造性构思等任务。
+
+我们可能会看到更多使用类似概念和搜索算法的先进方法，以提高大语言模型的推理能力，并增强处理需要复杂推理和规划的问题的能力。这是一篇跟踪这一研究趋势的好论文。