Dify教程：知识库分段模式

在AI应用中，知识库的分段与数据清洗是至关重要的一步。通过合理的分段方式，不仅能提升LLM（大语言模型）对内容的检索效率，还能显著提高回答的准确性和全面性。今天，我们就来聊聊知识库的两种主要分段模式——通用模式和父子模式，以及它们各自的特点和适用场景。

分段模式

想象一下，你在智能客服场景中提了一个问题，系统需要快速找到工具手册中的关键内容块来回答你的问题。如果知识库的分段不够科学，系统可能要分析整个文档，不仅浪费计算资源，还可能降低回答的精准度。而合理的分段模式能帮助系统迅速定位到最相关的内容，既节省了Tokens，也提升了问答质量。

ai_tutorial_dify_advanced_Creating_Knowledge_Base_2_1

通用模式是知识库的默认分段方式，适合大多数普通场景。它的核心理念是将文档内容拆分成独立的分段，每个分段都可以单独检索。以下是通用模式的主要特点：

1.分段规则灵活
系统根据用户自定义的规则，对内容进行分段。默认的分段标识符是\n，即按照段落分段。不过，如果你有特殊需求，也可以使用正则表达式自定义分段规则，比如按照句子分段。

ai_tutorial_dify_advanced_Creating_Knowledge_Base_2_2

2.分段长度与重叠

3.文本预处理
系统提供了一些基础的清洗规则，比如：

4.预览效果
配置完成后，可以通过“预览区块”按钮查看分段效果，直观了解每段的字符数和分段情况。

ai_tutorial_dify_advanced_Creating_Knowledge_Base_2_3

通用模式的优势在于简单易用，适合结构清晰、段落独立性强的文档场景。但它的不足在于，如果用户问题需要更全面的上下文信息，可能会显得有些局限。

父子模式则是在通用模式基础上的一种升级，采用了双层分段结构。通过“父分段”和“子分段”的组合，既能保证检索的精准性，又能提供完整的上下文信息。

1.父分段：提供上下文背景
父分段是较大的文本单位，比如段落或全文，用于提供丰富的上下文信息。父分段的设置包括：

分段标识符：默认值为\n，即按照段落分段。你也可以自定义分隔符规则。
最大长度：默认500 Tokens，最大支持4000 Tokens。如果选择“全文”作为父分段，则整个文档会被视为一个父分段，适合文本量较小但段落关联性强的场景。

ai_tutorial_dify_advanced_Creating_Knowledge_Base_2_4

2.子分段：精准匹配用户问题
子分段是父分段中的小单位，比如单个句子，用于提高检索的精确度。子分段的设置包括：

3.父子召回机制
父子模式的核心是“子分段匹配，父分段补充”：

这种双层结构特别适合需要上下文关联的场景，比如AI智能客服。在用户提问时，系统不仅能找到具体的答案，还能补充相关背景信息，确保回答更加完整。

ai_tutorial_dify_advanced_Creating_Knowledge_Base_2_5

如果你是首次创建知识库，建议选择父子模式。虽然它的配置稍微复杂一些，但在检索效果和回答质量上更具优势。需要注意的是，分段模式一旦选定，后续无法更改，新增文档也会沿用同样的分段规则。

从我的理解来看，这两种模式各有千秋。通用模式适合简单直接的需求，而父子模式则更适合复杂场景。特别是在需要上下文的情况下，父子模式的效果会更好。如果你对分段规则不熟悉，也不用担心，系统的预览功能能让你直观地看到分段效果，随时调整配置。

总之嘛，选择合适的分段模式，能让你的知识库如虎添翼，让AI回答更精准、更贴心！

想深入了解DeepSeek的核心玩法扫描下方二维码加入微信群

阅读全文