X2Knowledge - 知识提取器工具

知识库原生支持:输出带元数据的Markdown,与RAG/LangChain/Agent等框架无缝对接

拖拽文件到此处或

支持的文件类型: .doc, .docx, .xls, .xlsx, .ppt, .pptx, .pdf, .txt, .md, .xml

注意: 处理旧版Word文档(.doc)可能需要更长时间,建议转换为.docx格式后上传

OCR功能: 自动识别文档中的图片文字

编码功能: 自动将文档转换为UTF-8编码,解决中文乱码问题

对原生Office格式文件(DOCX, XLSX, PPTX)支持非常好,速度快、准确率高,但对PDF格式文件效果较差
支持的文件格式:PDF、DOCX、PPTX、XLSX、XLS、CSV、JSON、XML、WAV、MP3

对PDF有优化的表格识别和VLM,准确率大大提升,支持更多输入格式,但需要CUDA环境最佳(当前使用CPU加速) 且时间较长,不建议在本测试环境使用!
支持的文件格式:PDF、DOCX、XLSX、PPTX、Markdown、AsciiDoc、HTML、XHTML、CSV、PNG、JPEG、TIFF、BMP

目前仅支持PDF、DOCX识别图文 将识别的图片存储在/static/images/目录下,请及时清理
支持的文件格式:PDF、DOCX

拖拽文件到此处或

注意: 转换为Markdown格式可以更好地保留文档结构

Markdown功能: 保留文档标题、列表、表格等结构

输入CSS选择器来提取特定内容
查看选择器教程

将网页内容转换为结构化的Markdown格式,保留原始内容的结构、链接和图片。

提示:移除页眉页脚选项可以帮助您获取更干净的主要内容。

选择器提示:使用CSS选择器(如 #content, .article, main)可以精确提取页面中的特定内容。

Markdown知识库入库预处理

将Markdown文件或文本处理为JSON和CSV格式的问答对,用于知识库入库前的数据准备。

处理规则说明:

  1. 将标题(#)收集为question,标题下的所有文本内容收集为answer,直到下一个标题的出现
  2. 如果是二级及以上标题,问题标题会拼接上级标题,格式为"{上级标题},{当前标题}"
  3. 只有包含内容的标题会被处理,空标题会被忽略

示例:

原始Markdown:
# 一、项目介绍
X2Knowledge 是一个高效的开源知识提取器工具

## 1.项目架构图
![设计示意图](data:image/png;base64...)

## 2.功能特点
* **多种转换引擎**
  + **MarkItDown**:针对Office文档优化,速度快、效率高
生成的JSON:
[
  {
    "question": "一、项目介绍",
    "answer": "X2Knowledge 是一个高效的开源知识提取器工具"
  },
  {
    "question": "一、项目介绍,1.项目架构图",
    "answer": "![设计示意图](data:image/png;base64...)"
  },
  {
    "question": "一、项目介绍,2.功能特点",
    "answer": "* **多种转换引擎**\n  + **MarkItDown**:针对Office文档优化,速度快、效率高"
  }
]

方法使用说明:

  1. POST请求: /preprocess-for-storage 具体参数见swagger页面的调用方法
  2. 该方法仅适用于Markdown文件,其他格式文件请使用其他方法
  3. 同时文件中至少包含一个标题,否则内容为空

预览内容