matpie [PDF文件/目录的路径] -o [输出目录的路径] -c [配置文件的路径]
| 字段名 |
数据类型 |
解释 |
| task_type |
字符串("lab" / "cal") |
任务类型,"lab" 表示抽取实验数据,"cal"表示抽取仿真数据 |
| cover |
布尔值 |
是否覆盖中间文件 |
| pdf_parser |
字符串("pymupdf"/ "mineru") |
PDF 转 Markdown 的解析器,"pymupdf" 速度更快,"mineru" 精度更高 |
| llm_base_url |
字符串 |
大模型 API 的接口 URL |
| llm_model |
字符串 |
大模型 API 的模型名称 |
| llm_api_key |
字符串 |
大模型 API 的鉴权码 |
| llm_timeout |
整数 |
大模型 API 的容忍时长 |
| llm_reason |
布尔值 |
大模型 API 的思考模式,开启后效果更好,但花费更多 token |
| mineru_backend |
字符串("pipeline" / "hybrid-auto-engine") |
mineru 解析器的后端类型,"pipeline" 速度更快,"hybrid-auto-engine" 精度更高(GPU 使用) |
| concurrency |
整数 |
并发度,建议设置为 CPU 核心数,但不要超过大模型 API 的并发上限 |