Skip to content

Haaaatcher/matpie

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

材料文献提取项目

一、用户指南 (v0.1.4)

1. 安装 matpie 软件包

pip install [软件包路径]

2. 使用 matpie 命令

matpie [PDF文件/目录的路径] -o [输出目录的路径] -c [配置文件的路径]

3. 使用配置文件定义提取器

字段名 数据类型 解释
task_type 字符串("lab" / "cal") 任务类型,"lab" 表示抽取实验数据,"cal"表示抽取仿真数据
cover 布尔值 是否覆盖中间文件
pdf_parser 字符串("pymupdf"/ "mineru") PDF 转 Markdown 的解析器,"pymupdf" 速度更快,"mineru" 精度更高
llm_base_url 字符串 大模型 API 的接口 URL
llm_model 字符串 大模型 API 的模型名称
llm_api_key 字符串 大模型 API 的鉴权码
llm_timeout 整数 大模型 API 的容忍时长
llm_reason 布尔值 大模型 API 的思考模式,开启后效果更好,但花费更多 token
mineru_backend 字符串("pipeline" / "hybrid-auto-engine") mineru 解析器的后端类型,"pipeline" 速度更快,"hybrid-auto-engine" 精度更高(GPU 使用)
concurrency 整数 并发度,建议设置为 CPU 核心数,但不要超过大模型 API 的并发上限

About

Extract key information from material papers by LLM.

Resources

License

Stars

Watchers

Forks

Contributors

Languages