MinerU是一款PDF内容提取工具,也就是把PDF里面的内容通过识别,然后转换成HTML、DOCX、JSON和Markdown格式的软件。
这款软件是我见过的PDF内容识别转成Word文档后,还能高度还原PDF的格式最好的工具,来看看我原来的PDF:

把PDF拖入MinerU后,软件立即识别内容,看看识别的效果,不能说大差不差,只能说完全一模一样。

识别后可保留原始文档的结构,包括标题、段落、列表等,点击右上角的下载按钮可直接下载:

这款软件OCR支持检测和识别109种语言,并自动识别转换文档,非常好用,有需要的小伙伴及时收藏!