1
bombless 2013-11-23 01:38:18 +08:00
在一个C++群里面看过讨论。
似乎所有文字都是一个一个按坐标定位上去的,所以第一步是对整个排版做分析,把页面分块成几个章节。总之就是没有完全可靠的方法,特别是在排版比较灵活或者在一些微妙的地方分页了的情况特别容易出错。 |
2
crazybubble 2013-11-23 08:29:18 +08:00
parse PDF的话有这样的包:http://www.unixuser.org/~euske/python/pdfminer/
只不过因为某些奇怪的原因,所有fi连在一起的情况,会被parse成一个奇怪的unicode |
3
sun1991 2013-11-23 18:09:42 +08:00
pdf是没有标题, 章节信息的。 所有的字符都是按照坐标画到屏幕上去的。 我还碰到pdf过为了显示粗体, 在横向纵向坐标上微微偏移一点位置反复画同一段文字的。。。
|
4
FinalDream OP 我试着按坐标字体去分析章节信息,需要处理的PDF排版基本是固定的,现在主要不知道表格怎么去处理
|
5
starfish 2013-11-24 13:01:09 +08:00
如果用java的话,这方面的开源库很多的。例如,apache pdf-box, iText等。google一下有一堆。我以前用过apache tika来抽取文档中文本信息,tika用的是pdf-box,效果还是不错的。
|
6
FinalDream OP @starfish PDF-box , itext 都只能提取出文字,没有其它任何信息,我需要标题、章节信息
|