1
lilydjwg 2015-07-26 00:01:19 +08:00
找一个 PDF 解析库。找不到就自己写一个吧=w=
|
2
ppdg 2015-07-26 05:44:59 +08:00 via Android 1
这方法应该会误伤不少吧,你想要的应该是这个效果吧,中间那个去字的http://www.cvchina.info/2010/06/01/sparse-representation-vector-matrix-tensor-1/
|
3
zjqzxc 2015-07-26 09:41:57 +08:00
“用python的pillow库,由于水印是打在图片上的纯文字水印,把水印的RGB值(其实是一个范围)提出来,批量替换掉就行了.”
曾经用MATLAB做过这个操作,效果不算太好,有一定量误伤。主要是它还是扫描书,有些页有点儿斜,没有写梯形校正。其实,acrobat可以把pdf的每一页都以图片形式输出,页面顺序就是文件名顺序。批量处理后再用acrobat组装起来(还是全选,然后确定)。原文有目录的话,可以把目录导出再附加到新的文件里面。(acrobat貌似不行,网上可以找到执行这个功能的软件) |