topics

全部话题 - 话题: pdftotext
(共0页)
r****t
发帖数: 10904
1
来自主题: TAX版 - 1040 有没有编好的程序?
Turbotax 从 ADP/W2express import, 需要填三个空。
TaxAct 只能从 W2express import, 或者是从 pdf 文件读入,
这些都是要收费的版本才有的功能。
我试过pdftotext -layout 来转 w2 pdf, 只能拿到 employer 填进去的数字,税表上
面原来有的内容是 scan 进去的是图片。
话说 ADP 有没有什么 API 可以用?我连注册都不让,需要 invitation code.
G*********a
发帖数: 1080
2
来自主题: Java版 - pdf -> txt
i want to convert from pdf to txt, then tried both way:
in unix: pdf2ps then ps2ascii
in linux: pdftotext
both don't work. who knows some other way? thanks.
i*****e
发帖数: 1359
3
来自主题: Linux版 - 借跪地文革问题,包子酬谢
pdftotext a.pdf - |grep -w nde-ibf
p****u
发帖数: 2422
4
command: pdftotext
Apache PDFBox would be one of the best.
M*********9
发帖数: 15637
5
直接terminal里用pdftotext似乎不行。 我试的一package, 里面有这个, 结果总是
error msg. 也不知道是机器不行, 还是什么其他原因。
Apache pdfbox没试过。 我瞧瞧。
p****o
发帖数: 1340
6
我一般用pdftk,还有pdftotext也比较有用。
p****o
发帖数: 1340
7
我一般用pdftk,还有pdftotext也比较有用。
A*******t
发帖数: 443
F****3
发帖数: 1504
9
谢谢楼上几位!
PDF内的表格非常工整,可以用Acrobat Professional单击右键就可以导出成csv文件,
转换成Excel没有问题。但是手工做实在麻烦。
试过pdftotext,但是有很多空余,misalignment问题有点小问题,怎么再用Python把
这些文件parse成表格目前还不会。。。水平还是入门级的。
iText下载了java的版本,好像不再是免费的了。Java有点专业目前还不太敢搞。
准备什么时候弄一些jExcel, 搜一搜PDF的python lib。
请问还有什么门槛比较低一点的办法吗?
F****3
发帖数: 1504
10
谢谢啊!我用了下面这个
for file in *.pdf; do pdftotext -layout "$file" "$file.txt"; done
可以把所有的PDF转换成text文件,但是表格是"看上去"对齐了,但是好像中间空格数
目不一致,所以很难把text转换成table。
另外PDF里面有很多解释的文档,要把文档和table分开目前还不知道怎么实现。
文科的水平很菜,千万别笑啊。
F****3
发帖数: 1504
11
谢谢你的热心帮助!
1. 固定列数
2. 包括数字,string,和date, 有cell里面有些空格(见item 3)
3. date的格式是“Feb 01, 2011”
4. 左边第一列是列别,里面也有空格(比如, “Cost of Goods Sold ($ mlns)”)
5. 用pdftotext -layout以后,列于列时间的空格数目不完全一致,因为有的cell里面
东西都,所以不需要很多空格吧列于列据别开来,有的列cell东西少,需要很多空格吧
column区别开来。
:)
最终真的可能还是要用牛逼的东西比如java
T********r
发帖数: 6210
12
来自主题: Software版 - Re: 如何将PDF转为TXT???
www.foolabs.com/xpdf
xpdf 0.9.2, contains a tool pdftotext
s***e
发帖数: 911
13

Linux下有pdftotext工具.
没的话就通过acroread来copy&paste吧
(共0页)