r****t 发帖数: 10904 | 1 Turbotax 从 ADP/W2express import, 需要填三个空。
TaxAct 只能从 W2express import, 或者是从 pdf 文件读入,
这些都是要收费的版本才有的功能。
我试过pdftotext -layout 来转 w2 pdf, 只能拿到 employer 填进去的数字,税表上
面原来有的内容是 scan 进去的是图片。
话说 ADP 有没有什么 API 可以用?我连注册都不让,需要 invitation code. |
|
G*********a 发帖数: 1080 | 2 i want to convert from pdf to txt, then tried both way:
in unix: pdf2ps then ps2ascii
in linux: pdftotext
both don't work. who knows some other way? thanks. |
|
i*****e 发帖数: 1359 | 3 pdftotext a.pdf - |grep -w nde-ibf |
|
p****u 发帖数: 2422 | 4 command: pdftotext
Apache PDFBox would be one of the best. |
|
M*********9 发帖数: 15637 | 5 直接terminal里用pdftotext似乎不行。 我试的一package, 里面有这个, 结果总是
error msg. 也不知道是机器不行, 还是什么其他原因。
Apache pdfbox没试过。 我瞧瞧。 |
|
p****o 发帖数: 1340 | 6 我一般用pdftk,还有pdftotext也比较有用。 |
|
p****o 发帖数: 1340 | 7 我一般用pdftk,还有pdftotext也比较有用。 |
|
|
|
F****3 发帖数: 1504 | 9 谢谢楼上几位!
PDF内的表格非常工整,可以用Acrobat Professional单击右键就可以导出成csv文件,
转换成Excel没有问题。但是手工做实在麻烦。
试过pdftotext,但是有很多空余,misalignment问题有点小问题,怎么再用Python把
这些文件parse成表格目前还不会。。。水平还是入门级的。
iText下载了java的版本,好像不再是免费的了。Java有点专业目前还不太敢搞。
准备什么时候弄一些jExcel, 搜一搜PDF的python lib。
请问还有什么门槛比较低一点的办法吗? |
|
F****3 发帖数: 1504 | 10 谢谢啊!我用了下面这个
for file in *.pdf; do pdftotext -layout "$file" "$file.txt"; done
可以把所有的PDF转换成text文件,但是表格是"看上去"对齐了,但是好像中间空格数
目不一致,所以很难把text转换成table。
另外PDF里面有很多解释的文档,要把文档和table分开目前还不知道怎么实现。
文科的水平很菜,千万别笑啊。 |
|
F****3 发帖数: 1504 | 11 谢谢你的热心帮助!
1. 固定列数
2. 包括数字,string,和date, 有cell里面有些空格(见item 3)
3. date的格式是“Feb 01, 2011”
4. 左边第一列是列别,里面也有空格(比如, “Cost of Goods Sold ($ mlns)”)
5. 用pdftotext -layout以后,列于列时间的空格数目不完全一致,因为有的cell里面
东西都,所以不需要很多空格吧列于列据别开来,有的列cell东西少,需要很多空格吧
column区别开来。
:)
最终真的可能还是要用牛逼的东西比如java |
|
T********r 发帖数: 6210 | 12 www.foolabs.com/xpdf
xpdf 0.9.2, contains a tool pdftotext |
|
s***e 发帖数: 911 | 13
Linux下有pdftotext工具.
没的话就通过acroread来copy&paste吧 |
|