k**********g 发帖数: 989 | 1
。
library
PDF iText, iTextSharp. If PDF-embedded image see Image below. PDF is a
composition-based (rendering-based) format.
However: there are some PDF that cannot be parsed unless one renders it
graphically. for this type of PDF, you must use a PDF renderer. The PDF
renderers I know of are all commercial.
If the PDF contains text (you can test that by try selecting the text from
the document using any PDF reader), it can be extracted with IFilter plugin.
See below (under PPT)
JPEG or any Imag... 阅读全帖 |
|
r****t 发帖数: 10904 | 2 另外一个办法 (不用知道一共有几行,magicfat 的启发) 是,
如果行数比较多,根据大树定理
你从头读到尾,对每一行以 60% 的机会选出应该也是可以的,只是最终你得到的行数
接近 60%, 可能不能完全等于某个指定的行数,这时候你甩掉多余的行,或者回头找
几行也行(这个最终处理比较麻烦,但是你可能更本不需要拿出精确的行数?
def select(line):
.... if randome()<= 0.6:
........ return line
....lese:
........ return False
mylines = ifilter(select, open("myfile"))
这样 mylines 是个 iterator, 这个code 不会把整个文件读入内存,所以可能 memory 上
面节省一些。缺点是不能得到精确的行数,要求 60% 基本上得到 60%, 但是多几行少几行都可能。
sampling
, |
|
r****t 发帖数: 10904 | 3 stupid me. 这么写比较傻, 不喜欢搞 one-liner。但是下面足够了(python >=2.5):
mylines = ifilter(lambda x: x if random()<=.6 else False,
....................open("myfile")) |
|
c*******2 发帖数: 66 | 4 Google desktop search 好象没法搜索zip过的Word文件内容。 加了 Zip iFilter (
非商用版)的GDS plugin, 现在能搜到硬盘上zip过的html文件,Word文件还是不行。
有什么别的办法? 不想unzip所有的文件。 |
|