Trích xuất ảnh từ file PDF

pdfimages là công cụ chạy trên dòng lệnh của Linux để trích xuất ảnh từ các file Portable Document Format (PDF). Nó scan file PDF để tìm các hình ảnh trên một hay nhiều trang, sau đó lưu các ảnh dưới dạng Portable Pixmap (PPM), Portable Bitmap (PBM), hay JPEG.

Trên Ubuntu đã cài sẵn công cụ này nên bạn không cần phải cài đặt nữa. Nếu chưa có thì bạn cài như sau:

# apt-get install poppler-utils

Trên Fedora thì bạn cài gói sau đây:

# yum install poppler-utils

Sử dụng pdfimages rất đơn giản theo cú pháp sau đây:

pdfimages /path/to/file.pdf /path/to/output/dir

Ví dụ:

$ mkdir images

$ pdfimages sg245986.pdf images/

$ ls images/

Để xuất ảnh dạng jpeg, ta thêm tham số -j

$ pdfimages -j sg245986.pdf images/

Dùng tham số -f để xác định trang đầu tiên bắt đầu scan hình

$ pdfimages -j -f 5 sg245986.pdf images/

Tham số -l để xác định trang cuối cùng scan hình

$ pdfimages -j -f 5 -l 10 sg245986.pdf images/

Chúc các bạn cuối tuần vui vẻ.

Advertisements

About dongthao

"Man does not simply exist but always decides what his existence will be, what he will become the next moment"
This entry was posted in Software and tagged , , . Bookmark the permalink.

One Response to Trích xuất ảnh từ file PDF

  1. uunhucailu says:

    hay quá, cảm ơn bạn abel 🙂

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s