Trích xuất ảnh từ file PDF

pdfimages là công cụ chạy trên dòng lệnh của Linux để trích xuất ảnh từ các file Portable Document Format (PDF). Nó scan file PDF để tìm các hình ảnh trên một hay nhiều trang, sau đó lưu các ảnh dưới dạng Portable Pixmap (PPM), Portable Bitmap (PBM), hay JPEG.

Trên Ubuntu đã cài sẵn công cụ này nên bạn không cần phải cài đặt nữa. Nếu chưa có thì bạn cài như sau:

# apt-get install poppler-utils

Trên Fedora thì bạn cài gói sau đây:

# yum install poppler-utils

Sử dụng pdfimages rất đơn giản theo cú pháp sau đây:

pdfimages /path/to/file.pdf /path/to/output/dir

Ví dụ:

$ mkdir images

$ pdfimages sg245986.pdf images/

$ ls images/

Để xuất ảnh dạng jpeg, ta thêm tham số -j

$ pdfimages -j sg245986.pdf images/

Dùng tham số -f để xác định trang đầu tiên bắt đầu scan hình

$ pdfimages -j -f 5 sg245986.pdf images/

Tham số -l để xác định trang cuối cùng scan hình

$ pdfimages -j -f 5 -l 10 sg245986.pdf images/

Chúc các bạn cuối tuần vui vẻ.

About dongthao

The best things in life, they are free ... (Cry on my shoulder lyric)
This entry was posted in Software and tagged , , . Bookmark the permalink.

Có 1 phản hồi tại Trích xuất ảnh từ file PDF

  1. uunhucailu nói:

    hay quá, cảm ơn bạn abel🙂

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s