Как обработать рисунки в Pdf Ocr?

igorgri · 2 апреля, 2009

Ну кто в теме, тот знает, что OCR - это электронный текст. Т.е. примерно как страница в текстовом редакторе. Места занимать должен в принципе немного - но вот беда, некоторые делают такое разрешение вставленных вовнутрь рисунков, что получается огромадный файл.

Каким ПО и каким образом можно уменьшить размер встроенных в pdf рисунков?

В графических pdf использую PDF Image Extraction Wizard или простой Photoshop 7 (у него функция автоматического разбора pdf в файлы psp). Ну а потом в AcdSee включаю внутреннию компрессию jpg или вообще в tiff двухцветный перегоняю. А потом конверчу обратно в pdf при помощи программ Image To PDF или Image2PDF.

BSB · 2 апреля, 2009

Ты хочешь одной прогой?

igorgri · 3 апреля, 2009

Да нет. Цель - перенести рисунок БЕЗ ПОТЕРИ КАЧЕСТВА (т.е. не фотографируя) в другую программу (тот же AcdSee), там обработать его и вставить на место заменив старый.

BSB · 3 апреля, 2009

Т.е. фотожопа его теряет? Кстати, что мешает в нём в JPEG записать?

igorgri · 3 апреля, 2009

фотожопа не сохраняет электронный текст, это уже будет просто рисунок. Это то делает на отлично, но вопрос в том, что например 700 страниц документа, из них 20 с рисунком. Если выкинешь рисунки - то получишь 9 метров файл, а так файл 145 метров. Т.е. рисунки плохого качества занимают 136 метров. Можно же сделать разрешение меньше и размеры рисунка уменьшить, тогда реально сделать 15-20 метров pdf. Если же сделать просто рисунками страницы - то получим 45 метров, что конечно же лучше чем 145, но тогда не сможешь копипастить при необходимости текст.

Morse · 3 апреля, 2009

Често я не знаю что такое OCR?

В свое время, часто работал с ПДФом... Использовал прогу ABBYY PDF Transformer v1.00.820 Она позволяет текст и картинки переделать в вордовские документы (что-то на подобии Фаин Ридера получается), ТХТ. В новых версиях может еще что добавилось...

http://www.epidemm.ru/varez/161-abbyy-pdf-...r-pro-full.html

BBYY PDF Transformer быстро и точно конвертирует PDF-файлы, сохраняя оформление исходного документа — таблицы, картинки, расположение абзацев и т.д.

ABBYY PDF Transformer – мощный, но очень простой в использовании продукт. Он имеет интуитивно понятный интерфейс, поэтому работать с ним легко даже начинающим пользователям. Продукт рассчитан на людей, которые привыкли работать эффективно и не имеют времени на освоение сложных программ. Испытайте ABBYY PDF Transformer 2.0 и убедитесь, что работать с PDF легко!

BSB · 3 апреля, 2009

А, ну тогда таких прог-то полно (если я правильно тебя понял)

igorgri · 3 апреля, 2009

Большинство форматирование теряет... Да поставил прогу, тот же Adobe Acrobat 9, но это монстр на 1.4 гига... Что то еще установил - 214 метров (уже получше), а может кто юзает простенькую?

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) — механическая или электронная конвертация изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путём, после получения изображения со сканера или фото.

Текст, преобразованный из графической формы в символьную (текстовую), можно далее обрабатывать любыми текстовыми редакторами.

BSB · 3 апреля, 2009

А FineReader умеет же PDF брать?

igorgri · 3 апреля, 2009

Да понимаешь, от FR то толку сколько? Зачем делать OCR из pdf если он уже сделан как OCR? Т.е. у него уже оцифрован текст, только рисунки в графическом формате.

BSB · 3 апреля, 2009

Да понимаешь, от FR то толку сколько? Зачем делать OCR из pdf если он уже сделан как OCR? Т.е. у него уже оцифрован текст, только рисунки в графическом формате.

Ну я в применении к полностью графическим PDF

Ктулху · 3 апреля, 2009

Честно говоря в сумбур про OCR и PDF не вник. Но как я понял - есть PDF с текстом и картинками, так? т.е. текст уже в виде текста, а не растра?

Сам постоянно сталкиваюсь с пдф-ами и думаю выход один - заново делать документ, например в ворде или опенофисе (опенофис может сохранять документы в пдф-формат). Ворд не может, но можно установить дополнительные проги, например "doPDF" - она устанавливает какбе пдф-принтер в систему, т.е. для создания пдф-ника нужно сделать из ворда "печать" в этот принтер. Вот для этого FineReader и нужен - открывается в нем пдф, распознается, передается в ворд,верстается и делается новый пдф.

Другими словами: взять из пдф-ника отдельный рисунок, сжать и вставить обратно не получится.

п.с. ИМХО.

Изменено 3 апреля, 2009 пользователем Ктулху

Как обработать рисунки в Pdf Ocr?

Рекомендуемые сообщения

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Ссылка на комментарий

Поделиться на другие сайты

Пожалуйста, войдите, чтобы комментировать

Сейчас на странице 0 пользователей онлайн