ГлавнаяРегистрацияВход
Мой сайт Приветствую Вас Гость | RSS
Меню сайта

Категории раздела
Новости [147]

Мини-чат

Наш опрос
Оцените мой сайт
Всего ответов: 29

Статистика

Онлайн всего: 5
Гостей: 5
Пользователей: 0

Форма входа

Главная » 2009 » Октябрь » 28 » Как сделать из PDF «нормальный» текст
03:52
Как сделать из PDF «нормальный» текст
По горячим следам.
Краткий список шагов.
Если PDF в виде картинки, то надо эти картинки вытащить
  • xPDF или Some PDF Images
  • Может случиться такая неприятность, что на каждой странице будут разрозненные изображения. Тогда надо отрендерить страницу полностью чем-то другим
    Я в итоге воспользовался ghostscript
    gswin32c.exe -dSAFER -dBATCH -dNOPAUSE -sDEVICE=png16m -r400 -sOutputFile=output%04d.p>ng input.pdf
    Вот такая комманда сделает из pdf файла отдельные png-картинки с качеством 400pdi
  • Тут дальше идет чистка по желанию, обрезка колонтитулов и прочее
    Если у страниц разная степень заливки текстом, то иногда будет полезно наложить все страницы друг на друга, чтобы посмотреть где имено надо обрезать лишне.
    Опять таки мне помог консольный ImageMagick
    convert *.png -compose darken -flatten out.jpg
Если PDF с текстом, то можно попытаться его вытащить. Бесплатных программ найдено не было, но из платных Solid PDF Converter умеет всё и делает это отлично. Правда я заметил, что он плохо дружет с символами переноса, считая из дефисами. Да и с колонтитулами и прочим мусором придется разбираться отдельно.
Можно текстовый PDF перевести в картинки той же командой ghostscript и задача сводится к предыдущей.
Теперь FineReader. Если скан чистый и без колонтитулов, то задача очень проста. Следует только позаботиться о двух вещах:
  • вручную выделить картинки (после того как он разобьет на блоки автоматом)
  • блоки на страницах на которых есть колонки, надо  выделить в порядке вниз-вправо, а то потом они перемешаются в неправильном порядке
FineReader 10 показывают удивительную точность распознования текста. На страницу из 300 книг было найден всего десяток неправильных символов (это то, что подсвечивает Word)
А теперь нам нужен OpenOffice. Не сколько он сам, а мега-плагин OOoFBTools.
Он нам нужен по двум причинам:
  • Почистить текст (OOoFBTools -> Корректор текста)
  • Разметить текст и сделать FB2 книгу
  • После установки плагина необходимо зайти в Файл->Шаблоны->Управление и загрузить файл шаблонов из архива с плагином.
    Затем, OOoFBTools->Загрузка шаблона стилей в документ. F11


    Получаем панель с основными стилями. Выделяем в тексте кусок, применяем подходящий стиль.
    Стилями Livel* выделяются названия глав, разделов и прочего территориально-администра>тивного деления. Потом по этим данным будет создано оглавление.

    Другие стили нужны для того, чтобы в книгочиталке (железной или программной) текст шел не сплошной волной, а отдельно были выделены вещи вроде эпиграфов, цитат и других полезных вещей.
    Если скан хороший, то вся работа займет около полутора часов.
    Категория: Новости | Просмотров: 575 | Добавил: andest | Рейтинг: 0.0/0
    Всего комментариев: 0
    Поиск

    Календарь
    «  Октябрь 2009  »
    ПнВтСрЧтПтСбВс
       1234
    567891011
    12131415161718
    19202122232425
    262728293031

    Архив записей

    Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz

  • Copyright MyCorp © 2024
    Создать бесплатный сайт с uCoz