Для чего используется PDF
Чаще всего, формат PDF используют, когда хотят передать информацию, не предоставляя прав на редактирование документа. В формате предусмотрено множество функций, которые помогают защитить документ от копирования, печати, несанкционированного просмотра и изменения.
Другая типичная задача: когда надо показать текст клиенту, у которого нет соответствующего программного обеспечения. В этом случае можно сделать экспорт в формат PDF и передать созданный документ. Его можно будет только посмотреть, но ведь именно это и требовалось.
Удобно использовать формат PDF, если надо сохранить текст, изображение в удобном для просмотра виде. Это может быть html-страница сайта, рабочий скриншот программы, сверстанный макет и др. Если дальнейшая работа с документом не предполагается, PDF-версия будет хорошим вариантом, и, возможно, объем полученного документа будет меньше исходного. В нашем бюро переводов мы передаем текст в формате PDF, когда у клиента не установлен специальный шрифт, например, хинди или арабский.
Перевод PDF-документа на другой язык
По возможности, надо получить от заказчика исходные документы, на основе которых был создан PDF. Это может быть набор разных документов, которые потом "слили" в один. Каждый из исходных файлов может иметь свой формат и, соответственно, способ редактирования и перевода на другой язык. Выполнив перевод исходных файлов, можно снова создать документ PDF на другом языке. Это самый "правильный" способ перевода PDF документов.
Создание документа PDF
PDF-документ может быть создан с помощью множества программ, например, Word. Самый распространенный способ - использование виртуального принтера. Любой документ отравляется на печать и сохраняется в формате PDF. В нашем бюро мы используем Adobe Acrobat 7. Другими словами, у PDF-документов всегда есть исходник. Это может быть даже не один документ, а набор связанных html-файлов, макет Corel DRAW, Quark Xpress, графический файл TIF. Некоторые типы факсов создают документы PDF, что очень удобно для их дальнейшего использования.
Перевод картинок в формат PDF
В некоторых случаях может потребоваться передать большое число связанных картинок (графических файлов TIF, JPG), например, результат сканирования книги. Это удобно сделать, переведя их в формат PDF. Если прямого экспорта в PDF нет, мы используем для этого FineReader. Прогнав без распознавания пакет, его можно сохранить в Word или PDF.
Перевод из формата PDF в формат DOC
Чтобы перевести документ из формата PDF в какой-либо редактируемый формат (в нашем случае - редактор Word), который максимально близок по виду, разметке и содержанию к оригиналу, необходима программа для конвертирования. Например, для перевода PDF-файла в Ворд (конвертация .pdf - .doc), подойдет PDF Transformer, Solid Converter, IntraPDF, Drake и InFix PDF Editor.
Редактирование документа в формате PDF
Есть два способа редактирования документа PDF. Прямое редактирование документа, с использованием редактора, и конвертация в какой-либо редактируемый формат.
Чтобы получить возможность редактировать текст прямо в PDF, мы используем Adobe Acrobat. Он позволяет вносить изменения непосредственно в документ. Однако для полноценного перевода текста такой способ не подходит. В PDF документе текст не связан, предложения, слова, буквы имеют привязку к месту на странице, но их редактирование и изменение не "тянет" других изменений связанных объектов. Все изменения приходится делать вручную, поэтому такой способ подходит для небольших правок и косметического редактирования документа.
Второй способ подразумевает конвертацию документа из формата PDF в какой-либо текстовой формат и редактирование уже этого документа. В подавляющем большинстве случаев конвертация производится в документ Word, т.к. изобразительных средств этого редактора достаточно для корректного отображения всех элементов исходного документа. И просто - формат DOC наиболее популярный и понятный для пользователя.
Конвертация может быть двух видов, которые зависят от способа создания документа PDF. Попробуйте выделить мышкой текст в документе PDF. Если он выделился, значит источником послужил документ, в котором есть информация о разметке и структуре, а также текст не был переведен в "кривые". Для целей конвертации можно использовать Solid Converter PDF или Drake. Конвертация не будет успешной, если файл PDF защищен паролем. Можно попробовать сделать экпорт страниц документа в картинки TIF, а потом заново "собрать" PDF-документ из них. Этот способ применяется также, когда надо осуществить перевод не всего документа, а только какой-либо его части. Ненужные страницы можно просто не включать в новый документ. Иногда этот способ применяют, чтобы создать документ PDF меньшего размера путем уменьшения разрешения графики (для выполнения перевода совсем не обязательно иметь типографское качество картинок). Созданный файл не будет содержать информации о тексте документа, но может быть обработан описанным далее способом.
Распознавание документа PDF
Суть перевода сводится к оптическому распознаванию текста, объектов и структуры документа. Результат никогда не будет повторять оригинал на 100%, однако для работы переводчика этого не требуется. Для распознавания текста мы используем PDF Transformer или FineReader, если предварительно PDF "разобрали" на картинки. Кроме того, в полученном файле очень сложно выполнить перевод в силу особенностей трансформации стилей текста и разметки документа. Мы всегда выполняем перевод в новом документе Word, используя оригинальный файл в качестве источника графических объектов.
Перевод PDF в JPG или TIF
При выполнении переводов чертежей, графиков, диаграмм мы конвертируем PDF в графический формат TIF, реже - в JPG, в целях большего сжатия полученного файла. Редактирование полученных картинок производим в графическом редакторе Photoshop, вырезая исходный текст и подставляя на его место переведенный.
Если перевод требуется в формате DOC, зачем нужно конвертировать PDF?
В большинстве случаев, только для расчета стоимости перевода PDF документа. Простое выделение текста и подсчет количества слов документа PDF часто приводит к ошибкам. Не всегда и не весь текст может быть выделен и скопирован, часть графических объектов также содержит текст. В документе PDF могут быть примечания и скрытый текст, который может быть не включен в расчет или, наоборот, посчитан, хотя его перевод не требуется.