Блог


TextPipe Возможности программы (часть 1)

Прочитано 307 раз Последнее изменение 04.06.2015 12:29, Четверг

TextPipe - программа-утилита для обработки текстовой информации. Разработчик программы - австралийская фирма Datamystic. Сайт программы - http://www.datamystic.com/textpipe

Программа работает следующим образом: последовательно просматриваются файлы и в них с помощью встроенных фильтров (а их числом более 150) вносятся изменения, извлекается информация, осуществляется преобразование или конвертация и т.п. Фильтры работают последовательно: вначале на всех файлах отрабатывает первый фильтр, затем второй и так далее по порядку до последнего. Возможности фильтров будут рассмотрены позднее.

Примеры возможного применения.

Извлечение из текстов гипертекстовых ссылок или адресов электронной почты

Благодаря уже встроенным фильтрам извлечение гипертекстовых ссылок, адресов электронной почты, телефонов осуществляется легко и быстро. Напрашивается следующее решение подобной задачи. С помощью программ offline-браузеров, например, Teleport, вы скачиваете необходимые страницы из интернета, а натем настраиваете TextPipe на извлечение оттуда необходимых данных. Более сложный вариант - применение TextPipe в качестве парсера - программы извлекающей из страниц, например описания товара, его характеристик, цены. Или личную информацию и персоне: фамилию, имя, отчество, телефон, адрес и т.п. Для этого требуется более сложная настройка, тем не менее сделать это вполне возможно. И несомненным плюсом будет представление собранной информации в виде таблицы Excel, в отсортированном виде и с удаленными дубликатами.

Решение задач системного администрирования

Благодаря уже встроенным фильтрам можно с легкостью решать задачи по кодированию на языках программирования, конвертированию информации между разными кодировками, работать с базами данных.

Незаменимый инструмент веб-мастера

В TextPipe встроена возможность работы с HTML документами. А это делает утилиту незаменимым и универсальным инструментом.

Поясню на личном примере. Мне надо было переделать один сайт. Сохранить текст документов перенеся их в новый шаблон. Все бы ничего, но ширина текста старого и нового сайтов различалась. И кроме того заказчики захотели по новому разместить картинки, бывшие кое-где в тексте. Общее количество страниц было более 1100!

Временные рамки были более чем жесткими: 40 дней. В это время входило написание и согласование нового шаблона по готовому макету, согласование каждого текста в которых были картинки ну и перенос всех текстов. В общем - жопа.

Над проектом я работал один. И поняв, что я не справлюсь, начал думать. К этому моменту текст нового шаблона был согласован. Страниц без картинок, которые следовало перенести было около 900.

Т.е. из этих 900 html файлов мне было необходимо извлечь информацию из тэга title и заголовок документа с самим текстом. С этой задачей было справиться легко.

Следующим шагом было необходимо впихнуть title и тексты в новый шаблон. И с этой проблемой я справился. Необходимо было собрать этакий сэндвич: код шаблона до тега title к добавлялось содержимое title, далее еще одна часть кода шаблона, далее - заголовок с текстом, ну и финал - завершающий кусок кода.

Это была описана идея. Реализация получилась сложнее. Информация тэга title была извлечена и хранилась в виде отдельного файла. Аналогично и заголовок с текстом. Обдумав ситуацию, я понял, что самым простым решением будет собрать куски банально склеив файлы досовской командой copy.

В результате был написан bat файл на 900 строк, склеивающий все нужные части в файл. Разумеется и для этого был задействован TextPipe. Кстати, TextPipe допускает использование программирования на языках VBScript или JScript. Хорошее пособие по программированию на VBScript находится по адресу http://www.w3schools.com/vbscript/
Пришлось срочно изучить VBScript и использовать его возможности. Отмечу, что язык этот более чем простой.

И в результате - потратив всего 2 дня я сумел переделать 900 страниц! Без ошибок.

Кстати, кроме переноса был поправлен и сам текст. Разбивки по отдельным параграфам не было, я ее добавил. Еще добавил в нужные места неразрывные пробелы. Речь вот о чем. Например, в дате "2015 г." браузер может перенести "г." на новую строку, оставив 2015 в конце предыдущей. Чтобы этого не происходило правильно будет добавить между этими словами неразрывный пробел, и тогда они будут восприниматься как единое слово. Тоже принято делать и перед тире.

Оставить комментарий

Календарь

« Ноябрь 2016 »
Пн Вт Ср Чт Пт Сб Вс
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30