Извлечение из текстов гипертекстовых ссылок или адресов электронной почты
Благодаря уже встроенным фильтрам извлечение гипертекстовых ссылок, адресов электронной почты, телефонов осуществляется легко и быстро. Напрашивается следующее решение подобной задачи. С помощью программ offline-браузеров, например, Teleport, вы скачиваете необходимые страницы из интернета, а натем настраиваете TextPipe на извлечение оттуда необходимых данных. Более сложный вариант - применение TextPipe в качестве парсера - программы извлекающей из страниц, например описания товара, его характеристик, цены. Или личную информацию и персоне: фамилию, имя, отчество, телефон, адрес и т.п. Для этого требуется более сложная настройка, тем не менее сделать это вполне возможно. И несомненным плюсом будет представление собранной информации в виде таблицы Excel, в отсортированном виде и с удаленными дубликатами.
Решение задач системного администрирования
Благодаря уже встроенным фильтрам можно с легкостью решать задачи по кодированию на языках программирования, конвертированию информации между разными кодировками, работать с базами данных.
Незаменимый инструмент веб-мастера
В TextPipe встроена возможность работы с HTML документами. А это делает утилиту незаменимым и универсальным инструментом.
Поясню на личном примере. Мне надо было переделать один сайт. Сохранить текст документов перенеся их в новый шаблон. Все бы ничего, но ширина текста старого и нового сайтов различалась. И кроме того заказчики захотели по новому разместить картинки, бывшие кое-где в тексте. Общее количество страниц было более 1100!
Временные рамки были более чем жесткими: 40 дней. В это время входило написание и согласование нового шаблона по готовому макету, согласование каждого текста в которых были картинки ну и перенос всех текстов. В общем - жопа.
Над проектом я работал один. И поняв, что я не справлюсь, начал думать. К этому моменту текст нового шаблона был согласован. Страниц без картинок, которые следовало перенести было около 900.
Т.е. из этих 900 html файлов мне было необходимо извлечь информацию из тэга title и заголовок документа с самим текстом. С этой задачей было справиться легко.
Следующим шагом было необходимо впихнуть title и тексты в новый шаблон. И с этой проблемой я справился. Необходимо было собрать этакий сэндвич: код шаблона до тега title к добавлялось содержимое title, далее еще одна часть кода шаблона, далее - заголовок с текстом, ну и финал - завершающий кусок кода.
Это была описана идея. Реализация получилась сложнее. Информация тэга title была извлечена и хранилась в виде отдельного файла. Аналогично и заголовок с текстом. Обдумав ситуацию, я понял, что самым простым решением будет собрать куски банально склеив файлы досовской командой copy.
В результате был написан bat файл на 900 строк, склеивающий все нужные части в файл. Разумеется и для этого был задействован TextPipe. Кстати, TextPipe допускает использование программирования на языках VBScript или JScript. Хорошее пособие по программированию на VBScript находится по адресу http://www.w3schools.com/vbscript/
Пришлось срочно изучить VBScript и использовать его возможности. Отмечу, что язык этот более чем простой.
И в результате - потратив всего 2 дня я сумел переделать 900 страниц! Без ошибок.
Кстати, кроме переноса был поправлен и сам текст. Разбивки по отдельным параграфам не было, я ее добавил. Еще добавил в нужные места неразрывные пробелы. Речь вот о чем. Например, в дате "2015 г." браузер может перенести "г." на новую строку, оставив 2015 в конце предыдущей. Чтобы этого не происходило правильно будет добавить между этими словами неразрывный пробел, и тогда они будут восприниматься как единое слово. Тоже принято делать и перед тире.