Давайте рассмотрим применение TextPipe на практике. Сам я применяю ее достаточно часто. Когда в сохраненных HTML страницах надо собрать информацию - сделать это с помощью TextPipe очень удобно. При этом я не обрабатываю файлы, а просто загружаю их в Trial (пробную) вкладку. Т.е. обрабатываю реальную информацию. Получаю результат для работы, при необходимости сохраняю его, а вот фильтр могу и не сохранить, если задача простая.
Мы бегло посмотрели теорию и остановились перед практическим применением. Жизнь подсказала интересную задачу.
Есть сайт с обучающими видеоматериалами. К каждому видео есть субтитры. Субтитры на английском языке, но, на мой личный взгляд, с субтитрами даже на английском языке легче понять смысл урока, чем пытаться перевести речь со слуха. Итак.
Ну вот мы и добрались до регулярных выражений. По теме регулярных выражений вышло несколько книг на русском языке и теорию можно почерпнуть оттуда. Важно понимать то обстоятельство, что несмотря на некий общий набор правил конкретные реализации регулярных выражений могут отличаться. Имеется в виду, что встроенную поддержку регулярных выражений имеют разные языки. Среди них ActionScript, Perl, Java[1],PHP, JavaScript, языки платформы .NET Framework[2], Python, Tcl, Ruby, Lua, Gambas, C (стандарт 2011 года), Delphi, D и другие. Т.е. существуют общие правила и существуют некие особенности трактовки в конкретном языке. Но общего все же больше.
Ну и наконец последняя группа фильтров - Restrict, что переводится как ограничение. Будет справедливым сказать, что формально - это вовсе не фильтры, а некоторая возможность ограничения действия фильтров. Приведу пример (смотрите скриншот). У нас есть , например, фильтр заменяющий все слова text на sex. Соответственно, если мы возьмем пробный текст, где слово text встречается трижды, будет произведено три замены. Но, можно ограничить в каких строках проводить замены. Например, с первой по десятую, или с одиннадцатой по двадцатую. Соответственно, в первом случае будет сделана одна замена, а во втором - две.
И вот мы подошли к большой группе фильтров Special (Специальные)
Эта группа была выделена в особую из-за того, что здесь собраны фильтры не вписывающиеся в другие группы. Причем эти фильтры не сильно связаны друг с другом по результату.
И тем не менее это, пожалуй, самая мощная группа по возможностям.
Следующая группа фильтров, которые будут рассмотрены, называется Extract (Извлечь). Фильтры этой группы предназначены для извлечения информации из текста.
Следующая группа фильтров, которые будут рассмотрены, называется Remove (Убрать или Удалить). Эти фильтры предназначены для удаления нежелательной информации.
Поймал себя на том, что начал рассказывать о работе фильтров, не рассказав об их применении. И сейчас несколько слов как с ними работать.
Двойной клик на фильтре в списке всех фильтров слева вызывает его активацию. Он будет участвовать в процессе обработки текста!
Двойной клик на фильтре в MyList Filter (список фильтров, это в центральной колонке) вызывает его запрет на обработку текста.
Но, в списке он сохранится, и его всегда можно активировать. Это удобно, когда надо отладить список.
Активируя и запрещая фильтры и следя при этом за выводом данных мы можем последовательно идти к правильному результату.
Эта группа включает более 40 фильтров. Я даже не буду пытаться упомянуть применение каждого из фильтров. В конце концов у программы есть подробный HELP, где все фильтры описаны. Я хотел бы обратить ваше внимание на то, в эту группу почему-то попали фильтры, не имеющие отношение к конвертации. В группу Специальных фильтров их тоже не включили.
Сейчас в сети можно найти много обучающего видеоматериала по самой разной тематике: уроки, тренинги, обучающие курсы, семинары. Большая часть этих видео — на английском языке. Я знаю английский язык, учил в школе и институте, без проблем и словаря читаю технические тексты, однако к восприятию видео материала пока не готов. Конечно, большую часть слов понимаю, но пока слово поймешь, переведешь в голове, их скажут еще несколько. Из этого родилась идея: а не смотреть ли фильмы с субтитрами? И тут УПС! К тем материалам, которые меня интересуют субтитров нет.
Если нет – надо сделать, подумал я и вспомнил, что есть программа Nuance Dragon NaturallySpeaking, которая как раз и предназначена для распознавания речи на английском языке. На сайте программы много слов о том, как она это замечательно все понимает. Однако ни слова о том, как настроить ее на распознавание слов, сказанных в видео, в текст.