Фильтр для url с регулярными выражениями
Насканил я значит базу весьма длинную. Пора и поспамить. Понабилось очистить url от лишних символов. Например:
http://какойтосайт.ру/туткакойтодлинныйадрес/
Оставить только:
какойтосайт.ру или http://какойтосайт.ру, по желанию кароче.
Раньше писал скрипт, скрипт как всегда хоронил на винчестере и лень искать если честно. Решил написать программу для этих целей.
Собственно как пользоваться программой:
В файле settings.txt содержатся шаблоны регулярных выражений.
Я написал всего два:
(https?:\/\/[^\/]+)\/? эта регулярка возьмет ссылку вида http://domen.com
https?:\/\/([^\/]+)\/? это регулярное выражение возьмёт только домен
Остальные если нужны просто добавите в файл с новой строки. Наличие одной группы обязательно. Больше одной нельзя.
1) Открываем программу
2) Выбираем регулярку
3) жмем на кнопку, она всего одна
4) выбираем из какого файла брать строки с данными (ссылками в моём случае)
5) выбираем в какой файл сохранить
6) все готово
Ах ну да, забыл сказать, программа автоматически убивает дубликаты.
Скачать dcl.zip