Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1]   Вниз
  Печать  
Автор Тема: Подскажите с регуляркой  (Прочитано 705 раз)
0 Пользователей и 1 Гость смотрят эту тему.
perl6
Помогающий

ru
Offline Offline

« : 13-04-2018 21:25 » 

Приветствую, форумчане. Напарсил юзер-агентов, а там мусор встречается. Пишу вот регулярку, чтобы вытащить нормальные данные.

Код: (Perl)
/(Mozilla[^\v]+)(Mozilla[^\v]+)/gm

Вот для такой мульти-строки отлично работает:


Код: (Text)
Mozilla/5.0
Chrome/51.0.2704.103 Safari/537.36
 Chrome/61.0.3163.100 Safari/537.36
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; rv:47.0) Gecko/20100101 Firefox/47.0 Mozilla/5.0 (Windows NT 10.0; rv:50.0) Gecko/20100101 Firefox/50.0

Видим, что мусор отбрасывается, незавершенные строки, а там, где на одной строке два идентификатора, данные успешно распарсиваются.

Код: (DOS)
Microsoft Windows [Version 10.0.16299.371]
(c) Корпорация Майкрософт (Microsoft Corporation), 2017. Все права защищены.

C:\Users\Саша>cd desktop

C:\Users\Саша\Desktop>t1.pl
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; rv:47.0) Gecko/20100101 Firefox/47.0
Mozilla/5.0 (Windows NT 10.0; rv:50.0) Gecko/20100101 Firefox/50.0
C:\Users\Саша\Desktop>

Однако, стоит добавить обычную строку, вида
Код: (Text)
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko)

и, она игнорируется. Т.е., чистая строка игнорируется. Хотелось бы ее записать в первое совпадение, не соображу, как модифицировать regex.
Понятно, что в текущей конфиг. пёрл ее игнорит, т.к. ждет, что дальше должна быть другая строка, вот как модифицировать первый шаблон, чтобы под него попадала обычная чистая строка агента, ничем не оканчивающаяся?
« Последнее редактирование: 13-04-2018 21:33 от perl6 » Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #1 : 13-04-2018 23:59 » 

А не проще вычистить непотребщину и парсить как обычно?
Код:
tr/\x00-\x1f//d
или лучше в обратку
Код:
tr/\x20-\x7e//cd
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
perl6
Помогающий

ru
Offline Offline

« Ответ #2 : 14-04-2018 13:33 » 

А не проще вычистить непотребщину и парсить как обычно?
Код:
tr/\x00-\x1f//d
или лучше в обратку
Код:
tr/\x20-\x7e//cd


Не совсем понял идею, а зачем тут транслитерация.
П.С. Про то, чтобы сначала почистить тоже думал, но хочется сделать все сразу, так сказать, изящно. Выпарсить данные из мусора.

Upd. В общем, разобрался сам. Правда пёрл ругается ворнингами, но работает вроде нормально. Пробовал полностью юзерагент описать регуляркой, оказалось не лучшим решением, выражение километровое и то, все идентификаторы не учтешь. Помогло то, что у меня данные специфичные, можно зацепиться за начало и конец строки.
Всем спасибо.
« Последнее редактирование: 14-04-2018 21:13 от perl6 » Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #3 : 14-04-2018 21:25 » 

Есть такое поверие, что профи пишут тупой код. На хабре в прошлом году даже статья была такая. Почитай, проникнись, не пиши "изящно", чаще думай о других.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
perl6
Помогающий

ru
Offline Offline

« Ответ #4 : 15-04-2018 18:59 » 

Есть такое поверие, что профи пишут тупой код. На хабре в прошлом году даже статья была такая. Почитай, проникнись, не пиши "изящно", чаще думай о других.
А кроме меня все равно никому это не надо. Но, учту на будущее.
Записан
Алексей++
глобальный и пушистый
Глобальный модератор

ru
Offline Offline
Сообщений: 13


« Ответ #5 : 16-04-2018 04:20 » new

perl6, самое интересное и наиболее вероятное, что тот "другой" -это окажешься именно ты сам через месяц-два ) Будешь смотреть на запутанный код и чесать репу - "а кто это всё написал" Отлично
Записан

RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #6 : 17-04-2018 01:03 » 

Вот сейчас переписывал код. Писал его способный, опытный программист. Но очень много времени нужно, чтобы понять, чего же он там накодил. А за такие тесты хочется немного расстрелять.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Страниц: [1]   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines