dpsearch-4.51-17112008

Оцените, пожалуйста

Изменения, добавленные со времени снапшота dpsearch-4.51-27092008:

  • Добавлена команда FastHrefCheck. Используйте её для выключения проверки ссылок против списка серверов на этапе парсинга страницы.
  • Добавлена поддержка кодировки KOI8-C (вариант KOI8-R с буквами старо-русского алфавита).
  • Добавлена команда ActionSQL. Используйте её для выполнения SQL-запросов с данными документа во время индексирования.

//DataparkSearch Engine

Команда "FastHrefCheck yes" полезна для ускорения индексирования, если ваш список команд Server/Realm/Subnet огромен.

Команда ActionSQL имеет следующий синтаксис:


ActionSQL <section> <pattern> <sql-template> [<dbaddr>]

где <section> -- имя секции, содержимое которой будет проверяться на соответствие шаблону регулярного выражения <pattern>, если соответствие будет найдено, то будет заполнен шаблон sql-запроса <sql-template>, в котором наряду с мета-переменными регулярного выражения $1-$9 можно использовать и мета-переменные шаблона страницы выдачи (например, $(title), $(Last-Modified")). Заполненый sql-запрос будет выполнен в первом DBAddr, указанном в файле конфигурации, или в новом соединении с sql-базой, задаваемой необязательным параметром <dbaddr>.

Таким образом, команда ActionSQL предназначена для поиска и сбора различной информации с индексируемых страниц. Например, следующая команда будет собирать в таблицу phonedata все найденные номера телефонов и заголовки страниц, на которых эти номера указаны:


ActionSQL body "\(([0-9]{3})\)[ ]*([0-9]{3})[- \.]*([0-9]{2})[- \.]*([0-9]{2})" "INSERT INTO phonedata(phone,title)VALUES('+7$1$2$3$4','$(title)')"

Поделиться:
  • Twitter
  • LiveJournal
  • Блог Я.ру
  • Блог Li.ру
  • Google Buzz
  • Добавить ВКонтакте заметку об этой странице
  • Мой Мир
  • Одноклассники
  • Facebook
  • FriendFeed
  • В закладки Google
  • LinkedIn
  • StumbleUpon
  • Technorati
  • Digg
  • БобрДобр
  • MisterWong.RU
  • Memori.ru
  • МоёМесто.ru
  • Сто закладок

dpsearch-4.51-17112008: 2 комментария

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *