Перейти к содержимому

dpsearch-4.54-2015-07-06

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления

Команда AuthPing

Некогторые сайтв могут отдавать немного измененный контент для зарегистрированных пользователей, например, указывать цену товара со специальной скидкой. В большинстве случаев, процесс входа на сайт заключается в отправке POST или GET HTTP-запроса на определенный URL перед тем, как вы станете получать таргетированный контент. Вы можете испольовать команду AuthPing для отправки такого идентификационного запроса перед запросом документов с этого сайта.

Например:


AuthPing "POST https://commercial-site.ext.au/user/login.php u=bot%40user.ext.au&p=super%40pass"

Эта команда задает отправку POST запроса на URL адрес https://commercial-site.ext.au/user/login.php со следующими данными CGI: u=bot%40user.ext.au&p=super%40pass

Команда AuthPing должна быть указана перед каждой командой Server/Realm/Subnet, на которую она должна воздействовать. И указанный в ней запрос будет посыдаться всякий раз, когда индексирующий поток пытается обратиться к сайте впервые с момента запуска indexer.

Использование SOCKS5 прокси

Команда Proxy теперь понимает опцию, задающую тип прокси-сервера, значение которой может быть http или socks5. Если вам нужна идентификация на SOCKS5 прокси при помощи логина и пароля, вы можете использовать команду ProxyAuthBasic для указания логина и пароля.

Например:


Proxy socks5 localhost:9050

В этоим примере задается подключение к SOCKS5 прокси системы Tor, работающей на локальной машине без использования идентификации.

dpsearch-4.54-2015-07-06: 1 комментарий

  1. Sergey Striganov

    Здравствуйте Максим,
    я не знаю, как лучше обратиться к Вам, через социальные сети
    или через комментарии в блоге. Какой способ связи для Вас предпочтительный.
    Я даже через LinkedIn пытался связаться,
    но Вы, конечно же, не поняли кто это обращается и зачем.

    Я сам программист, и есть желание написать десктопный/мобильный поисковичек
    для обычных пользователей, администраторов и программистов.
    Каждая из этих категорий пользователей имеет свои особенные требования к поиску,
    которые могут кардинально отличаться.

    Начал с изучения уже имеющихся технологий:
    персональных поисков от яндекса и гугла, а так же смотрел и другие движки - сфинкс/датапарк/solr/xapian...
    Вижу, что сейчас нет готового продукта, который бы соответствовал всем моим "хотелкам".

    Я думаю, что не только мне было бы интересно почитать Ваше мнение о существующих
    поисковых движках, их сравнение, обоснование выбора тех или иных технологических решений.
    Было бы здорово увидеть развернутую статью об этом на любом популярном сайте.

    Ну, и еще мне интересно, что вообще значит в Вашей жизни этот проект - dpsearch.
    Eсть ли какая-то коммерческая основа проекта или все только "Just for fun".
    Я читал Ваше резюме - видно, что несколько лет вы занимались только им перед
    переездом а Австралию.
    Занимаетесь ли проектом сейчас (хотя, судя по выпуску снапшета - работа ведется),
    и будете ли заниматься им в будущем.

    Возвращаясь к моим изысканиям:
    в первую очередь, я думаю о:
    - написании GUI к какому-либо эффективному поисковому движку.
    - интеграции с какой-либо высоко эффективной СУБД (MS SQL / Oracle)
    - создании персонального(частного) поискового облака, для обслуживания поиска по парку своих устройств.
    - создании высоко-интеллектуальных поставщиков данных (индексаторов)
    (здесь у меня есть идеи, которые не для "паблик".)

    Интересно так же, что я тоже из Сочи, хотя и работаю сейчас в Москве.
    Жаль, что не сложилось раньше пересечься и обсудить все это - либо в Сочи,
    либо в Москве, где мы чуть в один банк не устроились однажды.
    _______________
    С наилучшими пожеланиями,
    Сергей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *