Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.
Ниже дан список изменений с момента выпуска предыдущего снапшота:
- Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
- Мета PROPERTY теперь индексируется
- Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
- configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
- Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
- Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
- Добавлена команда Cookie
- Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
- небольшие исправления
Команда AuthPing
Некогторые сайтв могут отдавать немного измененный контент для зарегистрированных пользователей, например, указывать цену товара со специальной скидкой. В большинстве случаев, процесс входа на сайт заключается в отправке POST или GET HTTP-запроса на определенный URL перед тем, как вы станете получать таргетированный контент. Вы можете испольовать команду AuthPing для отправки такого идентификационного запроса перед запросом документов с этого сайта.
Например:
AuthPing "POST https://commercial-site.ext.au/user/login.php u=bot%40user.ext.au&p=super%40pass"
Эта команда задает отправку POST запроса на URL адрес https://commercial-site.ext.au/user/login.php со следующими данными CGI: u=bot%40user.ext.au&p=super%40pass
Команда AuthPing должна быть указана перед каждой командой Server/Realm/Subnet, на которую она должна воздействовать. И указанный в ней запрос будет посыдаться всякий раз, когда индексирующий поток пытается обратиться к сайте впервые с момента запуска indexer.
Использование SOCKS5 прокси
Команда Proxy теперь понимает опцию, задающую тип прокси-сервера, значение которой может быть http или socks5. Если вам нужна идентификация на SOCKS5 прокси при помощи логина и пароля, вы можете использовать команду ProxyAuthBasic для указания логина и пароля.
Например:
Proxy socks5 localhost:9050
В этоим примере задается подключение к SOCKS5 прокси системы Tor, работающей на локальной машине без использования идентификации.