Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.
Ниже дан список изменений с момента выпуска предыдущего снапшота:
- Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
- Мета PROPERTY теперь индексируется
- Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
- configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
- Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
- Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
- Добавлена команда Cookie
- Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
- небольшие исправления
Команда AuthPing
Некогторые сайтв могут отдавать немного измененный контент для зарегистрированных пользователей, например, указывать цену товара со специальной скидкой. В большинстве случаев, процесс входа на сайт заключается в отправке POST или GET HTTP-запроса на определенный URL перед тем, как вы станете получать таргетированный контент. Вы можете испольовать команду AuthPing для отправки такого идентификационного запроса перед запросом документов с этого сайта.
Например:
AuthPing "POST https://commercial-site.ext.au/user/login.php u=bot%40user.ext.au&p=super%40pass"
Эта команда задает отправку POST запроса на URL адрес https://commercial-site.ext.au/user/login.php со следующими данными CGI: u=bot%40user.ext.au&p=super%40pass
Команда AuthPing должна быть указана перед каждой командой Server/Realm/Subnet, на которую она должна воздействовать. И указанный в ней запрос будет посыдаться всякий раз, когда индексирующий поток пытается обратиться к сайте впервые с момента запуска indexer.
Использование SOCKS5 прокси
Команда Proxy теперь понимает опцию, задающую тип прокси-сервера, значение которой может быть http или socks5. Если вам нужна идентификация на SOCKS5 прокси при помощи логина и пароля, вы можете использовать команду ProxyAuthBasic для указания логина и пароля.
Например:
Proxy socks5 localhost:9050
В этоим примере задается подключение к SOCKS5 прокси системы Tor, работающей на локальной машине без использования идентификации.
Здравствуйте Максим,
я не знаю, как лучше обратиться к Вам, через социальные сети
или через комментарии в блоге. Какой способ связи для Вас предпочтительный.
Я даже через LinkedIn пытался связаться,
но Вы, конечно же, не поняли кто это обращается и зачем.
Я сам программист, и есть желание написать десктопный/мобильный поисковичек
для обычных пользователей, администраторов и программистов.
Каждая из этих категорий пользователей имеет свои особенные требования к поиску,
которые могут кардинально отличаться.
Начал с изучения уже имеющихся технологий:
персональных поисков от яндекса и гугла, а так же смотрел и другие движки - сфинкс/датапарк/solr/xapian...
Вижу, что сейчас нет готового продукта, который бы соответствовал всем моим "хотелкам".
Я думаю, что не только мне было бы интересно почитать Ваше мнение о существующих
поисковых движках, их сравнение, обоснование выбора тех или иных технологических решений.
Было бы здорово увидеть развернутую статью об этом на любом популярном сайте.
Ну, и еще мне интересно, что вообще значит в Вашей жизни этот проект - dpsearch.
Eсть ли какая-то коммерческая основа проекта или все только "Just for fun".
Я читал Ваше резюме - видно, что несколько лет вы занимались только им перед
переездом а Австралию.
Занимаетесь ли проектом сейчас (хотя, судя по выпуску снапшета - работа ведется),
и будете ли заниматься им в будущем.
Возвращаясь к моим изысканиям:
в первую очередь, я думаю о:
- написании GUI к какому-либо эффективному поисковому движку.
- интеграции с какой-либо высоко эффективной СУБД (MS SQL / Oracle)
- создании персонального(частного) поискового облака, для обслуживания поиска по парку своих устройств.
- создании высоко-интеллектуальных поставщиков данных (индексаторов)
(здесь у меня есть идеи, которые не для "паблик".)
Интересно так же, что я тоже из Сочи, хотя и работаю сейчас в Москве.
Жаль, что не сложилось раньше пересечься и обсудить все это - либо в Сочи,
либо в Москве, где мы чуть в один банк не устроились однажды.
_______________
С наилучшими пожеланиями,
Сергей.