Наткнулся на ссылку на новый проект AUMO. Интересно, какие там технологии используются, если автоматическое реферирование, то это не особо ново. Если же строят семантическую модель документа, то уже интереснее 🙂
Поисковые машины, Сидней и обо всём по-немногу
Наткнулся на ссылку на новый проект AUMO. Интересно, какие там технологии используются, если автоматическое реферирование, то это не особо ново. Если же строят семантическую модель документа, то уже интереснее 🙂
Какого-либо поиска я так не нашел, пишут, что заблокирован. В этом проекте мне интересным показалось другое - как они отбирают документы для последующей обработки? Взять документ, зная, что это статья, посчитать по нему ключевые слова и вынести их в качестве тегов - это просто, а вот найти такую статью - это проблема.
Поиск обещают сделать позже 🙂
Насколько я понял, сейчас сервера-источники документов к индексированию отбираются вручную, т.е. берутся сервера с заведомо "хорошими" документами.
Но даже на "хороших" серверах нужно найти "хорошие" документы - ведь не по размеру же HTML-файлов они это делают.
Боюсь, что ради атких подробностей нужно пытать не меня, а авторов 🙂
Я не знаю деталей, самому интересно, как оно у них работает 🙂
Как говорят сами авторы: «…Аумо читает текст и пытается "понять"…» (взято со страницы О проекте). То есть реализован какой то интеллект. Хотя говорить о семантике я бы пока не спешил. Что-то слышал о RDF формате, но не могу сказать реализован ли он на этом проекте. Пока это больше напоминает большую энциклопедию которую формирует машина. А так как файла robots.txt вроде нет, то могут реально забанить вить это фактически чистый copy + past имхо. Если что, надеюсь меня поправят 🙂