Перейти к содержимому

5

Очередное обновление каталога сайтов «Интернет Сочи»:

  • Sochi Web Studio -- Студия веб дизайна.
  • ЮгСофтСервис -- Продажа компьютерной и оргтехники. Официальный партнер компании CANON, партнер компании INTELLECT SERVIS (программы серии БЭСТ), дилер 1С.
  • Оптима -- Минигостиница в 50 метрах от пляжа, рядом Курортный городок.
  • Лазурный берег-Сочи -- Организация различного вида отдыха и лечения в Сочи. Описание гостиниц, отелей, пансионатов, санаториев, турбаз. Цены. Возможность бронирования.
  • Тур-Про -- Помощь в расселении отдыхающих в Лазаревском районе.
  • Аквапарк "Маяк" -- Водно-развлекательный комплекс. Находится в центре Сочи рядом с концертным залом "Фестивальный". Имеет прямой выход к морю.
  • Белый воин -- Спортивный клуб в Дагомысе. Основное направление - тайский бокс.
  • Алиса Интур -- Внутренний и зарубежный туризм, работа и обучение за рубежом, эмиграция.
  • ЭТМ -- Комплексные поставки электрооборудования.

2

Видеолекция из цикла Google TechTalks: Similarity in Graphs and Networks, прочитана профессором Винсентом Блонделем из Католического университета Лувэна (Бельгия).
...читать далее "Похожесть графов и сетей"

4

В статье от Microsoft Research Learning to Search Web Pages with Query-Level Loss Functions вводится понятие функции потерь на уровне запроса (query-level loss function, интересно как это правильно переводить, что-то я ничего похожего пока не нашёл, разве что loss function = "функция потерь" в англо-русском метематичеком словере).

Самое интересное в том, что функция рейтинга страниц, используемая в DataparkSearch уже несколько лет как (с самого рождения, но с различными модификациями), удовлетвоярет всем требованиям к этой функции потерь: независимость от числа документов и пар документов по запросу, выделять самые релевантные документы из списка найденых, быть ограниченой сверху конечной величиной. В TREC 2005 проверялись два варианта такой функции.
Есть повод покумекать над аналогичным алгоритмом "обучения"...

7

Тим о'Рэйли в своём «Радаре» отмечает мысль, высказаную Билом Бурнхэмом (Bill Burnham):

Сегодня многочисленные поисковые стартапы в духе Google, Yahoo, Ask и т.п., ищущие источники финансирования, по большей части заведомо мертвы, поскольку на сегодняшний момент поисковик, это не столько алгоритмы, сколько дорогостоящая платформа для индексирования всего Интернета, хранения собраной информации, а также способная обрабатывать огромное число запросов на поиск от многочисленных пользователей. Возможно, выжить смогут только те, кто сможет переориентироваться на создание новых приложений, а не на попытки построения собственной инфраструктуры поиска. Вполне возможно, что в ближайшее время инфрастуртура, необходимая для глобального поиска, будет доступна в качестве сервиса. Здесь компания Amazon, открыв индексирующий и поисковый API своего поисковика Alexa, выступает пионером "поиска как сервиса".

Далее Тим приводит пример Nutch, проекта создания поисковика с открытым исходным кодом, которым он когда-то занимался, и отмечает, что он, до сих пор не получив достаточного финансирования на создание собственной инфрастуктуры глобального поиска, так и остался по большей части исследовательским проектом.

Таким образом, Web 2.0 вступает в новую фазу, где соперничают не столько конкретные приложения, сколько платформы для таких приложений, но в отличие от эры Windows, главное здесь не контроль за API, он как правило открытый и всем доступный, а именно инфраструктура, и в первую очередь огромные базы данных, лежащие в основе приложений Web 2.0.

7

Компания Deep Web Technologies представила бета-версию 1.0 своего портала научных исследований, с помощью которого можно осуществлять поиск по свободно доступным научным журналам и другим открытым научным базам по широкому спектру научных дисциплин.

Поиск реализован на движке Explorit.

На проходящей в эти дни в Сиэтле (США) конференции SIGIR-2006, Microsoft Research представила работу: Using Web-Graph Distance for Relevance Feedback in Web Search, Sergei Vassilvitskii (Stanford University), Eric Brill. Для улучшения ранжирования документов в выдаче рассматривается в общем-то широкоизвестная гипотеза, состоящая из двух постулатов:

  • Релевантные страницы ссылаются на другие релевантные страницы;
  • На нерелевантные страницы ссылаются другие нерелевантные страницы.

В данной работе предложен алгоритм, по которому в процессе улучшения рейтинга рассматриваются не только ближайшие соседи, но также и все страницы на и с которых ссылаются вплоть до четвёртого колена. И, естественно, показывается, что такой подход позволяет улучшить релевантность выдачи.

В экспериментах использовался движок и база MSN Search. Используется ли такой алгоритм при обслуживании запросов от обычных пользователей и будет ли нечто подобное использоваться в ближайшем будущем пока неизвестно.

9

Компания Morfik, стартап с Тасмании (Австралия), запатентовал технологию компиляции в HTML и JavaScript с языков программирования высокого уровня.

Технология JavaScript Synthesis Technology, используемая в Morfik's WebOS AppsBuilder разрабатывалась более 6 лет, с 2000 года. Разработчики надеются, что эта технология позволит облегчить переход к Web 2.0 для крупных компаний с уже созданными информационными системами.

//Australian IT

По итогам Russian Realty Web Award 2006, конкурса на лучший сайт агентства недвижимости, сайт сочинской фирмы VESCO REALTY занял третье место в номинации "Лучший корпоративный сайт" (Региональный сайт).

6

DigiMind: Discover and exploit the Invisible Web for competitive intelligence. Обзор доступен на двух языках, английском и французском, после бесплатной регистрации с основной страницы сайта (ищите ссылку "Découvrir les trésors du Web Invisible").

3

Описание алгоритма TrustRank: Combating Web Spam with TrustRank, статья c 30й конференции VLDB, Торонто, Канада, 2004.