Клод Шеннон, "Теория связи в секретных системах", перевод на русский.
Раздел: Technologies/Algorithms
Наборы символов, кодировки и числовые ссылки на символы
Индексируя по-маленьку (см. Вершки Рунета), обратил внимание, что некоторые вебмастера, стараясь украсить страницы подопечных сайтов, используют нестандартные символы, указывая их, согласно рекомендации HTML4, в виде числовых ссылок на символы (nnn;).
Проблема заключается в том, что хотя в спецификации HTML4, явно указано:
Numeric character references specify the code position of a character in the document character set.
И хотя Википедия (по крайней мере английская) не делает различия между Character Set (набор символов) и Character Encoding (кодировка символов), для HTML (и XHTML, и XML), как подмножества SGML, это разные понятия. Поэтому использовать для числовых ссылок на символов кодовые значения символов из выбраной кодировки символов, как послупает большинство вебмастеров, вкорне не верно. Должны указываться коды символов в UNICODE, именно этот набор символов принят в SGML по-умолчанию.
Честно говоря, мне ни разу не встрачался документ в вебе, где явно указывался набор символов (отличный от UNICODE), но порывшись в Гугле, удалось отыскать пример такого объявления:
<!SGML "ISO 8879:1986" CHARSET "... formal name for EBCDIC ..." ... > <!DOCTYPE book> <book> ...
Кстати, в Tutorial: Character sets & encodings in XHTML, HTML and CSS на сайте W3C по этому поводу сказано более чётко:
NCRs, or Numeric Character References, and entities are ways of representing any Unicode character in XHTML / HTML using only ASCII characters.
...
One point worth special note is that values of numeric character references (such as ǵ and ǵ for ǵ) are interpreted as Unicode characters - no matter what encoding you use for your document.
На кого я похож
Доклады РИТ-2007
Доклады РИТ-2007 появились в свободном доступе: www.rit2007.ru/org.html. К сожалению не все доклады имеют презентации к скачиванию, или имеют только видео-отчет, но все равно я нашел много интересного к прочтению:
- Настройка FreeBSD для обслуживания 100-200 тысяч соединений (Сысоев Игорь Владимирович, автор nginx);
- Поисковый спам (Кудинов Павел Владимирович);
- Разработка архитектуры больших систем (Александр Горный, Mail.Ru);
- nginx - зачем он вообще нужен, текущие и будущие возможности (Сысоев Игорь Владимирович);
- Микроформаты: свежий взгляд на семантику веб-страниц (Максим Россомахин);
- Важнейшие принципы работы с текстом и кодировками (Андреев Олег Дмитриевич);
- Semantic Web & электронные СМИ (Клинцов Илья Викторович);
- Фактографическое аннотирование новостных сюжетов (Лев Гершензон );
- PostgreSQL в веб-приложениях: отказоустойчивость, балансировка нагрузки, репликация, масштабирование (Иван Золотухин);
- Оптимизация производительности баз данных (Бесков-Доронин Денис Николаевич);
- Полнотекстовый поиск в PostgreSQL (Бартунов Олег Сергеевич);
- Эффективный полнотекстовый поиск по базам данных (Андрей Аксенов).
Hadoop на OSCON
Яхувцы Дуг Каттинг (Doug Cutting) и Эрик Болдшвейлер (Eric Baldeschwieler) на конференции O'Reilly Open Source Convention (OSCON), проходившей в Портленде (штат Орегон, США), представили Hadoop, платформу с открытым исходным текстом для организации распределенных вычислений. Hadoop активно поддерживается Yahoo!.
Отчет о докладе доступен в виде презентации (часть 1, часть 2, видео для iPod и mp3 аудиозаписи.
Click Graph
Caching in search engines
Ноктурнал
В конце прошлого года появились сообщения о проекте создания поисковика основателем Википедии, отличительной чертой которого будет участие компьюнити в "рихтовке" результатов поиска. Пока процесс создания этого поисковика находится в начальной стадии обсуждения архитектуры, создания команды разработчиков и т.п.
В тоже время, компания Microsoft выпустила сообщение о том, что в её исследовательском центре в Силиконовой долине также разрабатывается технология поика, использующая сложившееся онлайновое окружение конкретного пользователя выполняющего поисковый запрос. Эта технология, получившая название Ноктурнал (Nocturnal), основывается на двух продуктах: Microsoft Live Messenger, используемом для обмена информацией (файлы, картинки, историю действий и что-угодно ещё) в уже сложившейся инфраструктуре онлановых контактов между пользователями; и конечно же на Microsoft Live Search, результаты поиска которого специальный тулбар обрабатывает (досортировывает) особым образом с учётом рекомендаций, получаемых от ваших контактов в Live Messenger.
Основной лейтмотив этой новой технологии: кто еще, как не ваше ближайшее окружение может знать ваши потребности и предпочтения (очевидно для разрешения возможных неоднозначностей при поиске).
Похожесть графов и сетей
Видеолекция из цикла Google TechTalks: Similarity in Graphs and Networks, прочитана профессором Винсентом Блонделем из Католического университета Лувэна (Бельгия).
...читать далее "Похожесть графов и сетей"
3D по фотографии
Derek Hoiem, publications, алгоритмы по которым работает Fotowoosh.