Перейти к содержимому

3

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

  • добавлено задание таймаута чтения для сокета на основе значения таймаута чтения документа
  • добавлена поддержка библиотек wolfssl и mbedtls
  • добавлено отслеживание таймаутов для https
  • убрана поправка на вес сервера перед записью URL PopRank в данные об URL
  • исправлена компиляция без openssl
  • улучшено определение OpenSSL
  • добавлен ключ --enable-mcmodel для configure
  • исправлены флаги компиляции свободной от нитей версии libdpsearch в случае сборки без модуля Apache
  • переход на CRYPTO_THREADID для OpenSSL 1.0.0 и выше
  • небольшие исправления и обновления

2

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

  • Исправлена схема SQL для MySQL5
  • Исправлено падение при обработке ссылок без указанной схемы
  • Новое определение версии Apache
  • Исправлено построение crossword секции
  • HTML тэги p, option и input теперь могут быть секциями
  • Более тонкая спячька для нитей при невозможности залочить мютекс
  • Исправлена компиляция на FreeBSD 10
  • Добавлена команда Robots collect
  • Исправлено падение при задании лимита dt:minute
  • Выключена обработка карт-сайтов для Server/Realm/Subnet с указанным аттрибутом nofollow
  • Ряд незначительных исправлений

Я планирую прекратить поддержку Apache 1.3 в будущем, дайте мне знать, если вы все еще его используете.

7

В процессе решения задачи быстрого подсчета частот совместных появлений слов в тексте создал интересную структуру данных, которая также позволяет вычислять частоты появления первого слова проверяемой пары, а также эта структура строит префиксное дерево, которое может быть использовано в последующем анализе текста.

Исходный код доступен на GitHub: github.com/Maxime2/cooccurrences

Когда вы выполните команду make, вы должны увидеть такой вывод:


cc -O3 -funsigned-char cooccur.c -o cooccur -lm

Example 1
./cooccur a.txt 2 < a.in | tee a.out

Checking pair d e
Count:3  cocount:3
Relative frequency: 1.00

Checking pair a b
Count:3  cocount:1
Relative frequency: 0.33


Example 2
./cooccur b.txt 3 < b.in | tee b.out

Checking pair a penny
Count:3  cocount:3
Relative frequency: 1.00

Checking pair penny earned
Count:4  cocount:1
Relative frequency: 0.25

Программа cooccur принимает два аргумента: имя файла для обработки и размер окна слов, в котором считаются частоты совместного появления. После обработки текста и заполнения этой структуры данных, программа считывает пары слов со стандартного файла ввода, по одной паре на строку, и подсчитывает частоту появления первого слова пары в текста и частоту совместного появления в тексте указанной пары слов в пределах заданного окна. Если второе слово встречается более одного раза в окне, только первое появление учитывается.

Примеры взяты отсюда:

4

Сравните эти две фотографии одного и того же дома на Taylor Square в Сиднее (Австралия). Они сделаны с интервалом примерно в пять лет. Теперь, с пёстрым раскрасом, оно выглядит намного веселее 🙂

A house on Taylor square

A house on Taylor square

1

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления

...читать далее "dpsearch-4.54-2015-07-06"

1

Если у вас сайт на попечении, сделайте его пригодным для мобильных. Для этого в большинстве случаев достаточно додавить в head такую мету:


<meta name="viewport" content="width=device-width, initial-scale=1">

И Гугол вас не забудет - намек, что он учитывает дружественность к мобильным при ранжировании.

Проверить дружественность вашего сайта к мобильным устройствам можно здесь: //www.google.com.au/webmasters/tools/mobile-friendly/.

4

Йога оказалась весьма полезным иструментом уменьшения лишнего веса. Провалы на графике моего веса ниже (полученного при помощи "умных" весов FitBit Aria) соответствуют посещениям класса йоги для начинаюших.
Однако йога - не единственный спорт, которым я занимаюсь и который вносит свою лепту в управление весом, - сюда добавляются забеги на 3-7 км и плавание 1 км еженедельно.

QuickMemo+_2015-01-18-15-35-56

11

Поздравляю с наступившим новым 2015 годом!
Наилучшие пожелания всего самого доброго вам и вашей семье.

Кульминация традиционного сиднейского полуночного фейерверка, которым город встречает новый год:

4

Тасманийский дьявол (Tasmanian Devil) - еще одно австралийское сумчатое, к сожалению вымирающее на данный момент из-за какой-то загадочной болезни, поражающей их в родной среде обитания.

Вомбат (wombat), австралийское сумчатое массивного сложения, в частном зоопарке Физердэйл, Сидней, Австралия: