Перейти к содержимому

35

Ранее сообщалось об открытии компанией Google исходников OCR Tesseract. С тех пор проект движка OCR вылился в новый, более глобальный, проект OCRopus, в котором Tesseract используется в качестве плагина-движка для распознавания латиницы. И хотя на данных момент это единственный подобный плагин в проекте OCRopus, компания Google надеется в будущем добавить плагины для распознавания текста в других системах письмености, таких как кирилица или иероглифы.

В официальном блоге Google сообщается, что вывод в HTML у OCRopus получается несколько лучше, чем у коммерческих систем распознавания. Правда с оговоркой правильного расположения на планшете сканера листа распозноваемого документа.

4

В кои веки решил заапгрейдится на версии aclocal/automake/autoconf посвежее, но в процессе выполнения aclocal новой версии получил вот такое сообщение об ошибке:

Can't locate object method "path" via package "Request" at /usr/local/share/autoconf259/Autom4te/C4che.pm line 69, line 94.
aclocal: autom4te259 failed with exit status: 1

Решение простое: нужно удалить директорию autom4te.cache 🙂

Добавка: Если на FreeBSD вам попадется сообщение


src/Makefile.am:18: Libtool library used but `LIBTOOL' is undefined
src/Makefile.am:18:
src/Makefile.am:18: The usual way to define `LIBTOOL' is to add `AC_PROG_LIBTOOL'
src/Makefile.am:18: to `configure.in' and run `aclocal' and `autoconf' again.

То временным решением слежит


cd /usr/local/share/aclocal19
ln -s ../aclocal/libtool15.m4 .
ln -s ../aclocal/ltdl15.m4 .

28

Группа FSG (Free Standard Group) запустила LDN (LSB Developer Network), платформу информации и библиотек для Linux, с целью стать аналогом MSDN мира программ с открытым исходным кодом.

Иэйн Мэрдок (Ian Murdock), технический директор FSG и основатель Debian, хочет отметить главное достоинство создания LDN, -- платформу библиотек для Linux, которая в своей бета-версии объединяет наборы от O'Reilly и от Pearson Technology Group.

Для того, чтобы Linux стал действительно конкурентноспособной платформой, мы нуждаемся в централизованом источнике информации для разработчиков, которые желают создавать приложения, переносимые на различные версии Linux.

NB: LSB - Linux Standard Base

//Silicon.fr

10

Компания Google открыла ПО оптического распознавания символов (OCR) Tesseract. Этот движок уже достаточно стабилен, чтобы быть выпущеным по лицензии с открытым исходным текстом, но всё же обладает недостатками, в частности пока поддерживается только английский язык, а также отсутсвует модуль анализа структуры распознаваемой страницы, т.е. возникают проблемы с распознаванием текста, расположенного в несколько стольбцов. Также есть проблемы в обработке цветных документов или документов, выполненых несколькими уровнями серого. Тем не менее, Tesseract OCR является самым аккуратным ПО оптического распознавания из всех аналогов с открытым исходным текстом.
Поэтому компания Google нанимает специлистов области распознавания символов для работы над этим проектом.

//Google Code blog

2

На сайте проекта OpenDarwin позавчера появилось объявление о закрытии проекта.

Проект OpenDarwin был создан компанией Apple четыре года назад в надежде привлечь внимание создателей ПО с открытым исходным кодом, а также создания алтернативной производной версии ОС Darwin и связаного с ней комьюнити разработчиков, вносящего фиксы и предлагающего новые фичи для ОС Mac OS X и Darwin и которые моглы бы включаться и в "официальные" исходники.

За последнее несколько лет, OpenDarwin.org также стал хостингом для многих проектов связаных с ОС Mac OS X. Однако в следствие неблагоприятных факторов, таких как сложность взаимодействия с представителями Apple, трудности сборки и отслеживания всех исходников и отсутствие энтузиазма у сообщества Open Source, проект так и не оправдал возлагавшихся на него надежд и в течении нескольких месяцев будет закрыт. За это время команда постарается максимально облегчить переезд хостящихся на OpenDarwin.org проектов на новый хостинг.

//Silicon.fr, OpenDarwin.org

4

Патч, исправляющий Apache Bug 17564, для Apache 2.0.55: mod_negotiation.c.2.0.55.diff ( 1,169 байт, 15.04.2006, 21:19 MSK ). Замечание: этот баг исправлен в ветках Apache 2.1 и 2.2.

4

Проект Hadoop выделен в отдельный подпроект проекта Lucene из другого подпроекта Nutch. Hadoop состоит из Hadoop Distributed Filesystem (HDFS), распределённой файловой системы, ранее называвшейся Nutch Distributed Filesystem (NDFS), а также реализации MapReduce, технологии работы с большими наборами данных, разработанной компанией Google.

Рон Гарет (Ron Garret) в блоге Xooglers делится впечатлениями об использовании MySQL для AdWords и поптыке замены его на коммерческую БД.

Изначально AdWords была создана с использованием MySQL, СУБД с открытым исходным текстом и свободным использованием даже в коммерческих проектах. Сейчас MySQL по функциональности приближается к лучшим коммерческим СУБД, а в начале 2000 года это было не так, она конечно была вполне работоспособной системой, но в ней небыло некоторых возможностей (рассматриваемых некоторыми как основными). Впрочем, недостаток этих возможностей не был критичен, и система AdWords была построена без их использования. С другой, положительной, стороны MySQL был быстр, надёжен и, самое главное, абсолютно бесплатен.

После пробного запуска AdWords встал вопрос о переходе на "настоящую" базу. Большинство менеджеров привыкло следовать правилу "вы всегда получаете то, за что платите", и бесплатный сыр бывает сами знаете где. Поэтому для них MySQL не внушал доверия системы, способной работать на "настоящей" базе. И даже старый принцип технарей "не сломано - не чини" не помог, было принято решение о переносе AdWords на одну из коммерческих СУБД (наименование этой СУБД не называется).

Вначале переход был запланирован для AdWords, а затем и для основной системы показа рекламы. Одновременно с переходом на новую СУБД велись работы по введению поддержки многих языков, поэтому пришлось фактически переписать каждый запрос к базе данных. И в конце канцов случилась катастрофа: новая система получилась очень и очень медленной. Хотя просле героических усилий по оптимизации удалось добиться значительного улучшения, система так и не смогла работать также быстро, как она работала с MySQL.

В итоге случилось самое неприятное из возможных: две системы рекламы работали на разных СУБД. Хотя Рон к этому моменту покинул Google, ходят слухи о возможном возврате AdWords к MySQL (т.к. к этому времени MySQL обзавёлся большинством из тех недостающих "основных" возможностей)...

1

Компания Sun объявила о своём намерении включить в ближайшее время (в течении 30 дней) БД с открытым исходным кодом PostgreSQL в дистрибутив своей операционной системы Solaris.

Также планируется добавить возможность выполнения в OpenSolaris двоичных файлов Red Hat Linux без перекомпиляции.

Кроме этого объявлено о планах выпуска в рамках проекта OpenSolaris открытого исходного кода ZFS (Zettabyte File System), 128-битной файловой системы с расширенными возможностями обнаружения и исправления ошибок.

//Yahoo!News