Difference between revisions of "TikaMW"
From Wiki4Intranet
(→Установка) |
|||
Line 18: | Line 18: | ||
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre> | <pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre> | ||
+ | |||
+ | В LocalSettings.php нужно прописать: | ||
+ | |||
+ | <code-php> | ||
+ | require_once "$IP/extensions/TikaMW/TikaMW.php"; | ||
+ | |||
+ | // Адрес Tika-сервера (IP:порт) | ||
+ | $egTikaServer = '127.0.0.1:8072'; | ||
+ | |||
+ | // Если ваша Tika новее 1.2 и поддерживает новые форматы, | ||
+ | // можно переопределить поддерживаемые MIME-типы: | ||
+ | $egTikaMimeTypes = ' | ||
+ | text/* | ||
+ | application/*+xml | ||
+ | application/xml | ||
+ | application/vnd.oasis.opendocument.* | ||
+ | application/vnd.openxmlformats | ||
+ | application/vnd.ms-* | ||
+ | application/msaccess | ||
+ | application/msword | ||
+ | application/pdf | ||
+ | application/rtf'; | ||
+ | </code-php> | ||
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью: | Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью: |
Revision as of 14:15, 6 September 2012
TikaMW — наше расширение MediaWiki, подключающее для индексации загруженных в Wiki файлов библиотеку Apache Tika. Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
- Автор: Виталий Филиппов
- Последнее изменение: 2012-09-04
- MediaWiki: 1.10+
- Лицензия распространения: GPLv3 или более поздняя
- Код: svn checkout http://wiki.4intra.net/svn/mediawiki4intranet/extensions/TikaMW/
Установка
Нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
- Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
- Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
Ссылки на баги, поставленные в апстрим по Тике: TIKA-709, TIKA-964.
Тику нужно прописать в автозапуск на сервере, как-то так:
java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8
В LocalSettings.php нужно прописать:
require_once "$IP/extensions/TikaMW/TikaMW.php"; // Адрес Tika-сервера (IP:порт) $egTikaServer = '127.0.0.1:8072'; // Если ваша Tika новее 1.2 и поддерживает новые форматы, // можно переопределить поддерживаемые MIME-типы: $egTikaMimeTypes = ' text/* application/*+xml application/xml application/vnd.oasis.opendocument.* application/vnd.openxmlformats application/vnd.ms-* application/msaccess application/msword application/pdf application/rtf';
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:
- При использовании стандартного движка: maintenance/rebuildtextindex.php.
- При использовании SphinxSearchEngine: extensions/SphinxSearchEngine/rebuild-sphinx.php.