Difference between revisions of "TikaMW"
(→Установка) |
|||
Line 1: | Line 1: | ||
− | + | {{Extension4i | |
− | + | |name=TikaMW | |
− | + | |mediawiki=1.10+ | |
− | + | |license=GPLv3.0+ | |
− | + | |назначение=Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью [http://tika.apache.org/ Apache Tika]. | |
− | + | |authors=[[User:VitaliyFilippov]] | |
− | + | |created=2012-09-03 | |
+ | |version=2012-09-06 | ||
+ | |included=2012-09-04 | ||
+ | |status=our | ||
+ | }} | ||
== Установка == | == Установка == | ||
− | + | Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее. | |
+ | |||
+ | Чтобы она работала, нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1). | ||
* Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar | * Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar | ||
* Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar | * Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar | ||
Line 18: | Line 24: | ||
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre> | <pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre> | ||
+ | |||
+ | Если вы используете нашу сборку и наш ServerSettings.php, то прописывать Тику дополнительно не нужно — она уже там. А под виндами у нас и сфинкс пока отключён :) | ||
В LocalSettings.php нужно прописать: | В LocalSettings.php нужно прописать: | ||
Line 45: | Line 53: | ||
* При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>. | * При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>. | ||
* При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>. | * При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>. | ||
− | |||
− |
Revision as of 15:07, 25 January 2013
TikaMW — расширение MediaWiki.
- Назначение: Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью Apache Tika.
- Репозиторий: https://github.com/mediawiki4intranet/TikaMW
- Домашняя страница: http://wiki.4intra.net/TikaMW* Версия MediaWiki: гарантирована совместимость с 1.10+, возможна с другими* Авторы: User:VitaliyFilippov
- Лицензия: GPLv3.0+* Дата создания: 2012-09-03* Последняя версия: 2012-09-06
Включение в сборку Mediawiki4Intranet:
- Дата включения: 2012-09-04
- Включённая версия: последняя
- Состояние доработок: Создано в рамках MediaWiki4Intranet
Установка
Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
Чтобы она работала, нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
- Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
- Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
Ссылки на баги, поставленные в апстрим по Тике: TIKA-709, TIKA-964.
Тику нужно прописать в автозапуск на сервере, как-то так:
java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8
Если вы используете нашу сборку и наш ServerSettings.php, то прописывать Тику дополнительно не нужно — она уже там. А под виндами у нас и сфинкс пока отключён :)
В LocalSettings.php нужно прописать:
require_once "$IP/extensions/TikaMW/TikaMW.php"; // Адрес Tika-сервера (IP:порт) $egTikaServer = '127.0.0.1:8072'; // Если ваша Tika новее 1.2 и поддерживает новые форматы, // можно переопределить поддерживаемые MIME-типы: $egTikaMimeTypes = ' text/* application/*+xml application/xml application/vnd.oasis.opendocument.* application/vnd.openxmlformats application/vnd.ms-* application/msaccess application/msword application/pdf application/rtf';
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:
- При использовании стандартного движка: maintenance/rebuildtextindex.php.
- При использовании SphinxSearchEngine: extensions/SphinxSearchEngine/rebuild-sphinx.php.