Difference between revisions of "TikaMW"

From Wiki4Intranet
Jump to: navigation, search
(Установка)
Line 1: Line 1:
[[TikaMW]] — наше расширение MediaWiki, подключающее для индексации загруженных в Wiki файлов библиотеку [http://tika.apache.org/ Apache Tika]. Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
+
{{Extension4i
 
+
|name=TikaMW
* Автор: [[User:VitaliyFilippov|Виталий Филиппов]]
+
|mediawiki=1.10+
* Последнее изменение: 2012-09-04
+
|license=GPLv3.0+
* MediaWiki: 1.10+
+
|назначение=Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью [http://tika.apache.org/ Apache Tika].
* Лицензия распространения: GPLv3 или более поздняя
+
|authors=[[User:VitaliyFilippov]]
* Код: {{cmd|svn checkout http://wiki.4intra.net/svn/mediawiki4intranet/extensions/TikaMW/}}
+
|created=2012-09-03
 +
|version=2012-09-06
 +
|included=2012-09-04
 +
|status=our
 +
}}
  
 
== Установка ==
 
== Установка ==
  
Нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
+
Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
 +
 
 +
Чтобы она работала, нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
 
* Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
 
* Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
 
* Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
 
* Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
Line 18: Line 24:
  
 
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
 
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
 +
 +
Если вы используете нашу сборку и наш ServerSettings.php, то прописывать Тику дополнительно не нужно — она уже там. А под виндами у нас и сфинкс пока отключён :)
  
 
В LocalSettings.php нужно прописать:
 
В LocalSettings.php нужно прописать:
Line 45: Line 53:
 
* При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>.
 
* При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>.
 
* При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>.
 
* При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>.
 
[[Category:Extensions]]
 

Revision as of 15:07, 25 January 2013

TikaMW — расширение MediaWiki.

  • Назначение: Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью Apache Tika.
  • Репозиторий: https://github.com/mediawiki4intranet/TikaMW
  • Домашняя страница: http://wiki.4intra.net/TikaMW* Версия MediaWiki: гарантирована совместимость с 1.10+, возможна с другими* Авторы: User:VitaliyFilippov
  • Лицензия: GPLv3.0+* Дата создания: 2012-09-03* Последняя версия: 2012-09-06

Включение в сборку Mediawiki4Intranet:

  • Дата включения: 2012-09-04
  • Включённая версия: последняя
  • Состояние доработок: Создано в рамках MediaWiki4Intranet

Установка

Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.

Чтобы она работала, нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).

Ссылки на баги, поставленные в апстрим по Тике: TIKA-709, TIKA-964.

Тику нужно прописать в автозапуск на сервере, как-то так:

java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8

Если вы используете нашу сборку и наш ServerSettings.php, то прописывать Тику дополнительно не нужно — она уже там. А под виндами у нас и сфинкс пока отключён :)

В LocalSettings.php нужно прописать:

require_once "$IP/extensions/TikaMW/TikaMW.php";
 
// Адрес Tika-сервера (IP:порт)
$egTikaServer = '127.0.0.1:8072';
 
// Если ваша Tika новее 1.2 и поддерживает новые форматы,
// можно переопределить поддерживаемые MIME-типы:
$egTikaMimeTypes = '
    text/*
    application/*+xml
    application/xml
    application/vnd.oasis.opendocument.*
    application/vnd.openxmlformats
    application/vnd.ms-*
    application/msaccess
    application/msword
    application/pdf
    application/rtf';

Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:

  • При использовании стандартного движка: maintenance/rebuildtextindex.php.
  • При использовании SphinxSearchEngine: extensions/SphinxSearchEngine/rebuild-sphinx.php.