Difference between revisions of "TikaMW"

From Wiki4Intranet
Jump to: navigation, search
 
(2 intermediate revisions by the same user not shown)
Line 1: Line 1:
{{Extension4i
+
{{Extension4info
 
|name=TikaMW
 
|name=TikaMW
 
|mediawiki=1.10+
 
|mediawiki=1.10+
 
|license=GPLv3.0+
 
|license=GPLv3.0+
|назначение=Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью [http://tika.apache.org/ Apache Tika].
+
|description en=Search indexing of binary (MS Office, Open Office, PDF and other) documents uploaded into the Wiki using [http://tika.apache.org/ Apache Tika].
 +
|description ru=Поисковая индексация содержимого бинарных (MS Office, Open Office, PDF и т.п.) документов, загруженных в вики, с помощью [http://tika.apache.org/ Apache Tika].
 
|authors=[[User:VitaliyFilippov]]
 
|authors=[[User:VitaliyFilippov]]
 
|created=2012-09-03
 
|created=2012-09-03
Line 9: Line 10:
 
|included=2012-09-04
 
|included=2012-09-04
 
|status=our
 
|status=our
 +
|useful=definitely
 
}}
 
}}
 
+
{{ExtensionFromInfo|lang=en|name=TikaMW}}
== Установка ==
+
[[Category:Incomplete extension descriptions]]
 
+
Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
+
 
+
Чтобы она работала, нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
+
* Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
+
* Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
+
 
+
Ссылки на баги, поставленные в апстрим по Тике: [https://issues.apache.org/jira/browse/TIKA-709 TIKA-709], [https://issues.apache.org/jira/browse/TIKA-964 TIKA-964].
+
 
+
Тику нужно прописать в автозапуск на сервере, как-то так:
+
 
+
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
+
 
+
Если вы используете нашу сборку и наш ServerSettings.php, то прописывать Тику дополнительно не нужно — она уже там. А под виндами у нас и сфинкс пока отключён :)
+
 
+
В LocalSettings.php нужно прописать:
+
 
+
<code-php>
+
require_once "$IP/extensions/TikaMW/TikaMW.php";
+
 
+
// Адрес Tika-сервера (IP:порт)
+
$egTikaServer = '127.0.0.1:8072';
+
 
+
// Если ваша Tika новее 1.2 и поддерживает новые форматы,
+
// можно переопределить поддерживаемые MIME-типы:
+
$egTikaMimeTypes = '
+
    text/*
+
    application/*+xml
+
    application/xml
+
    application/vnd.oasis.opendocument.*
+
    application/vnd.openxmlformats
+
    application/vnd.ms-*
+
    application/msaccess
+
    application/msword
+
    application/pdf
+
    application/rtf';
+
</code-php>
+
 
+
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:
+
* При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>.
+
* При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>.
+

Latest revision as of 15:53, 22 April 2013

TikaMW is a MediaWiki extension.

Status for Mediawiki4Intranet distribution:

  • Inclusion date: 2012-09-04
  • Included version: newest available
  • Improvement status: Created by MediaWiki4Intranet project