Difference between revisions of "TikaMW"

From Wiki4Intranet
Jump to: navigation, search
(Установка)
Line 18: Line 18:
  
 
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
 
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
 +
 +
В LocalSettings.php нужно прописать:
 +
 +
<code-php>
 +
require_once "$IP/extensions/TikaMW/TikaMW.php";
 +
 +
// Адрес Tika-сервера (IP:порт)
 +
$egTikaServer = '127.0.0.1:8072';
 +
 +
// Если ваша Tika новее 1.2 и поддерживает новые форматы,
 +
// можно переопределить поддерживаемые MIME-типы:
 +
$egTikaMimeTypes = '
 +
    text/*
 +
    application/*+xml
 +
    application/xml
 +
    application/vnd.oasis.opendocument.*
 +
    application/vnd.openxmlformats
 +
    application/vnd.ms-*
 +
    application/msaccess
 +
    application/msword
 +
    application/pdf
 +
    application/rtf';
 +
</code-php>
  
 
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:
 
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:

Revision as of 14:15, 6 September 2012

TikaMW — наше расширение MediaWiki, подключающее для индексации загруженных в Wiki файлов библиотеку Apache Tika. Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.

Установка

Нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).

Ссылки на баги, поставленные в апстрим по Тике: TIKA-709, TIKA-964.

Тику нужно прописать в автозапуск на сервере, как-то так:

java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8

В LocalSettings.php нужно прописать:

require_once "$IP/extensions/TikaMW/TikaMW.php";
 
// Адрес Tika-сервера (IP:порт)
$egTikaServer = '127.0.0.1:8072';
 
// Если ваша Tika новее 1.2 и поддерживает новые форматы,
// можно переопределить поддерживаемые MIME-типы:
$egTikaMimeTypes = '
    text/*
    application/*+xml
    application/xml
    application/vnd.oasis.opendocument.*
    application/vnd.openxmlformats
    application/vnd.ms-*
    application/msaccess
    application/msword
    application/pdf
    application/rtf';

Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:

  • При использовании стандартного движка: maintenance/rebuildtextindex.php.
  • При использовании SphinxSearchEngine: extensions/SphinxSearchEngine/rebuild-sphinx.php.