Difference between revisions of "TikaMW"

From Wiki4Intranet
Jump to: navigation, search
(Redirected page to Mediawiki4Intranet#TikaMW)
 
Line 1: Line 1:
#REDIRECT [[Mediawiki4Intranet#TikaMW]]
+
[[TikaMW]] — наше расширение MediaWiki, подключающее для индексации загруженных в Wiki файлов библиотеку [http://tika.apache.org/ Apache Tika]. Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.
 +
 
 +
* Автор: [[User:VitaliyFilippov|Виталий Филиппов]]
 +
* Последнее изменение: 2012-09-04
 +
* MediaWiki: 1.10+
 +
* Лицензия распространения: GPLv3 или более поздняя
 +
* Код: {{cmd|svn checkout http://wiki.4intra.net/svn/mediawiki4intranet/extensions/TikaMW/}}
 +
 
 +
== Установка ==
 +
 
 +
Нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).
 +
* Брать тут: http://code.google.com/p/mediawiki4intranet/downloads/detail?name=tika-app-1.2-fix-TIKA709-TIKA964.jar
 +
* Или тут: http://wiki.4intra.net/public/tika-app-1.2-fix-TIKA709-TIKA964.jar
 +
 
 +
Ссылки на баги, поставленные в апстрим по Тике: [https://issues.apache.org/jira/browse/TIKA-709 TIKA-709], [https://issues.apache.org/jira/browse/TIKA-964 TIKA-964].
 +
 
 +
Тику нужно прописать в автозапуск на сервере, как-то так:
 +
 
 +
<pre>java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8</pre>
 +
 
 +
Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:
 +
* При использовании стандартного движка: <tt>maintenance/rebuildtextindex.php</tt>.
 +
* При использовании [[SphinxSearchEngine]]: <tt>extensions/SphinxSearchEngine/rebuild-sphinx.php</tt>.
 +
 
 +
[[Category:Extensions]]

Revision as of 13:54, 6 September 2012

TikaMW — наше расширение MediaWiki, подключающее для индексации загруженных в Wiki файлов библиотеку Apache Tika. Tika умеет извлекать текст из бинарных документов различных форматов — MS Office, Open Office, PDF и так далее.

Установка

Нужна Java и собственно, сама tika (tika-app.jar). Оную брать лучше тоже у нас, так как в нашей версии поправлен один баг и добавлена возможность слушать порт не на всех интерфейсах, а только на заданном (например, на 127.0.0.1).

Ссылки на баги, поставленные в апстрим по Тике: TIKA-709, TIKA-964.

Тику нужно прописать в автозапуск на сервере, как-то так:

java -jar tika-app-1.2-fix-TIKA709-TIKA964.jar -p 127.0.0.1:8072 -t -eutf-8

Если в вики до этого уже были загруженные файлы, а вы по ним хотите искать — индекс нужно перестроить с помощью:

  • При использовании стандартного движка: maintenance/rebuildtextindex.php.
  • При использовании SphinxSearchEngine: extensions/SphinxSearchEngine/rebuild-sphinx.php.