サーバ関連:hyper_estraier

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
サーバ関連:hyper_estraier [2016/06/15 10:31] – 作成 mumeiyamibitoサーバ関連:hyper_estraier [2016/09/07 13:08] (現在) mumeiyamibito
行 9: 行 9:
   * 参考サイト: [[http://fallabs.com/hyperestraier/index.ja.html | 全文検索システム Hyper Estraier]]   * 参考サイト: [[http://fallabs.com/hyperestraier/index.ja.html | 全文検索システム Hyper Estraier]]
  
 +
 +===== 構築方法 =====
 +  * ここでの作業は、Web ルートディレクトリの権限をユーザにしているなら、sudo を付けずに作業できる。
 +  * ここでは、以下の条件で構築する
 +    * localhost が Web 上のドメインになる
 +
 +^  ディレクトリ  ^  Web上のアドレス  ^  ディレクトリの役割  ^
 +|/var/www| http://localhost/|Webサーバのルートディレクトリ|
 +|/var/www/estraier/|http://localhost/estraier|Hyper Estraier の cgi などを入れておくディレクトリ\\ (検索画面ページを出す時はこのディレクトリにアクセスすることになる; cgi が実行できる設定にしておく必要あり)|
 +|/home/hoge/Documents|-|検索対象のファイルが入っているディレクトリ|
 +|/var/www/estraier/Documents|http://localhost/estraier/Documents|Hyper Estraier が検索した結果のリンクをクリックした際にアクセスするディレクトリ\\ (/home/hoge/Documents のシンボリックリンク)|
 +
 +
 +  - Web サーバを構築して cgi を有効化 (例: [[サーバ関連:lighttpd]]; cgi が使えるのなら Apache でも Nginx でも好きなのをどうぞ)
 +  - Hyper Estraier をインストール\\ <code bash>$ sudo apt-get install hyperestraier</code>
 +    * hyperestraier: Hyper Estraier 本体
 +    * wv: Word からテキストを抽出するフィルタ
 +    * xlml: Excel からテキストを抽出するフィルタ
 +    * ppthtml: PowerPoint からテキストを抽出するフィルタ
 +  - ディレクトリの準備\\ <code bash>
 +$ sudo mkdir /var/www/estraier
 +$ sudo ln -s /home/hoge/Documents /var/www/estraier/Documents
 +</code>
 +  - Hyper Estraier をブラウザで表示するために必要なファイルのコピー<code bash>
 +$ sudo cp /usr/lib/estraier/estseek.cgi /var/www/estraier
 +$ sudo cp /usr/share/hyperestraier/locale/ja/*.* /var/www/estraier
 +</code>
 +  - 設定\\ <code bash>$ sudoedit /var/www/estraier/estseek.conf</code>\\ 以下の内容を編集<code conf>
 +indexname: casket
 +tmplfile: estseek.tmpl
 +topfile: estseek.top
 +helpfile: estseek.help
 +replace: ^file:///home/hoge/Documents{{!}}http://localhost/estraier/Documents
 +</code>
 +    * indexname: インデックス化したファイルが格納されるディレクトリパス (上記設定だと /var/www/estraier/casket を指定)
 +    * tmplfile: ブラウザで表示するための検索結果表示用テンプレートファイル (上記設定だと /var/www/estraier/estseek.tmpl を指定)
 +    * topfile: ブラウザで表示するためのトップ画面に表示される内容  (上記設定だと /var/www/estraier/estseek.top を指定)
 +    * helpfile: ブラウザで表示するためのヘルプファイル (上記設定だと /var/www/estraier/estseek.help を指定)
 +    * replace: 後述の estcmd で取得したファイルパスとブラウザで見るためのパスを置換する
 +      * estcmd では /home/hoge/Documents 以下のファイルパスとインデックスを関連付けるが、/home/hoge/Documents はブラウザからは閲覧できない設定になっているため、上の設定では /var/www/estraier/Documents のシンボリックリンクの URL に置き換えている
 +  - データベースの構築\\ <code bash>$ sudo estcmd gather -cl -il ja -pc UTF-8 -sd indexname /home/hoge/Documents</code>
 +    * Hyper Estraier では、相対パスを指定しても絶対パスに置き換えるため、estseek.conf の replace での設定が必須になる
 +    * indexname は estseek.conf で指定したパスにする
 +    * オプション
 +      * -cl: 上書きされたファイルの語句を再構築する
 +      * -il ja: 日本語を優先する
 +      * -pc UTF-8: ファイルパスのエンコード(デフォルトは ISO-8859-1)
 +      * -sd: ファイルの作成日時と更新日時を記録する
 +    * Hyper Estraier はテキスト情報をデータベースに登録するため、PDF や Word などは、フィルターを通してテキストを取得する必要がある
 +      * PDF ファイル\\ <code bash>$ sudo estcmd gather -cl -il ja -pc UTF-8 -sd -fx ".pdf" "H@/usr/share/hyperestraier/filter/estfxpdftohtml" casket pdf</code>
 +      * Word/Excel/PowerPoint ファイル\\ <code bash>
 +$ sudo estcmd gather -cl -il ja -pc UTF-8 -sd -fx ".doc,.xls,.ppt" "H@/usr/share/hyperestraier/filter/estfxmsotohtml" casket pdf</code>
 +  - ブラウザで http://localhost/estraier/estseek.cgi にアクセスする
 +  - 定期的にデータベースを更新するため、cron などに、手順 6 のデータベースの構築を登録しておく
 +
 +  * 参考サイト
 +    * [[http://www.plustar.jp/lab/blog/?p=3576 | Ubuntu に Hyper Estraier をインストールする | プラスター業務日記]]
 +    * [[http://blog.scimpr.com/2012/08/21/pdf%E3%81%AE%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2%E7%92%B0%E5%A2%83%E3%82%92%E6%95%B4%E3%81%88%E3%82%8B4%E3%80%9Chyper-estraier%E3%81%AEcgi%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%A6%E3%81%BF%E3%82%8B/ | PDFの全文検索環境を整える4〜hyper estraierのcgiを使ってみる | Scimpr Blog]]
 +    * [[http://alpha-netzilla.blogspot.jp/2010/07/hyper-estraier.html | Blog Alpha Networking: Hyper Estraier を使うための超高速インストール、設定メモ]]
 +    * [[http://ubuntu.hatenablog.jp/entry/20080515/1210860125 | Ubuntu 8.04にHyper Estraierをインストールしてみたのでメモ - 旧ID:itiriのブログ]]
 +    * [[http://koumei2.com/wiki/674 | Hyper Estraier:インデックス管理系コマンド - ぷちWiki]]
 +
 +{{tag>Linux サーバ}}
  • サーバ関連/hyper_estraier.1465954276.txt.gz
  • 最終更新: 2016/06/15 10:31
  • by mumeiyamibito