差分
このページの2つのバージョン間の差分を表示します。
| 次のリビジョン | 前のリビジョン | ||
| サーバ関連:hyper_estraier [2016/06/15 10:31] – 作成 mumeiyamibito | サーバ関連:hyper_estraier [2016/09/07 13:08] (現在) – mumeiyamibito | ||
|---|---|---|---|
| 行 9: | 行 9: | ||
| * 参考サイト: | * 参考サイト: | ||
| + | |||
| + | ===== 構築方法 ===== | ||
| + | * ここでの作業は、Web ルートディレクトリの権限をユーザにしているなら、sudo を付けずに作業できる。 | ||
| + | * ここでは、以下の条件で構築する | ||
| + | * localhost が Web 上のドメインになる | ||
| + | |||
| + | ^ ディレクトリ | ||
| + | |/var/www| http:// | ||
| + | |/ | ||
| + | |/ | ||
| + | |/ | ||
| + | |||
| + | |||
| + | - Web サーバを構築して cgi を有効化 (例: [[サーバ関連: | ||
| + | - Hyper Estraier をインストール\\ <code bash>$ sudo apt-get install hyperestraier</ | ||
| + | * hyperestraier: | ||
| + | * wv: Word からテキストを抽出するフィルタ | ||
| + | * xlml: Excel からテキストを抽出するフィルタ | ||
| + | * ppthtml: PowerPoint からテキストを抽出するフィルタ | ||
| + | - ディレクトリの準備\\ <code bash> | ||
| + | $ sudo mkdir / | ||
| + | $ sudo ln -s / | ||
| + | </ | ||
| + | - Hyper Estraier をブラウザで表示するために必要なファイルのコピー< | ||
| + | $ sudo cp / | ||
| + | $ sudo cp / | ||
| + | </ | ||
| + | - 設定\\ <code bash>$ sudoedit / | ||
| + | indexname: casket | ||
| + | tmplfile: estseek.tmpl | ||
| + | topfile: estseek.top | ||
| + | helpfile: estseek.help | ||
| + | replace: ^file:/// | ||
| + | </ | ||
| + | * indexname: インデックス化したファイルが格納されるディレクトリパス (上記設定だと / | ||
| + | * tmplfile: ブラウザで表示するための検索結果表示用テンプレートファイル (上記設定だと / | ||
| + | * topfile: ブラウザで表示するためのトップ画面に表示される内容 | ||
| + | * helpfile: ブラウザで表示するためのヘルプファイル (上記設定だと / | ||
| + | * replace: 後述の estcmd で取得したファイルパスとブラウザで見るためのパスを置換する | ||
| + | * estcmd では / | ||
| + | - データベースの構築\\ <code bash>$ sudo estcmd gather -cl -il ja -pc UTF-8 -sd indexname / | ||
| + | * Hyper Estraier では、相対パスを指定しても絶対パスに置き換えるため、estseek.conf の replace での設定が必須になる | ||
| + | * indexname は estseek.conf で指定したパスにする | ||
| + | * オプション | ||
| + | * -cl: 上書きされたファイルの語句を再構築する | ||
| + | * -il ja: 日本語を優先する | ||
| + | * -pc UTF-8: ファイルパスのエンコード(デフォルトは ISO-8859-1) | ||
| + | * -sd: ファイルの作成日時と更新日時を記録する | ||
| + | * Hyper Estraier はテキスト情報をデータベースに登録するため、PDF や Word などは、フィルターを通してテキストを取得する必要がある | ||
| + | * PDF ファイル\\ <code bash>$ sudo estcmd gather -cl -il ja -pc UTF-8 -sd -fx " | ||
| + | * Word/ | ||
| + | $ sudo estcmd gather -cl -il ja -pc UTF-8 -sd -fx " | ||
| + | - ブラウザで http:// | ||
| + | - 定期的にデータベースを更新するため、cron などに、手順 6 のデータベースの構築を登録しておく | ||
| + | |||
| + | * 参考サイト | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | |||
| + | {{tag> | ||