lookup“ルーキャプ”【検索】               by  フリードル・ジェフリー
                                               Friedl,     Jeffrey
                                               jfriedl@omron.co.jp


    □━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━□
    ┃                                                              ┃ 
    ┃ ★ 目的 : テキストファイルの中の言葉を簡単に速く探すこと。★ ┃
    ┃                                       ‥‥  ‥‥             ┃ 
    □━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━□

  ┌──────────────────────────┐
  │私の日本語を理解する力が足りないのでお許して下さい。│
  ├──────────────────────────┴───────┐
  │Lookup の機能はとてもｐｏｗｅｒｆｕｌですが、日本語の説明書は書きに │
  │くい(ジェフリーにとって). 英語の説明書は詳しいので、英語を読める人  │
  │はそれを見てください。                                              │
  └──────────────────────────────────┘

△  △  △  △  △  △  △  △  △  △  △  △  △  △  △  △  △  △  △  △
  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽  ▽

━━━━━━━━━━━━━━━━━━━━━━━━┓
応用: edict や /usr/dict/words の中の言葉を引く ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

   edict はフリー(無料)の英和・和英辞典です。
   "edict" というファイルの行は全て以下のフォーマットです。

           漢字 [読み方] /英語/英語/.../
   とか    仮名 /英語/英語/.../

   例えば:
      アメリカ /America/
      京 [けい] /10,000,000,000,000,000/ten quadrillion/
      元気 [げんき] /health(y)/robust/vigor/energy/vitality/vim/stamina/
      御飯 [ごはん] /rice (cooked)/meal/
      車 [くるま] /car/vehicle/wheel/
      日本語 [にほんご] /Japanese language/

   現在は約80,000行が入っているので、なかなか便利だと思います。
   ftp.cc.monash.edu.au (130.194.1.106) の pub/nihongo にある、
   Jim Breen先生が提供したものです。英語の edict.doc もあります。

   edict の 80,000行が約３メガバイトあるので、
   普通の grep などは遅過ぎるはずです。

━━━━━━━━━━━━━━━━━━━━━━━━┓
コンパイル                                      ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛
gmake と gcc あれば、"gmake" だけで出来ます。

普通の make でも大丈夫ですが、lookupのMakefile を理解出来ない make も
あるので、その場合には "sh make.sh" と、してみてください。

━━━━━━━━━━━━━━━━━━━━━━━━┓
準備                                            ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛
テキストファイルのインデクスを作って保存する。
  % lookup -write edict

"edict.jin" と言うインデクスファイルが作成される。


━━━━━━━━━━━━━━━━━━━━━━━━┓
JISとEUCとShift-JIS に対して                    ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

探す対象のファイルの日本語の文字コードは、EUCでなければいけません。ただし、
ディスプレイの入出力はJISとEUCとShift-JISいずれも出来ます。"-jis","-sjis",
"-euc"のコマンドラインアーギュメントがあります.  (アーギュメントが指定されな
い場合には"-euc"になります。)

━━━━━━━━━━━━━━━━━━━━━━━━┓
基本的な使用                                    ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛
   % lookup -jis edict
            ^^^^─────jisの場合

起動されれば、『search [edict]> 』のプロンプトが表示されます。

lookupのインタラクティブ入力は二つの種類があります：
  第一： 検索させる命令 (正規表現 "regular expression")
  第二： パラメータ等に対してのコマンド (“コマンド”)

入力行の最初の文字が半角スペース(' ')の場合には、コマンドとして解釈され
ます。他の入力行は正規表現として解釈されます。

ファイルの中の言葉を検索する例：

                 v── 注意：このスペースはプロンプトのスペースです。
  search [edict]> Japan
  ぼけ /Japanese quince/
  やくざ /Japanese mafia/Yakuza/
  カルピス /Japanese milk-based soft drink/sperm/semen/cum (col)/
  活弁 [かつべん] /narrator in Japanese silent cinema/           
  漢和 [かんわ] /Chinese Character-Japanese (e.g. dictionary)/
  弓道 [きゅうどう] /(Japanese) archery/
 など


停止する命令 (コマンドの例)：

		   v── このスペースはプロンプトのスペースです。
    search [edict]>  quit
		    ^──── このスペースは大切ですよ。
                
━━━━━━━━━━━━━━━━━━━━━━━━┓
ローマ字 → 仮名                                ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

入力行の最初の文字が‘/’ならば、それに続くローマ字は仮名に変換され
ます。他のところで仮名に変換したい場合には、ローマ字で入力した後 ^space
(コントロールスペース)を入力することで、ローマ字は仮名に変換されます。

変換する時に、小文字はひらがなに、大文字はカタカナになります。

━━━━━━━━━━━━━━━━━━━━━━━━┓
正規表現                                        ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

grep や nemacs や mifes や perlで使われている正規表現が扱えます。正規表現の文
法の内容はプログラムに依存していますが、lookup の場合を以下の表に示します。

  記号   意味
  ━━━━━━━━━━━━━━━━━━━━━━━
  .      いずれかの一文字に一致
  […]   []の中の文字だけに一致 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐“character class”
  [^…]  []の中の文字以外だけに一致
  \d     いずれかの数字に一致 (“[0123456789]”と同じ)‐‐‐‐‐‐‐‐“digit”
  \D     \d の逆 (“[0123456789]”以外に一致、“[^0123456789]”と同じ)
  \w     言葉のローマ字に一致   (“[0-9a-zA-Z_]”と同じ) ‐‐‐“word element”
  \W     \w の逆
  \s     スペースかタブに一致 (“[ \t]”と同じ) ‐‐‐‐‐‐‐‐‐‐‐“space”
  \S     \s の逆 
  \a     半角文字に一致 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐“ascii character”
  \A     全角文字に一致 
  \k     全角カタカナ文字に一致‐‐‐‐‐‐‐‐‐‐‐‐‐“katakana character”
  \K     全角カタカナ文字以外に一致
  \h     全角ひらがな文字に一致‐‐‐‐‐‐‐‐‐‐‐‐‐“hiragana character”
  \H     全角ひらがな文字以外に一致
  \c     漢字だけに一致 ‐‐‐‐‐‐‐‐‐“chineese character”(国字も含む :-)
  \C     漢字以外に一致

  □?    □に一致する場合もない場合も一致‐‐‐‐‐‐‐‐‐‐‐‐ “maybe one”
  □+    □に一致する必要があるが、何回でも一致‐‐‐‐‐‐‐‐“at least one”
  □*    □に一致する必要がないけれど、何回でも(なしでも)一致‐‐“any number”

  (…)   中の記号が一つのグループにする。 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐“group”

  <      言葉の始まりに一致 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐“start of word”
  >      言葉の終りに一致‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ “end of word”
  □|○  □かあるいは○に一致‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐“or”

  ^      行の始まりに一致‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ “start of line”
  $      行の終りに一致 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐“end of line”

正規表現の例：

   <Japan>    “Japan”のある行に一致するが、
               その“Japan”の文字列が含まれる言葉の場合には、一致しません。

   ^日本      “日本”が行頭にある行に一致する。

   <account   “account…”という言葉がある行に一致します。
	      “account”や“accountant”や“accountability”等に一致する。
	       しかし“unaccounted”等は一致しません。

《正規表現の例は日本語での説明は難し過ぎる。御免なさい》


━━━━━━━━━━━━━━━━━━━━━━━━┓
複合検索する命令                                ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

普通の検索させる命令入力行は一つの正規表現ですが、複数の正規表現でも入力で
きます。特別な記号の“||”で正規表現を接続、その正規表現に一致させる行を検索
できます。

最初に、普通の正規表現の例：

“日本|Japan”は一つの正規表現です(複合ではない).
  “日本”かあるいは“Japan”がある行の検索の解釈の正規表現ですね。
  “日本”があるので、
       北日本 [きたにほん] /Kitanihon (pl)/
   などの行は一致します。              ^^────“place name” (地名)
   しかも、“Japan”があるので、同じ命令で
       国字 [こくじ] /native script/kana/kanji made in Japan/
   などの行は見つけるわけですね。

   つまり、「日本|Japan」は『“日本”or“Japan”があれば、示して下さい』
   という命令ですね。

それでは、“日本||Japan”はどういう意味でしょうか。
                 ^──── この‘|’だけ付加される。

  これは二つの正規表現の複合です：
     “||”の左には“日本”という正規表現。
     “||”の右には“Japan”という正規表現。
    これらは共に一つの命令を作成します。
    解釈は、『“日本”と“Japan”が共にある行を探す』となります。

    上の例では、
       北日本 [きたにほん] /Kitanihon (pl)/   
    は“Japan”なしですので、駄目です。同じように、
       国字 [こくじ] /native script/kana/kanji made in Japan/
    は“日本”がないので、駄目です。

  ただし、
      日本 [にほん] /Japan/
      日本語 [にほんご] /Japanese language/
      裏日本 [うらにっぽん] /Japan Sea coast areas/
      日本放送協会 [にっぽんほうそうきょうかい] /NHK/Japan national TV/
      など
  は、一致します。

 “日本||にっぽん”と“日本||にほん”はどうですか。分かりますか。

━━━━━━━━━━━━━━━━━━━━━━━━┓
他に                                            ┃
━━━━━━━━━━━━━━━━━━━━━━━━┛

色々コマンドありますが、日本語で説明はちょっと。

質問もコメントは jfriedl@omron.co.jp へ。

★日本語のおかしなところを見つけた方は、ジェフリーまで連絡して下さい.
日本語のマニュアル作成を手伝ってくれる方も募集しています.

よろしくお願いします、
	*jeffrey*                                      平成６年４月２２日
-------------------------------------------------------------------------
フリードル・ジェフリー     オムロン株式会社 (京都府長岡京)
Jeffrey E.F. Friedl        jfriedl@nff.ncl.omron.co.jp