<P><B>Dictionary</B> (<I>n.</I>) A book containing the words of a language, arranged alphabetically, with explanations of their meanings; a lexicon; a vocabulary; a wordbook.</P>のように、全体が<P></P>で囲まれ、その中で、見出しが<B>と</B>、品詞の種類が<I>と</I>で囲まれ、そしてその定義が残りの部分になっています。
<DT>Dictionary</DT><DD> (<I>n.</I>) A book containing the words of a language, arranged alphabetically, with explanations of their meanings; a lexicon; a vocabulary; a wordbook.</DD></BR>となるようにすれば、良いことになります。
cat wb1913_?.html wb1913_new.html | tr \\r \\n | \
> sed -e 's/<P>//g;s/<B>/<DT>/g;s@</B>@</DT><DD>@g;s@</P>@</DD></BR>@g' | \ > sed -e '/HTML/d;/HEAD>/d;/TITLE>/d;/<META/d;/BODY>/d' > wb1913_EB.html |
EBStudioはWindows上で動くので、作業性を考えて、Cygwin を使ってUNIX環境を作って、Windows上で実行しました。
MS-DOSで動くPerlあたりを使ってもう少し簡単にできたかも知れませんが、良い方法が思いうかばなかったので、変則的な手段となりました。
EBStuidio を起動して,html形式のデータをEPWING形式に変換します。まず、「ファイル」-「新規作成」または、メニューバーの左端(下図の赤丸)をクリックします。 | |
「書籍情報の登録」のWindowが開きますので、ここで書籍名と辞書を格納するディレクトリを指定します。書籍名はなんでもよいのですが、WEBSTER1913 としました。 | |
「OK」とすると次に「入力ファイルの登録」Windowが開くので、先程作成したhtmlファイルを指定します。ファイル種別で「HTML」にチェックが入っていることを確認した後、
「OK」を入力して、元のWindowにもどって、EPWING形式のデータを格納する出力先を指定します。指定した出力先の下に、catlogsと書籍情報で登録した書籍ディレクトリが作成されます。 以上の準備がおわったら、!をクリックすると変換が始まります。 |
|
Websterの原データは色々誤りは修正されてきているようですが、ところどころに誤りがあって、変換途中で右図のようなエラーメッセージがでることがあります。赤線を引いたところに表示されているのがエラーの有る行数ですから、エディタ等で元の
htmlデータの指定行を開いて確認の上、修正をします。例えばこの場合は、sedで指定行の前後を確認すると
なお、最終的に変換時間は数分でした。 |
F:\tmp--003---web1913-+--data----honmon
| +--gaiji | +--catalogs |
あとは、Windowsであれば DDWin あたりで、Linuxならば、NDTPに定義するか、EbDicあたりを使って、辞書を参照できます。