MSWordViewでハッピー
[1]MSWordViewだぜベイビー(死語^^;)
いまナウ(死語)なヤング(死語)にバカウケ(死語)(?)の MSWordView とは,MS-Word97 以降で作られた Word 形式のファイルを HTML ファイルに変換して,Linux 上のブラウザで読んじまおう,ってタクラミに使えるソフトです.
[2]インストール
早速,MSWordViewを取ってこよう.http://www.csn.ul.ie/%7Ecaolan/docs/MSWordView.html から持って来れる.現時点(1999年6月)での最新版は MSWordView v0.5.14 です.
では,コンパイル & インストールしよう.
適当なディレクトリで,
$ tar xvfz mswordview-0.5.14.tar.gz
$ cd mswordview
$ ./configure <--- Configure ファイルがあると有難いねぇ
$ make
# make install
[3]使うべさ
基本的なコマンドの使い方は,
$ mswordvew fuga.doc > fuga.html
できました.終了〜・・・!?
んがが,おや?よく見ると,変換された HTML ファイルの META タグが
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;charset=utf-8">
なに〜,UTF-8 だとぉ〜,Unicode じゃねぇかぁ〜
と,大騒ぎしたが,ブラウザで見るだけならこれでも OK ッス.
そんなのイヤーン,日本語 EUCがいい,とか,ISO-2022-JP じゃなきゃダメ,な人は tcs (translate character sets) という変換ツールを使ってみよう!おー!
[3.1]tcs で モアはっぴー
ftp://plan9.bell-labs.com/plan9/unixsrc/ から tcs.shar.Z というファイルを取ってこよう.
んで,適当なディレクトリで,
$ uncompress tcs.shar.Z
$ sh tcs.shar
$ make
# ./regress
おしおし,早速日本語 EUC に変換してみる.
$ tcs -st ujis < fuga.html > fuga-euc.html
そして,META タグ中の charset=utf-8 を charset=x-euc-jp に書き換えると,OK.
さて,お次は ISO-2022-JP への変換ですね.
んがが,実は ISO-2022-JP への変換には,tcs にバグがあるんですよね.なので,パッチを充てましょう.
このパッチは,fj.comp.lang.perl で,すごい人が作ってくれてました.(感謝)
ということで,conv_jis.c ファイルにパッチを充てます.
$ patch -p0 -l conv_jis.c < patch.txt
では,いざ
$ tcs -st jis-kanji < fuga.html > fuga-jis.html
そして,同じく META タグ中の charset=utf-8 を charset=iso-2022-jp に書き換えて,OK.
ふぅ〜,これで満足満足.
June 3rd, 1999