apsse(あぷっせ)は,英語を含んでいるテキスト/HTML文書,さらにURLを指定して英文のニュースサイトなどから単語を自動的に抽出し,その単語にPDICテキスト形式の辞書から自動的に意味を割り振ってP-Study System用の問題集や,HTML形式での単語一覧表を出力するCUIなプログラムです.
P-Study Systemは英単語学習ソフトとしてかなり凄いとこまで来てると思いますが,問題を作るのがメンドクサイのが難点です.でも,apsseを使えば秒単位で出来ちゃいます!
いろいろオプションを付けてみたので,頑張って設定すればステキな問題集が出来ると思います.また,自分好みの設定が出来ますので,使えば使うほどどんどん使いやすくなると思います.
apsseはフリーです.ソースも公開してます.ライセンスはBSDです.アイスが好きです.
また,apsseをGUIに見せかけるGapsse(がぷっせ)を作りました.これによって,apsseを簡単に使えるようになります(スクリーンショット).Version2.0.0以降はapsseを単独で使うよりはるかに便利になるでしょう.
apsse / Gapsseが窓の杜で紹介&収録されました!そちらもご覧下さい.
リリースのアナウンスはpssdev@freemlかこのページ上で行います.MLの方には区切りの良いところでアナウンスします.
for Windows
for UNIX
apsseでは,PDIC Users Pageにて配布されているDIC2001を,作者であるYoshiさんの許可を得て同梱させていただいております.また,apsseで作成した問題集/HTMLに関して,作者の許可なしに再配布することは,改変の有無を問わず禁止しております.
apsseではPDICテキスト形式の辞書を用います.DIC2001の他にもPDIC形式の辞書は英和に限らず沢山あります.PDIC Home Page内の辞書関連のLinkにて紹介されているので好きなものを探してみてください.
以下に,特に需要が高いと思われる英和辞書を以下に挙げておきます.
どちらも素晴らしい辞書ですので,ダウンロードして使ってみてください.
Windowsユーザの方は,apsse*.zipをダウンロードして解凍すればそれでもう使用可能です.中に入ってるGapsse.exeをダブルクリックして使ってください!また,Gapsse.exeのショートカットでもデスクトップに置いて,それを使えばapsseの機能が簡単に使えるようになります!また,VC使いの方はvcフォルダの中に入ってるapsse.dswとかを開けばそのままビルドできるはずです.
UNIXユーザの方は,rootになって
$ make $ make install
としてください.デフォルトのインストール先は,apsse本体が/usr/local/bin,設定ファイルが/usr/local/share/apsseとなっていますので,変更したい方はMakefileを変えてください.
ところで,apsseではdict.txtというファイルに常に使用する辞書を書いておきます.ですので,DIC2001.TXT以外のファイル名の辞書(例えばgene.txt)をいつも使う場合はdict.txtにその辞書ファイル名を書いておいた方が便利です.ただ,dict.txtに書かなくても-dオプションを使えば使用する辞書に加えることが出来ますので,状況にあわせて使い分けてください.
apsseのディレクトリ構成は,
となっています.
Gapsseはiniファイルを使用していますので,インストールしたディレクトリ以外にも,C:\Windows等の下にあるGapsse.INIを削除してください.
makeして使ってる人は,
$ make uninstall
としてください.Cygwinの人はTARGET=apsse.exeとした方がいいかもです.
v2.1.0以降のものを載せています.GapsseはapsseをGUI化するためのものですので,この下にあるapsseのヘルプも併せて読むとより理解が深まると思います.
左から,『入力ファイルの選択』,『入力ファイル(URL)をお気に入りに追加』,『入力ファイル(URL)を開く』という機能です.まず,ファイルの選択に関してはそのままです.*.txtや*.htmlといった入力ファイルを選んでください.で,『お気に入りに追加ボタン』を押すと,現在コンボボックスに表示されている入力ファイル(URL)をお気に入りに追加しようとするので,指示に従ってお気に入りのタイトルを入力してください.また,『入力ファイル(URL)を開く』ボタンを押せばブラウザやテキストエディタが起動して内容を見る事ができます.
apsseでは-iオプションに相当します.
左から,『出力ファイルの選択』,『出力ファイルを開く』という機能です.まず,ファイルの選択に関してはそのままです.*.pssdb5sや*.csvといった出力ファイルを選んでください.大体は勝手に決定されるものを使えば良いでしょう.『出力ファイル(URL)を開く』ボタンを押せばテキストエディタが起動してコンボボックスで指定された出力ファイルの内容を見る事ができます.
apsseでは-oオプションに相当します.
左から,『辞書ファイルの選択』,『辞書の追加』,『追加した辞書の削除』という機能です.まず,ファイルの選択に関しては,選んだものが使用辞書リストに追加されます.また,『辞書の追加』ボタンは,コンボボックス上から自分で辞書ファイルを指定した時に使ってください.『追加した辞書の削除』ボタンは,最後に追加した辞書をリストから削除します.ただ,辞書リストファイル(dict.txt)に書かれている辞書は削除されないので,その場合は直接dict.txtを編集してください.
apsseでは-dオプションに相当します.
入力ファイルに含まれている語と辞書との一致条件について指定します.『単語』を指定すれば出力ファイルに含まれるのは単語だけになります.また,『熟語』を指定すれば熟語だけで問題集が作られます.『単語と熟語』なら両方が出力されます.どれくらい熟語を抽出できるかは,実際にやってもらうのが一番だと思います.
apsseでは-t, j, Jオプションに相当します.
HTML文書から問題集を作ろうとする場合は『html』を指定してください.すると,タグの中などが無視され,余計な処理を行う必要がなくなります.また,テキスト文書やHTMLを平文として扱いたい場合は『text』を指定してください.ただ,たいした負荷にはならないので常に『html』でも全く問題無いと思います.
apsseでは-T, Hオプションに相当します.
P-Study System固有のファイル形式を指定したい場合は『pssdb5s』を指定してください.また,csv形式で出力したい場合は『csv』を指定してください.『pssdb5s』を指定した場合は<自作問題集>フォルダの下に,『csv』の場合はルートの直下に追加されます.
さらに,apsseの出力を見ながら英文を読みたいような場合は『HTML』出力がお 勧めです.『HTML1』では1つのWeb辞書を,『HTML2』では複数のWeb辞書が 使えます.
apsseでは-p, c, x, Xオプションに相当します.
そのままです.これのチェックを外すとデスクトップへの出力となります.また,入力としてURLを指定した場合は,チェックの有無に関わらずデスクトップへの出力となります.
apsseでは普通-oオプションで出力先を指定しない限りは入力ファイルと同じディレクトリへの出力となります.
普通の出力ファイルに加えて,指定した問題数のファイルも一緒に作成します.ちょっとだけ勉強したい時はここのチェックを入れるといいと思います.
apsseでは-qオプションに相当します.
他のPDICテキスト形式の辞書をダウンロードしてきて追加したときに,もしその辞書が昇順にソートされてなければチェックしてください.DIC2001,GENE95,eleなどはソートされているのでこれらの辞書を使う場合は特に指定する必要は無いです.
apsseでは-Sオプションに相当します.
使用する辞書に載っていない単語も抽出します.このオプションは英文を読む際 に使用すると便利です(意味が調べやすくなります).ただし,出力フォーマット はhtml限定となります.
apsseでは-yオプションに相当します.
例えば,入力として指定したファイルやURLにplayedという単語があれば,そこから現在形のplayを問題集に含めたい!っていう願望があります.そこで,apsseではreplace.txtというファイルが用意されています.例えば,"ied y"と書いておけば,studiedからstudyが抽出できたりするわけです.replace.txtには配布の時点でこれらのルールが結構書いてあるので,このチェックボックスをオフにすれば関連する単語や派生語をどんどん問題集に加えることができます.で,そういう余計な物はいらない!ということであればこのチェックボックスをオンにしてください.
apsseでは-Nオプションに相当します.
ニュースサイトなどから問題集を作ろうとすると,自分のわかっている簡単な単語まで抽出されてしまいます.これを防ぐために,apsseではignore.txtというファイルが用意されており,このファイルに書かれている単語は出力ファイルに含まれません.このファイルは自分で編集する事が出来るので,自分の学力に合わせてどんどん単語を追加していけば知らない単語だけの問題集が作れます.で,この機能を使いたくない場合はこのチェックボックスをオンにしてください.また,ダイアログボックス左下の『無視』グループはここに関連します.物凄く長い問題(熟語とか)やaとかbとかの短いものはカットしたいので,チェックをオフにした上で,無視する文字の長さを決定してください.
apsseでは-n, l, Lオプションに相当します.
単語の抽出は行わず,HTML文書などをダウンロードしてローカルに保存します.出力先のファイル名を指定しなければapsse.exeと同じディレクトリに保存されます.
apsseでは-Dオプションに相当します.
4択モードで勉強したい時,問題文が長すぎるとちょっと嫌だと思う事があります.そのような時はこのチェックボックスをオンにして,適当な文字数を設定してください.大体30〜45ぐらいが良いと思われます.
apsseでは-Cオプションに相当します.
開発版のものにはバージョンを載せています.Gapsse(v2.0.2〜)から,メニューバーの[機能] - [apsseの実行コマンドを表示]で,実際に実行されるコマンドが表示されるので,出てきたオプションと以下を照らし合わせてみてください.
apsse - Automatic PSS Editor
apsse (FILE_NAME | URL) [OPTION]...
apsse [OPTION]...
入力ファイルから単語を抽出して意味をつけたものをP-Study System形式に出力する.
入力ファイル名をFILE_NAMEに,あるいはURLで指定したアドレスからHTMLをダウンロードしてきたものに指定する.このオプションを省略した場合は入力ファイル名を聞かれる.なお,apsseにおいてのディレクトリの区切り文字は'/'とする.スペースを含むディレクトリを指定する場合は'"'で囲む.
出力ファイル名をFILE_NAMEに指定する.省略した場合は入力ファイル名の末尾に.pssdb5sを付けたものが入力ファイルと同じディレクトリに出力される.
入力を標準入力から読み込む.
出力を標準出力に吐き出す.
FILENAME で指定された辞書を使用する辞書に加える.このオプションは-d FILE1 -d FILE2...のように繰り返して追加できる.
入力ファイルの形式をテキストに指定する.
入力ファイルの形式をHTMLに指定する.これを指定すると<から>の間の文字が全て無視される.なお,TとHのどちらも省略するとHを指定した事になる.
単語のみ出力する.
単語と熟語を出力する.
熟語のみ出力する.なお,t, j, Jの全てを省略するとtを指定した事になる.
ignore.txtに書かれている単語でも抽出する.省略した場合はignore.txtに書かれている単語を抽出しない.さらに,このオプションが指定された場合は自動的に-l0 -L1024が指定される.
replace.txtに書かれている単語を置換しない.省略した場合はreplace.txtに書かれている文字列1が入力ファイルから抽出した単語の末尾にマッチした場合文字列2に置換して抽出単語に加える.
使用辞書に載っていない単語でも抽出する.なお,このオプションのみを指定すると-t,-N, -Xオプションが自動的に設定される.また,出力フォーマットはhtmlかcsv限定となり,-pが指定されると-Xに変換する.
入力ファイルから抽出した単語のうち,LENGTHで指定された値以下の文字数の単語は無視する.省略した場合は2文字以下を無視する.LENGTHは0〜1024の整数でなければならない.
辞書でマッチした単語のうち,LENGTHで指定された値以上の文字数の単語は出力しない.省略した場合は30文字以上を無視する.LENGTHは0〜1024の整数でなければならない.
このオプションを指定すると,辞書をソートしてから検索を行う(DIC2001, gene95, eleはソート済みなので不要).
このオプションを指定すると,出力ファイルからNUMBERで指定した問題数だけ選択して問題を作成する.また,NUMBERを省略した場合は20問となる.NUMBERは0以上の整数でなければならない.
このオプションを指定すると,pssdb5s形式で出力する.pとcのどちらも指定しない場合はpssdb5s形式出力となる.
このオプションを指定すると,csv形式で出力する.pとcのどちらも指定しない場合はpssdb5s形式出力となる.
このオプションを指定すると,HTML形式で出力する.使用できるWeb辞書はwebdict.txtの先頭で指定したもののみとなる.
このオプションを指定すると,HTML形式で出力する.この場合,webdict.txtで指定した複数のWeb辞書が使える.
このオプションを指定すると,入力ファイルとして指定したURLからHTML文書を取得し,ローカルに保存して終了する.-oオプションによって保存ファイル名を指定することも出来る.
このオプションを指定すると,LENGTHで指定した半角文字数以降の問題文をカットして出力する.LENGTHを省略した場合は半角40文字以降をカットする.LENGTHは0〜1023の整数でなければならない.
ヘルプの表示.
バージョンの表示.
改行コードはCR+LF,LF,CRを問わない.
辞書ファイルはPDICテキスト形式を用いる.この書式は,
見出し語 意味 見出し語 意味 :
である.このように見出し語(例えば英語)と意味(日本語)を一組にして書く.また," / ","★","◆"といった記号が意味に含まれた場合は,それ以降の文字列をPssのヒントとして扱う.
辞書ファイルの改行コードはCR+LF,LFでなければならない.
このファイルに書かれた単語は入力ファイルからの単語抽出において無視される.改行コードはCR+LF,LFでなければならない.書式は
単語 単語 :
である.
このファイルに書かれた置換前の文字列が,入力ファイルからの抽出単語の末尾にマッチした場合,置換後の文字列に置き換える.改行コードはCR+LF,LFでなければならない.書式は
置換前の文字列 置換後の文字列 置換前の文字列 :
である.置換後の文字列を長さ0にしたい場合は置換前の文字列の直後で改行する.つまり,goingからgoを抽出したい場合は,
ing
とだけ書く.
このファイルに書かれた文字と英字,スペース以外が解答の行に含まれていた場合,その問題と解答の行を無視する.このファイルは改行を読み飛ばす.エンコード,改行コードを特に問わない.
辞書として使用するPDICテキスト形式のファイルが存在するパスを書いておく.書式は
辞書0 辞書1 :
である.ファイルの上に書いてある辞書ほど問題作成において優先される.このファイルはエンコード,改行コードを特に問わない.
HTML出力の際に使用するWeb辞書を指定する.書式は
Web辞書の名前0 URLの前半0 URLの後半0 Web辞書の名前1 URLの前半1 URLの後半1 :
である.URLの前半と後半は検索語を境とする.例えば, goo英和辞典で『study』を検索 の場合(http://dictionary.goo.ne.jp/cgi-bin/dict_search.cgi?MT=study&kind=ej&mode=0)なら,
goo英和辞典 http://dictionary.goo.ne.jp/cgi-bin/dict_search.cgi?MT= &kind=ej&mode=0
と書く.
このファイルの改行コードは特に問わない.
HTML出力の際に使用するwavファイルを指定する.書式は
URLの前半 URLの後半
である.URLの前半と後半は検索語を境とする.例えば,rVoiceで『study』を聞く の場合(http://www.rhetorical.com/cgi-bin/demo.cgi?text=study&language=en&rate=16000&media=2&gender=femal)なら,
http://www.rhetorical.com/cgi-bin/demo.cgi?text= &language=en&rate=16000&media=2&gender=femal
と書く.
このファイルの改行コードは特に問わない.
HTML出力の際に使用するラベルを指定する.書式は
見出し語:英語(th.e) 見出し語:日本語(th.j) 見出し語:辞書(th.j) 見出し語:ヒント(th.h) 見出し語:音声(th.v) 表要素:音声(td.v)
である.
このファイルの改行コードは特に問わない.
Gapsseにおいて,お気に入りを保存しておくファイルである.書式は,
お気に入りのタイトル パス or URL :
である.
以下の環境で試しました.
P-Study System Version6.0.0 Beta4 Windows XP Home Edition Version 2002 Service Pack 1 Windows 2000 5.00.2195 Service Pack 3 RedHat 9.0 $ uname -a CYGWIN_NT-5.1 bessel 1.3.22(0.78/3/2) 2003-03-18 09:20 i686 unknown unknown Cygwin Microsoft Visual C++ 6.0
リンクを張ると共に深く感謝します.