2013年5月18日 (土)

Wikipedia Lite Kit2(画像対応版)

■Wikipedia Lite Kit2(画像対応版):WKIT2.LZH 
LXDIC Lite画像対応版と辞書再構成ユーティリティのセット
・対応しているWikipediaのバージョン:0328,0420,0507
 (大幅な仕様変更がなければ,今後のバージョンにも使える)
・数式(インライン画像)の表示に対応する.
・数式画像(bmp)とロゴ画像(jpeg)だけを使用し,写真(jpeg)は使用しない.
 Wikipedia0328と0507に含まれる約1.8GBのカラー画像は削除する.
 (0420版には,カラー画像は含まれない)
   0507版の場合:数式=49642画像,ロゴ=3画像
          画像参照箇所:256018(数式70550,写真185468)

(WKIT2.LZHのダウンロード)
 ==> http://hp200lx.cocolog-nifty.com/blog/test.html
 
lxdik.exm 5.8d(s,z,hは状態表示:画像swap,全角/半角外字:数字は外字数)
W05071
数式(インライン画像)表示
W05072
 
 
■WKit2(画像対応版)簡易ドキュメント
※このドキュメントは,WKIT2.LZHには含まれていません.
----------------------------------------------------------------------
  Wikipedia Lite Kit for HP200LX(画像対応版)
----------------------------------------------------------------------
HP200LX上で,Wikipedia(ja)/Lite[EPWING版]を閲覧するためのキット
・Wikipedia(ja)/Lite[EPWING版]専用のユーティリティ
・4GiB以上に対応した辞書ビューア:LXDIC Lite 画像対応版
 
 
●ファイル一覧
・reform.exe     辞書再構成プログラム V8.3       [Wikipedia専用][Win32]
・wxconv.exe     画像コンバータ V6.0             [Wikipedia専用][Win32]
 cjpeg.exe      jpegエンコーダ(wxconv.exeが使用)             [Win32]
 djpeg.exe      jpegデコーダ (wxconv.exeが使用)             [Win32]
・waddr.exe      アドレス書換プログラム V6.0     [Wikipedia専用][Win32]
・wxcomp.exe     辞書圧縮プログラム V2.0         [Wikipedia専用][Win32]
・lxdik.exm      LXDIC Lite 画像対応版  V5.8d                  [exm]
 lxdik.ini      lxdik設定ファイル
 lxdik.hlp      lxdikヘルプファイル(参考資料)
 
 
●内容
1.辞書再構成プログラム:reform
  インデックス等を本文の前に再配置し,HP200LXでの検索を高速化する.
  カラー図版は削除する.(画像のアドレス情報は保存)
  オプション:
   -d:本文の目次など(TOC,Lang:約700MB)も削除する.(デフォルト)
   -p:本文は削除しない.
2.画像コンバータ wxconv
  画像をモノクロビットマップに変換し,画像ファイルを作成する.
3.アドレス書換プログラム:wxaddr   
  本文の画像参照アドレスを画像ファイルの新しいアドレスに書換える.
4.辞書圧縮プログラム:wxcomp
  辞書圧縮プログラムの4GiB超対応版
  以前の圧縮辞書との互換性はない.
5.EPWING辞書ビューア:LXDIC Lite: lxdik.exm Ver.5.8d
  4GiB以上に対応したテスト版
  画像表示に対応
  
  
●使い方
(概要)
 オリジナル辞書の構成を変更し,LXDIC Lite用の辞書を作成する.
 honmon.org ==> wikip.hlz  <<  辞書再構成,アドレス書換,辞書圧縮
                wikip.img  <<  画像変換(画像を分離)
                wikip.blk      ブロック情報
 
(作業手順)
0.EBWin付属のEBShrinkなどで,本文と外字を伸長する.
  honmon.ebz ==> honmon.org
  gai16h.ebz ==> gai16h.org(*)
  gai16f.ebz ==> gai16f.org(*)
  
1.画像を削除し,辞書を再構成する.(省略可※)
  本文の最後尾の不要部分も削除して再構成(デフォルト)
   reform honmon.org honmon.ref [-d]
    (処理時間:15~20分程度)
  本文は削除せず,元のサイズのまま再構成
   reform honmon.org honmon.ref -p
    (処理時間:15~20分程度)
    入力ファイル:honmon.org     オリジナルの辞書ファイル
    出力ファイル:honmon.ref     再構成後の辞書ファイル
  ※この手順を省略した場合は,検索時間が長くなる.(約1.5倍)
  
2.画像変換,画像ファイル作成
  変換実行時は,cjpeg.exe,djpeg.exeを同じディレクトリに置く.
   wxconv honmon.org wikip    <-- 出力ファイル名を拡張子なしで指定
    (処理時間:45分~60分)
    入力ファイル:honmon.org     オリジナルの辞書ファイル
    出力ファイル:wikip.img      画像ファイル(*)
                 wikip.tbl      新旧アドレス対照表
  
3.本文とメニューの画像アドレスを書換える.
  wxaddr honmon.ref wikip      <-- tblファイル名を拡張子なしで指定
   (処理時間:15分程度)
    入力ファイル:honmon.ref     再構成済の辞書ファイル
                  wikip.tbl      アドレス対照表ファイル
    出力ファイル:wikip.hon      新アドレスの辞書ファイル
  
4.辞書を圧縮する.(圧縮辞書の名称,拡張子は任意)
  wxcomp wikip.hon wikip.hlz
   (処理時間:30分~60分)
    入力ファイル:wikip.hon      再構成/アドレス更新済の辞書
    出力ファイル:wikip.hlz      新辞書ファイル名(*)
                   wikip.blk      ブロック情報ファイル(*)
                 
5.セットアップ
 ・4GBカードの任意のディレクトリに,圧縮辞書,blkファイル,画像ファ
  イル,外字をコピーする.
    wikip .hlz     辞書ファイル
    wikip .blk     ブロック情報ファイル
    wikip .img     画像ファイル
    gai16h.org     半角外字ファイル
    gai16f.org     全角外字ファイル
 ・lxdik.ini に,辞書と外字を登録し,a:\_dat にコピーする.
 ・lxdik.exm を,MoreEXM に登録する.
 
[HP200LX/LXDIC]

|

2013年5月14日 (火)

EPWING版Wikipediaのインライン画像(2)

■インライン画像表示に必要なプログラム
・画像コンバータ(4GiB超対応)[未完成,現在は半手動変換]
・アドレス書換プログラム(4GiB超対応)[テスト版]
・LXDIC Lite画像対応版(4GiB超対応)[テスト版]
 
LXDIC Lite画像対応版(テスト中)
メニューのロゴ(jpeg)
Menu01
Menu21
本文の数式(bmp)
Sine1

[HP200LX/LXDIC]

|

2013年5月 9日 (木)

EPWING版Wikipediaのインライン画像

■EPWING版Wikipediaのインライン画像
数式がインライン画像で,表現されているため,カラー図版を削除すると
重要な情報が欠落してしまう.
インライン画像表示が可能かどうかを検討する.
 
●インライン画像のデータ
・画像数 :49409
  jpeg :24  (ロゴ)
   bmp :49385(数式)(モノクロ)
・幅の最大値 :2060  
・高さの最大値:508
・LXDIC形式のモノクロビットマップに変換した場合のサイズ:
   約40~50MB
・1項目の画像数:
  200以上の項目あり."三角関数の公式一覧" など
 
●検討
・画像の幅,ファイルサイズ,画像数は問題ない.
・1項目の画像数は,問題になる.
 画像情報を保持するためのバッファ量:1画像当り10バイト
  * バッファ量を増やす    :30 ==> 300 (2.7KB増加)
  * 1項目を画像数100で区切る:30 ==> 100 (0.7KB増加)
・1項目を画像数100で区切れば,メモリー消費量を増大させることなく
 対応できる.
 (圧縮対応と4GiB超対応で消費メモリーが増大している)
・インライン画像表示に必要な改良
  * 画像コンバータとアドレス書換プログラムの4GiB超対応
  * LXDIC Liteの項目区切りの仕様変更
   1項目の画像数が制限を越える場合は,別項目として分割表示する.
[HP200LX/LXDIC]

|

2013年5月 4日 (土)

Wikipedia0420閲覧キット(HP200LX用)

■Wikipedia0420閲覧キット(HP200LX用)
HP200LX上で,Wikipedia(ja)0420/Lite[EPWING版]を閲覧するためのキット
・Wikipedia(ja)0420/Lite[EPWING版]専用のユーティリティ
・4GiB以上に対応した辞書ビューア:LXDIC Lite (lxdiq.exm)
 
●ダウンロード
http://hp200lx.cocolog-nifty.com/blog/test.html
 
●ファイル一覧
・reform7.exe   辞書再構成プログラム V7          [0420版専用][Win32]
 reform8.exe   辞書再構成プログラム V8          [0420版専用][Win32]
・wxcomp2.exe   辞書圧縮プログラム V2         [Wikipedia専用][Win32]
・lxdiq.exm     EPWING辞書Viewer  V5.8c                      [exm]
 lxdiq.ini     設定ファイル
 
●内容
1.辞書再構成プログラム:reform Ver.7, 8
  インデックス等を本文の前に再配置し,HP200LXでの検索を高速化する.
  カラー図版は削除する.
  reform7 は,辞書を再構成し,画像を削除する.
  reform8 は,本文の目次など(TOC,Lang:約700MB)も削除する.
  (項目内容は,オリジナルのままで,情報の欠損は全くない)
2.辞書圧縮プログラム:wxcomp Ver.2
  4GiB超対応版
  以前の圧縮辞書との互換性はない.
  圧縮率向上と検索高速化の両立のために,特殊な仕様を採用している.
3.EPWING辞書ビューア:LXDIC Lite: lxdiq.exm Ver.5.8c
  4GiB以上に対応したテスト版
  画像表示には未対応
   
●作業手順
0.EBWin付属のEBShrinkなどで,本文と外字を伸長する.
  honmon.ebz ==> honmon.org
  gai16h.ebz ==> gai16h.org
  gai16f.ebz ==> gai16f.org
  
1.画像を削除し,辞書を再構成する.(省略可)
  reform honmon.org honmon.ref
  (処理時間:15~20分程度)
  
  再構成した場合は,不整合がないかを,Windows上のViewerで確認する.
  再構成しない場合は,検索時間が約1.5倍になる.(検索速度低下)
  
2.辞書を圧縮する.(圧縮辞書の名称,拡張子は任意)
  wxcomp honmon.ref wikip.hlz
  (処理時間:30分~60分)
   出力ファイル:wikip.hlz, wikip.blk
 
3.辞書とViewerのセットアップ
 ・4GBカードの任意のディレクトリに,圧縮辞書(*)と外字をコピーする.
   wikip.hlz, wikip.blk, gai16h.org, gai16z.orgをコピー
 ・lxdiq.ini に,辞書と外字を登録し,a:\_dat にコピーする.
 ・lxdiq.exm を,MoreEXM に登録する.
 (*)圧縮辞書:wikip.hlz+wikip.blk(ブロック情報とセット) 

●Wikipedia(ja)0420Lite のファイルサイズ
  honmon .ebz  2,137,540,141  
  honmon .org  6,289,928,192  
  honmon7.ref  6,245,414,912  reform7で処理
  honmon8.ref  5,519,816,706  reform8で処理
  wikip0 .hlz  3,022,388,178  honmon.orgを圧縮
  wikip7 .hlz  3,005,737,838  honmon7.refを圧縮
  wikip8 .hlz  2,826,069,686  honmon8.refを圧縮
  
[HP200LX/LXDIC]

|

2013年5月 3日 (金)

LXDIC Lite:lxdiq.exm 5.8c

■LXDIC Lite:lxdiq.exm Ver.5.8c
 4GiB以上に対応したテスト版
 画像表示には未対応
  
●lxdiq.exm 5.8c のバグ修正
 外字数が制限(7988)を越えると表示できない不具合があった.
 外字数の制限(7988)を外した.
  
(修正前)3行目:"崎"の異体字が "?" になっている
Miyaza00  
(修正後)
Miyaza01  
[HP200LX/LXDIC]

|

2013年5月 1日 (水)

Wikipedia(ja)0420/Lite[EPWING版]

■Wikipedia(ja)0420/Lite[EPWING版]
ダウンロードサイト(Project Boookends)
https://sites.google.com/site/boookends/
 
●0328版との相違
・情報が最新のものになった.
・画像がインライン画像のみになり,辞書サイズが大幅に縮小した.
・辞書の構成が変更され,インデックスが先頭部に配置された.
 - HP200LXでは,検索が高速化されるが,最善ではない.(1.5倍時間がかかる)
 - メニューの配置に問題があり,メニュー表示には時間がかかる.(1.2==>2.2秒)
 * 最も頻繁にランダムアクセスが発生する見出しを,先頭に配置する必要あり.
・読み(ひらがな)の間違いで,検索できなかった一部のキーワードが
 訂正され,検索できるようになった.
 
●オリジナルのファイル
honmon.ebz  2,137,540,141
honmon.org  6,289,928,192
-------------------------------------------------------------
[ID] 書籍構成要素名                 start  size  kasctygdh
[91] 前方一致表記形INDEX                2 77669  .as......
[71] 後方一致表記形INDEX            77671 77683  .as......
[81] クロス検索INDEX                155354 45704  .as......
[05] 前方一致表記形見出し           201058 16153  kasctygdh
[07] 後方一致表記形見出し           201058 16153  kasctygdh
[00] 本文                           217211 2832285  kasctygdh
[01] メニュー                       3049496     3  kasctygdh
[02] 著作権表示                     3049499    21  kasctygdh
[D2] カラー図版                     3049520 21735 
 
●書籍再構成後のファイル(検索高速化と画像削除)
honmon.ref  6,245,414,912 画像削除,再編成
honmon8.ref  5,519,816,706 本文の不要な部分(TOC|Lang)を削除
wikip .hlz  2,826,069,686 [LXDICで圧縮]
-------------------------------------------------------------
[ID] 書籍構成要素名                 start  size  kasctygdh
[05] 前方一致表記形見出し               2 16153  kasctygdh
[07] 後方一致表記形見出し               2 16153  kasctygdh
[91] 前方一致表記形INDEX            16155 77669  .as......
[71] 後方一致表記形INDEX            93824 77683  .as......
[81] クロス検索INDEX                171507 45704  .as......
[01] メニュー                       217211     3  kasctygdh
[00] 本文                           217214 2477989  kasctygdh
[02] 著作権表示                     2695203    21  kasctygdh
 
表示例(TOC,Langの参照先は削除済,表示不可)
Abe31  
TOC,Langは,本文最後尾にあるため,表示に時間がかかる.(5~6秒)
さらに,元の項目に戻る場合も,時間(数秒)がかかるため,実用的ではない.
(HP200LXには,不要と判断し削除)
  
[HP200LX/LXDIC]

|

2013年4月24日 (水)

Wikipedia:辞書サイズ縮小の可能性

■Wikipedia:辞書サイズ縮小の可能性
最終的に,圧縮後のサイズで,2.8GBまでサイズを縮小できる.
 
●実現方法
・本文の不要な部分を削除する.
 §TOC(目次)などに割当てられている本文最後の約1GBは,削除しても
 支障がない.
  ファイルサイズ(非圧縮):6.5GB  ==>  5.5GB
・辞書圧縮プログラムの圧縮率をあげる.
 一度に圧縮するブロック数を大きくすることで,圧縮率を上げる.
  圧縮率:56%  ==>  51%(1ブロック ==> 4ブロック)(*)
      5.5GB ==> 2.8GB
*)圧縮率が高くなる部分を削除しているので,残った部分の圧縮率は46%より
 大きくなり,51%程度になる.
  
●実験データ
環状バッファ(KB)-圧縮単位(KB)を変化させたときの圧縮率の変化
(元の辞書サイズ:6975MBの場合)
 
 KB-KB    圧縮後   圧縮率
-------------------------------
 1-2      3913MB   56.1%(現在)
 1-4      3717     53.3
 1-8      3620     51.9
-------------------------------
 2-4      3508     50.3
 2-8      3353     48.0
-------------------------------
 4-4      3425     49.1
 4-8      3169     45.4 (候補)
 4-10     3117     44.6
 4-16     3040     43.5
-------------------------------

[HP200LX/LXDIC]

|

2013年4月21日 (日)

Wikipedia Lite 最新版をLXで使う

■Wikipedia Lite 最新版をHP200LXで使う
Wikipedia(ja)0328/Lite[EPWING版]
 ダウンロードサイト(Project Boookends)
 https://sites.google.com/site/boookends/
 
●オリジナルのファイル
honmon.ebz  3.61 GiB (3,886,537,662 バイト)
honmon.org  7.73 GiB (8,304,496,640 バイト) 
-------------------------------------------------------------
[ID] 書籍構成要素名                 start     size  kasctygdh
[00] 本文                               2  2948113  kasctygdh
[05] 前方一致表記形見出し           2948139  15979  kasctygdh
[07] 後方一致表記形見出し           2948139  15979  kasctygdh
[91] 前方一致表記形INDEX            2964118  85007  .as......
[71] 後方一致表記形INDEX            3049125  85039  .as......
[81] クロス検索INDEX                3134164  50603  .as......
[01] メニュー                       2948115      3  kasctygdh
[02] 著作権表示                     2948118     21  kasctygdh
[D2] カラー図版                     3184767 870164 
 
●書籍再構成後のファイル(画像は削除)
honmon.ref   6.07 GiB (6,522,400,768 バイト) 再構成した辞書
wiki0328.hlz  3.50 GiB (3,761,443,558 バイト) 圧縮した辞書
wiki0328.blk  12.1 MiB (  12,739,064 バイト) ブロック情報
-------------------------------------------------------------
[ID] 書籍構成要素名                 start    size  kasctygdh
[05] 前方一致表記形見出し               2   15979  kasctygdh
[07] 後方一致表記形見出し               2   15979  kasctygdh
[91] 前方一致表記形INDEX            15981   85007  .as......
[71] 後方一致表記形INDEX           100988   85039  .as......
[81] クロス検索INDEX               186027   50603  .as......
[01] メニュー                      236630       3  kasctygdh
[00] 本文                          236633 2948113  kasctygdh
[02] 著作権表示                    3184746     21  kasctygdh
 
●4GB SD(3.7GiB)カードに,Wikipediaを入れる(空き容量160MB)
Wikidir2
  
●LXDIC Lite(4GiB超対応試作版):画像なし
Abe22
 
最後の項目(857641番目):ブロック番号2674637(5.477GB付近)
Item02
これ以降の約1GBの本文は,TOC(目次),Lang の参照先 Toc01
[HP200LX/LXDIC]

|

2013年3月 4日 (月)

辞書圧縮一覧

■辞書圧縮一覧
-------------------------------------------------------------
No 辞書名         元サイズ 圧縮後 圧縮率
-------------------------------------------------------------
1 広辞苑 第5版      220   110  50% LZ圧縮
     〃  画像     102    85  83% PCX化
2 新漢語辞典 第2版     40    28  70% LZ圧縮
     〃  画像      5    3  60% PCX化
3 理化学辞典 第5版     65    24  37% LZ圧縮
     〃  画像      17    8  47% PCX化
4 生物学辞典 第4版     28    16  57% LZ圧縮
     〃  画像      13    7  54% PCX化
5 世界大百科事典      288   190  66% LZ圧縮
     〃  画像     245   104  42% PCX化
6 医学大辞典 18版      25    15  60% LZ圧縮
     〃  画像      9    4  44% PCX化
7 日本大百科全書      202   144  71% LZ圧縮
    〃   画像     146   111  76% PCX化
8 大辞林 第2版      380   221  58% LZ圧縮
    〃   画像      10    10  100%  -
9 リーダーズ英和辞典    540   242  45% LZ圧縮
10 ウィキペディア     1774   1203  68% LZ圧縮
11 小学館・国語大辞典    113    66  58% LZ圧縮
12 新英和中辞典CD-ROM    163    75  46% LZ圧縮
13 新編英和活用辞典     293   130  44% LZ圧縮
14 コンピュータ用語辞典   56    24  43% LZ圧縮
15 理化学英和辞典      58    19  40% LZ圧縮
16 電気電子用語辞典     188    71  38% LZ圧縮
17 新英和中辞典(辞典盤)  88    40  45% LZ圧縮
18 現代国語辞典       49    31  63% LZ圧縮
-------------------------------------------------------------
   (合計)        5106   2981  58%
 
[HP200LX/LXDIC]

|

2013年3月 3日 (日)

LXDIC圧縮対応版の仕様

■LXDIC圧縮対応版の仕様
この仕様では,Ver14.8の辞書は使えない.(図版を表示できない)
 
仕様概要
・辞書圧縮には,LZ法のスライド辞書法を使用する.
・電子ブックの圧縮には対応しない.
・圧縮はブロック(2KB)単位で行い,ヘッダを付ける.
 新旧ブロックのアドレス対照表ファイルを作成
・モノクロ図版部分は圧縮せず,ヘッダなしの連続データとする.
・画像ファイルの圧縮には,PCX形式化を用いる.
 画像ファイルには,ビットマップとPCXが混在
・画像のデコードと表示は,行単位(18ライン)で行う.
・表示した画像は,Cドライブへスワップし,再表示の際に使用する.
 
特徴
・比較的高い圧縮率と実用的な検索速度,高速な画像表示
・辞書と画像トータルの圧縮率は,50%~70%
・圧縮辞書の検索時間は,約2倍になる.
 非圧縮辞書を用いれば,高速な検索が可能
・PCX画像の表示は,ビットマップに比べて,多少遅くなる.
・画像のスワップにより,画像のスクロール速度は従来どおり.
・他の仕様に比べて,パフォーマンスは良いが,必要な作業が多い.
 
必要な作業
1.画像ファイルの作成(画像コンバータ:各辞書専用版,汎用版)
 (現在使用中のものを使う場合は不要)
2.画像ファイルのPCX変換    (imgconv 4.0)
3.辞書の画像参照アドレス書換え (imgaddr 4.0)
4.辞書の圧縮          (lxcomp 4.0)
      
[HP200LX/LXDIC]

|

«LXDIC:圧縮辞書検索時間の改善