asdferqew

<<[*]前の記事へ  [#]次の記事へ>>

[groonga-dev,03340] Re:インデックスの情報を詳細出力する方法
(asdferqew at 07/03 21:42)
[1/3ページ]
須藤です。

In
"[groonga-dev,03339] インデックスの情報を詳細出力する方法" on Fri, 3 Jul 2015 11:44:18 +0900,
Hiroyuki Sato wrote:

> おかげさまでGroongaの仕組みを詳しく理解することができました。

よかったです!

> http://gist.github.com/hiroyuki-sato/27142229622c74803069

> Groongaの場合、TokenBigramを指定しても2文字ずつに分解を行うのは非ASCII文字の場合のみである。

が少し説明不足で、正規化処理が行われたときだけ↑の挙動になり
ます。正規化処理をしない場合はASCIIの文字も2文字ずつに分解し
ます。

> * 文字がASCIIの場合: 単語単位に分割??(ここ怪しい)

補足すると、連続するアルファベットを1トークンにする(1文字の
トークンにもなりえるし、3文字以上のトークンにもなりえる)、
が実際の挙動です。同様に連続する数字も1トークン、連続する記
号も1トークンにします。

> selectコマンド等で、POSITIONの情報や全てのRecordの_idを出力する方法は
> ありますでしょうか?

selectコマンドではできないんです。
Rroongaにgroonga-index-dumpという実行ファイル(コマンドなん
ですが、Groongaのコマンドと紛らわしいのでここでは実行ファイ
ルと書きます)があって、それを使うと出力できます。

% groonga-index-dump --output-directory /tmp/index-dump DB_PATH

というように使います。そうすると、/tmp/index-dump/ディレクト
リー以下にモリモリとファイルができます。1トークン1ファイルに
なっていて、その中にそのトークンのPOSITION情報やレコードのキー
(_idではないです)が出力されます。

例えば、るりまサーチというやつのデータベースだとこんな感じの
ファイルができます。(トークンはURLのように%エンコードされて
ファイル名になりま
[6]次ページへ>>

コメント(0)
トラックバック(0)

<<[*]前の記事へ  [#]次の記事へ>>

このブログのトップ
Seesaaブログ