asdferqew
<<[*]前の記事へ
[#]次の記事へ>>
[groonga-dev,03340] Re:インデックスの情報を詳細出力する方法
(asdferqew at 07/03 21:42)
[1/3ページ]
須藤です。
In
"[groonga-dev,03339] インデックスの情報を詳細出力する方法" on Fri, 3 Jul 2015 11:44:18 +0900,
Hiroyuki Sato wrote:
> おかげさまでGroongaの仕組みを詳しく理解することができました。
よかったです!
> http://gist.github.com/hiroyuki-sato/27142229622c74803069
> Groongaの場合、TokenBigramを指定しても2文字ずつに分解を行うのは非ASCII文字の場合のみである。
が少し説明不足で、正規化処理が行われたときだけ↑の挙動になり
ます。正規化処理をしない場合はASCIIの文字も2文字ずつに分解し
ます。
> * 文字がASCIIの場合: 単語単位に分割??(ここ怪しい)
補足すると、連続するアルファベットを1トークンにする(1文字の
トークンにもなりえるし、3文字以上のトークンにもなりえる)、
が実際の挙動です。同様に連続する数字も1トークン、連続する記
号も1トークンにします。
> selectコマンド等で、POSITIONの情報や全てのRecordの_idを出力する方法は
> ありますでしょうか?
selectコマンドではできないんです。
Rroongaにgroonga-index-dumpという実行ファイル(コマンドなん
ですが、Groongaのコマンドと紛らわしいのでここでは実行ファイ
ルと書きます)があって、それを使うと出力できます。
% groonga-index-dump --output-directory /tmp/index-dump DB_PATH
というように使います。そうすると、/tmp/index-dump/ディレクト
リー以下にモリモリとファイルができます。1トークン1ファイルに
なっていて、その中にそのトークンのPOSITION情報やレコードのキー
(_idではないです)が出力されます。
例えば、るりまサーチというやつのデータベースだとこんな感じの
ファイルができます。(トークンはURLのように%エンコードされて
ファイル名になりま
[6]次ページへ>>
コメント(0)
トラックバック(0)
<<[*]前の記事へ
[#]次の記事へ>>
このブログのトップ
Seesaaブログ