5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

全文検索エンジンを作りたい、作っている人のスレ

1 :デフォルトの名無しさん:2010/03/27(土) 02:29:11
全文検索エンジンを作りたい、作っている人のスレ

いまつくってる



2 :デフォルトの名無しさん:2010/03/27(土) 02:35:27
2chで使えるの作ってくれ
findは有料だし

3 :デフォルトの名無しさん:2010/03/27(土) 02:42:25
まかせろ
リアルタイムでindexして全文検索出来るやつってこと?

4 :デフォルトの名無しさん:2010/03/27(土) 02:43:19
グーグルでおk

5 :デフォルトの名無しさん:2010/03/27(土) 02:48:46
定期スレ乙

6 :デフォルトの名無しさん:2010/03/27(土) 04:31:12
あ、俺も作ってる

7 :デフォルトの名無しさん:2010/03/27(土) 05:39:05
じゃあ俺も

8 :デフォルトの名無しさん:2010/03/27(土) 06:27:30
このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。

アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。

                  京都大学霊長類研究所

9 :デフォルトの名無しさん:2010/03/27(土) 10:31:03
リアルタイムで追加可能でHDDのアクセスが少ない転置インデックスの構造ってどんなの?
下のスレが唯一参考になるんだが。
Googleデスクトップとかはどうやってるんだろ?

第20回 転置インデックスの実装(その2)
ttp://gihyo.jp/dev/serial/01/make-findspot/0020

10 :デフォルトの名無しさん:2010/03/27(土) 13:13:49
>>6
ブロックを拡張する方法は、やっぱり遅かった。一般のHDDではシークが
ネックになるので、極力シークしないで作るようにしたよ。
つまり、これまで作った巨大な転置インデックスはそのまま利用し、十分
小さい転置インデックスだけを書き換えるようにしていた。検索時は巨大な
インデックスと小さいインデックスの両方を検索してマージ。小さいインデックス
が大きくなってきたら、バックグラウンドで巨大インデックスとマージ(これは時間
掛かるので週1処理とか)。マージが終われば、小さいインデックスを空にする。

こんな実装してますた


11 :10:2010/03/27(土) 13:16:02
あ、上のは>>6じゃなくて、>>9へのポイントね

12 :デフォルトの名無しさん:2010/03/27(土) 19:29:32
>>10
すげー参考になります!さんくす!
今考えてるのは単語の出現確率であらかじめ予定サイズを割り振っておいて
最初に全体で800MBとか巨大に取ってしまって、そこに割り振る、という感じです。
(Google Desktopがそんな感じ?ぽいので)

13 :デフォルトの名無しさん:2010/03/27(土) 19:36:05
indexを一個にまとめなければ良いんでは。
200個くらいに分割すれば、一個5Mでも1ギガ扱える。
更新は5M程度済む。

14 :デフォルトの名無しさん:2010/03/27(土) 19:38:48
単語の出現位置は、差分だけ記録すれば一データを平均1バイト程度
であらわせる。
1Mあれば、100万個の位置を記録できる。

15 :10:2010/03/27(土) 20:05:59
>>13
それも考えたんだけど、結局小さいインデックスを多数用意するという事は、
シークがそれだけ増えるのであんまりパフォーマンスでなかった。
でも、RDBMSのようにテーブルスペースを定義し、複数のストレージに
同時アクセスできれば状況が違うかも知れない。少し考え方が違うけど、
H.E. のバックエンドであるqdbmは、そういう事ができる

>>14
H.E. .なんかだと、そもそも位置情報はいらないんじゃないかという大胆な
発想だけど、>>9でもポイントされているFINDSPOTでは位置情報をあいまい
検索なんかに利用していて、バッサリ切るにはもったいない。
位置情報に限らず、転置インデックスにはデルタが必ず正の数になる数列が
色々出てくるわけで、この性質に特化した専用圧縮は、確かに効果が高い。

今、圧縮sufix arrayのイイトコドリして転置インデックスを圧縮できないか奮闘中
一応言っとくけど、自分はH.E.の中の人でも FINDSPOTの中の人でもない、ただの人です。

9 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)