
[ad_1]
Recherchez un index positionnel inversé et renvoyez des références classées aux documents pertinents pour la phrase de recherche.
CE FORFAIT EST EN DÉVELOPPEMENT BÊTA ET SUJET À DES MODIFICATIONS QUOTIDIENNES.
Objectif
Les composants de cette bibliothèque :
- analyser une expression de texte libre en une requête ;
- cherche le
dictionary
etpostings
d’un texteindex
pour la requêteterms
; - effectuer une notation et un classement itératifs des entrées de dictionnaire et des publications renvoyées ; et
- renvoyer les références classées aux documents pertinents pour la phrase de recherche.
API
classer FreeTextQuery
classer QueryParser
Usage
TODO : décrit l’utilisation.
Définitions
Les définitions suivantes sont utilisées tout au long du Documentation:
corpus
– la collecte dedocuments
pour lequel unindex
est maintenu.dictionary
– est un hachage determs
(vocabulary
) à la fréquence d’occurrence dans lecorpus
documents.document
– un record dans lecorpus
qui possède un identifiant unique (docId
) dans lecorpus
la clé primaire de et qui contient un ou plusieurs champs de texte indexés.index
– un index inversé avait l’habitude de regarderdocument
références de lacorpus
contre unvocabulary
determs
. L’implémentation de ce package construit et maintient un index inversé positionnel, qui inclut également les positions des index indexés.term
dans chaquedocument
.postings
– un index séparé qui enregistre lesdocuments
lavocabulary
se produit dans. Dans cette implémentation, nous enregistrons également les positions de chaqueterm
dans letext
pour créer une position inverséeindex
.postings list
– un enregistrement des positions d’unterm
dans undocument
. Un poste d’unterm
fait référence à l’indice desterm
dans un tableau contenant tous lesterms
dans letext
.term
– un mot ou une phrase qui est indexé à partir ducorpus
. Laterm
peut différer du mot réel utilisé dans le corpus en fonction de latokenizer
utilisé.text
– le contenu indexable d’undocument
.token
– représentation d’unterm
dans une source texte retournée par untokenizer
. Le jeton peut inclure des informations sur leterm
tels que sa ou ses positions dans le texte ou sa fréquence d’apparition.tokenizer
– une fonction qui retourne une collection detoken
s detext
après avoir appliqué un filtre de caractères,term
filtre, voix et/ou lemmatiseur.vocabulary
– la collecte determs
indexé à partir ducorpus
.
Références
- Manning, Raghavan et Schütze, « Introduction à la recherche d’informations», Cambridge University Press, 2008
- Université de Cambridge, 2016 « Récupération de l’information», notes de cours, Dr Ronan Cummins, 2016
- Wikipédia (1), « Index inversé« , Un article de Wikipédia, l’encyclopédie libre
- Wikipédia (2), « Lemmatisation« , Un article de Wikipédia, l’encyclopédie libre
- Wikipédia (3), « Enracinement« , Un article de Wikipédia, l’encyclopédie libre
Problèmes
Si vous trouvez un bogue, veuillez remplir un publier.
Ce projet est un package de support pour un projet de revenus qui a un appel prioritaire sur les ressources, veuillez donc être patient si nous ne répondons pas immédiatement aux problèmes ou aux demandes d’extraction.
GitHub
Voir Github
[ad_2]