[ad_1]

Recherchez un index positionnel inversé et renvoyez des références classées aux documents pertinents pour la phrase de recherche.

CE FORFAIT EST EN DÉVELOPPEMENT BÊTA ET SUJET À DES MODIFICATIONS QUOTIDIENNES.

Objectif

Les composants de cette bibliothèque :

  • analyser une expression de texte libre en une requête ;
  • cherche le dictionary et postings d’un texte index pour la requête terms;
  • effectuer une notation et un classement itératifs des entrées de dictionnaire et des publications renvoyées ; et
  • renvoyer les références classées aux documents pertinents pour la phrase de recherche.

Présentation de la recherche en texte libre

API

classer FreeTextQuery

classer QueryParser

Usage

TODO : décrit l’utilisation.

Définitions

Les définitions suivantes sont utilisées tout au long du Documentation:

  • corpus– la collecte de documents pour lequel un index est maintenu.
  • dictionary – est un hachage de terms (vocabulary) à la fréquence d’occurrence dans le corpus documents.
  • document – un record dans le corpusqui possède un identifiant unique (docId) dans le corpusla clé primaire de et qui contient un ou plusieurs champs de texte indexés.
  • index – un index inversé avait l’habitude de regarder document références de la corpus contre un vocabulary de terms. L’implémentation de ce package construit et maintient un index inversé positionnel, qui inclut également les positions des index indexés. term dans chaque document.
  • postings – un index séparé qui enregistre les documents la vocabulary se produit dans. Dans cette implémentation, nous enregistrons également les positions de chaque term dans le text pour créer une position inversée index.
  • postings list – un enregistrement des positions d’un term dans un document. Un poste d’un term fait référence à l’indice des term dans un tableau contenant tous les terms dans le text.
  • term – un mot ou une phrase qui est indexé à partir du corpus. La term peut différer du mot réel utilisé dans le corpus en fonction de la tokenizer utilisé.
  • text – le contenu indexable d’un document.
  • token – représentation d’un term dans une source texte retournée par un tokenizer. Le jeton peut inclure des informations sur le term tels que sa ou ses positions dans le texte ou sa fréquence d’apparition.
  • tokenizer – une fonction qui retourne une collection de tokens de textaprès avoir appliqué un filtre de caractères, term filtre, voix et/ou lemmatiseur.
  • vocabulary – la collecte de terms indexé à partir du corpus.

Références

Problèmes

Si vous trouvez un bogue, veuillez remplir un publier.

Ce projet est un package de support pour un projet de revenus qui a un appel prioritaire sur les ressources, veuillez donc être patient si nous ne répondons pas immédiatement aux problèmes ou aux demandes d’extraction.

GitHub

Voir Github

[ad_2]

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Instagram

Ce message d’erreur n’est visible que pour les administrateurs de WordPress

Erreur. Aucun flux trouvé.

Veuillez aller sur la page de réglages d‘Instagram Feed pour connecter votre compte.