使用Django和Postgres進行全文搜索的實例代碼

更新時間：2020年02月13日 08:26:32 作者：mindg.cn

這篇文章主要介紹了使用Django和Postgres進行全文搜索，本文通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下

這些天，我需要全文搜索。這個區(qū)塊中最酷的孩子們是Elastic Search和Sorl：他們快速，靈活，資源消耗沉重并且需要Java，這幾乎是我想要的一個5美元的數(shù)字海洋飛車上運行的寵物項目所需的所有東西。

放棄這些選項后，我剩下了Xapian和postgres全文搜索的功能，而xapian似乎功能更豐富，我決定從postgres開始，因為它與django進行了本機集成，并且對這個特定項目的要求不高。

項目及其要求

您可能已經(jīng)注意到，我正在運行工作板。 Voorjob基本上是從lever.co聚合工作，并讓用戶搜索它。目前，我在數(shù)據(jù)庫中大約有25,000個工作，這個數(shù)字增長緩慢，每增加2或3個工作，就會關(guān)閉另一個工作。是的，如果我采用了彈性搜索路徑，那將是一本教科書過度設(shè)計的情況。

實施

從9.4版開始，postgres添加了一些允許全文本搜索的功能。不久之后，Django在postgres特定功能中鏡像了這些功能。

要開始使用此新功能，我基本上需要在模型中使用SearchVectorField，并需要使用矢量化的職位描述來更新此字段的方法：

from django.contrib.postgres.search import SearchVectorField, SearchVector
class Job(models.Model):
  title = models.CharField(max_length=200, blank=True)
  location = models.CharField(max_length=50, blank=True)
  body = models.TextField(null=True)
  body_vector = SearchVectorField(null=True)
 
  def make_search_vector():
    self.body_vector=SearchVector('body')
 
  def save(self, *args, **kwargs):
    self.make_search_vector()
    super(Model, self).save(*args, **kwargs)

這種方法適用于很少更新的工作，例如工作板，但是如果您的應(yīng)用程序經(jīng)常更新，則應(yīng)避免使用此策略，并應(yīng)定期執(zhí)行一些任務(wù)來填充向量：

Job.objects.all().update(body_vector=SearchVector('body'))

甚至更好的是，您可以通過閱讀本文檔，使用postgres觸發(fā)器直接進行操作。

查詢工作

現(xiàn)在您已經(jīng)準備好數(shù)據(jù)庫，現(xiàn)在可以查詢它了，讓我們看一下voorjob搜索視圖的教學(xué)版本：

from django.contrib.postgres.search import SearchQuery
 
class Index(ListView):
  model = Job
  paginate_by = 30
 
  def get_queryset(self):
    search = self.request.GET.get("search", None)
    queryset = Job.objects.all()
 
    if search:
      if '"' in search:
        query = SearchQuery(search.replace('"', ''), search_type='phrase')
      else:
        query = SearchQuery(search)
      queryset = queryset.filter(body_vector=query)
    else:
      queryset = queryset
 
    return queryset

我基本上在這里考慮兩種查詢：單詞存在和“精確表達式”。是的，該邏輯中存在一些缺陷，請繼續(xù)起訴我：D

還有很多可以改進的地方，django支持加權(quán)查詢：

vector = SearchVector（'title'，weight ='A'）+ SearchVector（'body'，weight ='B'）
Job.objects.all（）。update（body_vector = vector）

這最終將以更好的順序返回結(jié)果，其中標題中的匹配比正文中的匹配更重。

查詢系統(tǒng)也更加靈活，允許進行邏輯運算OR / AND和NOT。在不久的將來，我將改善對工作板的搜索，并更新此帖子以描述所做的更改。

性能

在開發(fā)過程中，我使用了具有16GB內(nèi)存和不錯的NVMe的I5。對本地計算機中的25k作業(yè)運行查詢基本上是瞬時的。

當我將項目轉(zhuǎn)移到生產(chǎn)環(huán)境時（每滴5美元），事情變得越來越慢了。

運行密西西比基準測試，我得到以下結(jié)果：

在/ django rest framework上搜索（（1個密西西比州以掃描5K條目））

在/ full /上搜索“ django rest framework”（-3個密西西比州，掃描25K條目）

不是最好的性能，但現(xiàn)在可以使用。本文將進行更新以反映任何性能改進。

考慮到我的搜索需求不高-超過25k的條目，且字數(shù)過多的文章并不比本文大很多-使用postgres作為我的全文搜索的后端，對于此早期MVP來說效果很好。現(xiàn)在，我比每天給我20個用戶提供最快的體驗，對嘗試事物和擴大董事會成員更感興趣。

更新（2020年2月9日）

好消息！我了解到可以將索引添加到SearchVectorField中：

from django.contrib.postgres.indexes import GinIndex
 
class Job(models.Model):
  class Meta:
    indexes = (GinIndex(fields=["body_vector"]),)
  title = models.CharField(max_length=200, blank=True)
  location = models.CharField(max_length=50, blank=True)
  body = models.TextField(null=True)
  body_vector = SearchVectorField(null=True)
  def make_search_vector():
    self.body_vector=SearchVector('body')
  def save(self, *args, **kwargs):
    self.make_search_vector()
    super(Model, self).save(*args, **kwargs)

現(xiàn)在，所有情況下的搜索時間均降至1個密西西比州。由于我的數(shù)據(jù)很小，因此用于該索引的內(nèi)存量可以忽略不計。

總結(jié)

以上所述是小編給大家介紹的使用Django和Postgres進行全文搜索的實例代碼，希望對大家有所幫助！

您可能感興趣的文章: