使用Django和Postgres進行全文搜索的實例代碼
這些天,我需要全文搜索。這個區(qū)塊中最酷的孩子們是Elastic Search和Sorl:他們快速,靈活,資源消耗沉重并且需要Java,這幾乎是我想要的一個5美元的數(shù)字海洋飛車上運行的寵物項目所需的所有東西。
放棄這些選項后,我剩下了Xapian和postgres全文搜索的功能,而xapian似乎功能更豐富,我決定從postgres開始,因為它與django進行了本機集成,并且對這個特定項目的要求不高。
項目及其要求
您可能已經(jīng)注意到,我正在運行工作板。 Voorjob基本上是從lever.co聚合工作,并讓用戶搜索它。目前,我在數(shù)據(jù)庫中大約有25,000個工作,這個數(shù)字增長緩慢,每增加2或3個工作,就會關(guān)閉另一個工作。是的,如果我采用了彈性搜索路徑,那將是一本教科書過度設(shè)計的情況。
實施
從9.4版開始,postgres添加了一些允許全文本搜索的功能。不久之后,Django在postgres特定功能中鏡像了這些功能。
要開始使用此新功能,我基本上需要在模型中使用SearchVectorField,并需要使用矢量化的職位描述來更新此字段的方法:
from django.contrib.postgres.search import SearchVectorField, SearchVector
class Job(models.Model):
title = models.CharField(max_length=200, blank=True)
location = models.CharField(max_length=50, blank=True)
body = models.TextField(null=True)
body_vector = SearchVectorField(null=True)
def make_search_vector():
self.body_vector=SearchVector('body')
def save(self, *args, **kwargs):
self.make_search_vector()
super(Model, self).save(*args, **kwargs)
這種方法適用于很少更新的工作,例如工作板,但是如果您的應(yīng)用程序經(jīng)常更新,則應(yīng)避免使用此策略,并應(yīng)定期執(zhí)行一些任務(wù)來填充向量:
Job.objects.all().update(body_vector=SearchVector('body'))
甚至更好的是,您可以通過閱讀本文檔,使用postgres觸發(fā)器直接進行操作。
查詢工作
現(xiàn)在您已經(jīng)準備好數(shù)據(jù)庫,現(xiàn)在可以查詢它了,讓我們看一下voorjob搜索視圖的教學(xué)版本:
from django.contrib.postgres.search import SearchQuery
class Index(ListView):
model = Job
paginate_by = 30
def get_queryset(self):
search = self.request.GET.get("search", None)
queryset = Job.objects.all()
if search:
if '"' in search:
query = SearchQuery(search.replace('"', ''), search_type='phrase')
else:
query = SearchQuery(search)
queryset = queryset.filter(body_vector=query)
else:
queryset = queryset
return queryset
我基本上在這里考慮兩種查詢:單詞存在和“精確表達式”。是的,該邏輯中存在一些缺陷,請繼續(xù)起訴我:D
還有很多可以改進的地方,django支持加權(quán)查詢:
vector = SearchVector('title',weight ='A')+ SearchVector('body',weight ='B') Job.objects.all()。update(body_vector = vector)
這最終將以更好的順序返回結(jié)果,其中標題中的匹配比正文中的匹配更重。
查詢系統(tǒng)也更加靈活,允許進行邏輯運算OR / AND和NOT。在不久的將來,我將改善對工作板的搜索,并更新此帖子以描述所做的更改。
性能
在開發(fā)過程中,我使用了具有16GB內(nèi)存和不錯的NVMe的I5。對本地計算機中的25k作業(yè)運行查詢基本上是瞬時的。
當我將項目轉(zhuǎn)移到生產(chǎn)環(huán)境時(每滴5美元),事情變得越來越慢了。
運行密西西比基準測試,我得到以下結(jié)果:
在/ django rest framework上搜索((1個密西西比州以掃描5K條目))
在/ full /上搜索“ django rest framework”(-3個密西西比州,掃描25K條目)
不是最好的性能,但現(xiàn)在可以使用。本文將進行更新以反映任何性能改進。
考慮到我的搜索需求不高-超過25k的條目,且字數(shù)過多的文章并不比本文大很多-使用postgres作為我的全文搜索的后端,對于此早期MVP來說效果很好。現(xiàn)在,我比每天給我20個用戶提供最快的體驗,對嘗試事物和擴大董事會成員更感興趣。
更新(2020年2月9日)
好消息! 我了解到可以將索引添加到SearchVectorField中:
from django.contrib.postgres.indexes import GinIndex
class Job(models.Model):
class Meta:
indexes = (GinIndex(fields=["body_vector"]),)
title = models.CharField(max_length=200, blank=True)
location = models.CharField(max_length=50, blank=True)
body = models.TextField(null=True)
body_vector = SearchVectorField(null=True)
def make_search_vector():
self.body_vector=SearchVector('body')
def save(self, *args, **kwargs):
self.make_search_vector()
super(Model, self).save(*args, **kwargs)
現(xiàn)在,所有情況下的搜索時間均降至1個密西西比州。 由于我的數(shù)據(jù)很小,因此用于該索引的內(nèi)存量可以忽略不計。
總結(jié)
以上所述是小編給大家介紹的使用Django和Postgres進行全文搜索的實例代碼,希望對大家有所幫助!
相關(guān)文章
Python使用matplotlib和pandas實現(xiàn)的畫圖操作【經(jīng)典示例】
這篇文章主要介紹了Python使用matplotlib和pandas實現(xiàn)的畫圖操作,結(jié)合實例形式分析了Python基于matplotlib和pandas的數(shù)值運算與圖形顯示操作相關(guān)實現(xiàn)技巧,并對部分代碼的圖形顯示進行了顯示效果測試,需要的朋友可以參考下2018-06-06
pyinstaller 3.6版本通過pip安裝失敗的解決辦法(推薦)
這篇文章主要介紹了pyinstaller 3.6版本通過pip安裝失敗的解決辦法,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-01-01
一篇文章快速理解python中的yield關(guān)鍵字
Python中的yield關(guān)鍵字可以讓函數(shù)變成生成器,產(chǎn)生一個值后暫停,下次調(diào)用時從上次停下的地方繼續(xù)執(zhí)行,從而節(jié)省內(nèi)存并提高效率,這篇文章主要介紹了python中yield關(guān)鍵字的相關(guān)資料,需要的朋友可以參考下2024-11-11
Python爬取新型冠狀病毒“謠言”新聞進行數(shù)據(jù)分析
這篇文章主要介紹了Python爬取新型冠狀病毒“謠言”新聞進行數(shù)據(jù)分析,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-02-02
解決Mac下首次安裝pycharm無project interpreter的問題
今天小編就為大家分享一篇解決Mac下首次安裝pycharm無project interpreter的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10

