PaddleOCR 識(shí)別表情包文字示例詳解

更新時(shí)間：2022年08月20日 16:15:09 作者：OldBirds

這篇文章主要為大家介紹了PaddleOCR 識(shí)別表情包文字示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

引言

最近在做個(gè)表情包的小程序，涉及到表情包搜索功能。我們上傳表情包的時(shí)候，只有一張圖，怎么搜索？這個(gè)時(shí)候我們想到就是將表情包的文字提取出來，作為搜索的內(nèi)容。那么這就需要用到 ocr 技術(shù)了。

經(jīng)過幾個(gè) ocr 的庫的使用，小編強(qiáng)烈推薦使用 PaddleOCR，一款文本識(shí)別效果不輸于商用的Python庫！

對(duì)于 PaddleOCR 本文不會(huì)過多介紹，可自行搜索。重點(diǎn)是如何使用 PaddleOCR 解決我的問題。

安裝 PaddleOCR

pip install paddlepaddle
pip install paddleocr

我這邊安裝后的版本：

paddleocr==2.5.0.3
paddlepaddle==2.3.1

在 macOS 安裝后，項(xiàng)目運(yùn)行報(bào)錯(cuò)報(bào)錯(cuò)，忘了截圖，應(yīng)該是與 setuptools 版本有關(guān)，解決方式：

pip install --upgrade setuptools==59.8.0

完成這些配置后，我們就可以愉快的玩耍了。

本地處理

import hashlib
import io
from PIL import Image
from paddleocr import PaddleOCR
def get_gif_pic_path(url):
    '''下載圖片，返回圖片第一幀路徑'''
    response = requests.get(url)
    filename = hashlib.md5(url.encode(encoding='utf-8')).hexdigest()
    img = Image.open(io.BytesIO(response.content))
    current = img.tell()
    img_path = f'bqb/{filename}_{current}.png'
    img.save(img_path)
    return img_path
def ocr_get_gif_text_sec(url) -> str:
    '''識(shí)別gif第一幀圖片的文字'''
    img_path = get_gif_pic_path(url)
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(img_path, cls=True)
    data = []
    for item in result:
        data.append(item[1][0])
    return ",".join(data)
ocr_get_gif_text_sec('https://xxxxxx')

由于 gif 是個(gè)動(dòng)圖，所以我們需要取出圖片的第一幀進(jìn)行識(shí)別，get_gif_pic_path實(shí)現(xiàn)了這個(gè)功能。ocr_get_gif_text_sec 從 gif 第一幀的圖進(jìn)行文字提取，返回的 result 是個(gè)數(shù)組，我們通過遍歷進(jìn)行提取出來。

提取 gif 圖片的內(nèi)容我們就完成了，兩個(gè)函數(shù)的功能也比較簡單。本文沒做 gif 全部文字的提取，有興趣可以挑戰(zhàn)下。

在 flask 中處理

當(dāng)我們想在上傳圖片的時(shí)候，進(jìn)行對(duì)圖片文字的處理怎么辦？難道要將上傳的圖保存到路徑再去識(shí)別么？這也是我在開發(fā)中遇到的一個(gè)問題，經(jīng)過拆坑，答案是：不，你不需要。

思路：我們可以從表單中獲取上傳的圖片的二進(jìn)制，然后將這個(gè)二進(jìn)制傳給ocr.ocr()，那么ocr.ocr() 支持這個(gè)類型么？經(jīng)過查看此函數(shù)源碼，我們可以讓它支持。

將圖片二進(jìn)制轉(zhuǎn)化為 nparray 類型即可。下面是這個(gè)過程的具體代碼

from paddleocr import PaddleOCR
import numpy as np
import cv2
@app.route('/v1/upload_img', methods=['POST'])
def api_v1_upload_img():
    if 'file' not in request.files:
        return "no file part"
    file = request.files['file']
    if file.filename == '':
        return "no selected file"
    if file:
        file_name = file.filename
        # 獲取圖片的二進(jìn)制
        res = upload_image(bytes=file.read(), filename=file_name)
        return res
    else:
        return "no file"
def upload_image(bytes, filename = None, mime_type = None):
    ocr = PaddleOCR(use_angle_cls=True, lang="ch")
    ## 核心步驟
    np_arr = np.frombuffer(bytes, dtype=np.uint8)
    img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)
    # 進(jìn)行識(shí)別
    result = ocr.ocr(img=img, cls=True)
    ocr_result = []
    for line in result:
        ocr_result.append(line[1][0].strip())
    img_content = ' '.join(ocr_result)
    return img_content

在api_v1_upload_img我們獲取到圖片二進(jìn)制以及圖片名，將這些作為參數(shù)傳到upload_image，在upload_image中：

np_arr = np.frombuffer(bytes, dtype=np.uint8)
img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)

上面兩行代碼是這個(gè)需求的核心突破點(diǎn)。

還有一點(diǎn)就是建議不要將此識(shí)別功能部署到性能差的機(jī)器上，并發(fā)一下，完全扛不住，默默的留下兩行眼淚。

以上就是PaddleOCR 識(shí)別表情包文字示例詳解的詳細(xì)內(nèi)容，更多關(guān)于PaddleOCR識(shí)別表情包文字的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

PaddleOCR 識(shí)別表情包文字示例詳解

目錄

引言

安裝 PaddleOCR

本地處理

在 flask 中處理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

PaddleOCR 識(shí)別表情包文字示例詳解

目錄

引言

安裝 PaddleOCR

本地處理

在 flask 中處理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕