Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼

更新時(shí)間：2025年10月27日 09:35:02 作者：何中應(yīng)

本文主要介紹了java實(shí)現(xiàn)截取PDF指定頁(yè)并進(jìn)行圖片格式轉(zhuǎn)換功能的技術(shù)要點(diǎn),通過(guò)實(shí)例代碼,文章詳細(xì)地介紹了如何使用java語(yǔ)言來(lái)實(shí)現(xiàn)PDF指定頁(yè)的截取和圖片格式轉(zhuǎn)換,需要的朋友可以參考下

場(chǎng)景

如下，該 PDF 結(jié)構(gòu)分兩部分，一部分個(gè)人信息，一部分內(nèi)容信息，我希望截取其中的內(nèi)容信息，截取成一張圖片。

在這里插入圖片描述

實(shí)現(xiàn)

首先，在生成該 PDF 的模板文件中，需要截取的部分（內(nèi)容信息）前后，加入截取點(diǎn)，字體設(shè)置為白色，這樣截取點(diǎn)內(nèi)容看不出來(lái)

在這里插入圖片描述

編寫(xiě)代碼，找到 PDF 中截取點(diǎn)文本內(nèi)容的位置，獲取坐標(biāo)，并計(jì)算

import com.hezy.pojo.TextPositionWithDTO;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.stereotype.Component;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.StringWriter;
import java.util.List;

/**
 * PDF裁剪圖片處理器
 */
@Component
@Slf4j
public class PDFCutToImageExtractor {

    /**
     * 開(kāi)始截取點(diǎn)
     */
    private static final String START_POINT = "cut-start";

    /**
     * 結(jié)束截取點(diǎn)
     */
    private static final String END_POINT = "cut-end";

    /**
     * 外邊距
     */
    private static final int MARGIN = 20;

    /**
     * 提取PDF文件中范圍的圖片
     *
     * @param file PDF文件
     * @return 圖片字節(jié)數(shù)組
     * @throws IOException
     */
    public byte[] extractImage(File file) throws IOException {
        try (PDDocument document = PDDocument.load(file)) {
            // 1.獲取文本位置
            PDFRenderer renderer = new PDFRenderer(document);
            // 開(kāi)始和結(jié)束位置
            TextPositionWithDTO startPos = findTextPosition(document, START_POINT);
            TextPositionWithDTO endPos = findTextPosition(document, END_POINT);

            // 查詢判斷（截取點(diǎn)是手動(dòng)放到模板中的，不可能找不到，但還是判斷一下）
            if (startPos == null) {
                return null;
            }
            if (endPos == null) {
                return null;
            }

            // 獲取截取點(diǎn)坐標(biāo)
            float startY = startPos.getTextPosition().getY();
            float endY = endPos.getTextPosition().getY();
            log.info("截取點(diǎn)坐標(biāo)：startY={}, endY={}", startY, endY);

            // 2.渲染圖像，計(jì)算截取位置
            BufferedImage pageImage = renderer.renderImageWithDPI(startPos.getPageIndex(), 144);
            // 定義縮放，這個(gè)是按照上一行代碼中設(shè)置的dpi來(lái)計(jì)算的，144/72=2
            int scale = 2;
            // 左上角坐標(biāo) = 起始截取點(diǎn)的x、y坐標(biāo)
            float startX = startPos.getTextPosition().getX();
            int imgStartX = Math.round(startX * scale) - MARGIN;
            int imgStartY = Math.round(startY * scale);

            // 圖片寬度 = 頁(yè)寬 - 起始點(diǎn)x坐標(biāo)
            int width = pageImage.getWidth() - imgStartX;

            // 圖片高度 = 兩截取點(diǎn)高度差
            int height = Math.round(Math.abs(startY - endY) * scale) - MARGIN;

            // 判斷是否計(jì)算有誤
            if (width <= 0 || height <= 0 || imgStartX < 0 || imgStartY < 0) {
                return null;
            }

            // 3.裁剪圖像，將截取后的圖像文件寫(xiě)入到新的文件流中，返回字節(jié)數(shù)組
            log.info("imgStartX: {}, imgStartY: {}, width: {}, height: {}", imgStartX, imgStartY, width, height);
            BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            try {
                ImageIO.write(croppedImage, "png", bos);
                return bos.toByteArray();
            } catch (IOException e) {
                log.warn("寫(xiě)入失敗: {}", e.getMessage());
                return null;
            }
        }
    }

    /**
     * 查詢文本位置
     * 作用：該方法的作用是根據(jù)傳入的文本關(guān)鍵字查詢文本在文檔中所在的位置
     *
     * @param document   PDF文檔
     * @param searchText 要查詢的文本
     * @return 文本位置DTO
     * @throws IOException
     */
    private TextPositionWithDTO findTextPosition(PDDocument document, String searchText) throws IOException {

        /**
         * 內(nèi)部類(lèi)：繼承PDFTextStripper，提取PDF文檔中的文本內(nèi)容
         */
        class MyTextStripper extends PDFTextStripper {

            /**
             * 找到的文本位置
             */
            private TextPosition foundPosition = null;

            public MyTextStripper() throws IOException {
                super();
            }

            @Override
            protected void writeString(String text, List<TextPosition> textPositions) {
                // 文本位置，不為空，說(shuō)明已經(jīng)找到了，直接返回
                if (foundPosition != null) {
                    return;
                }

                // 拿到PDF文檔中的文本內(nèi)容
                StringBuilder stringBuilder = new StringBuilder();
                for (TextPosition pos : textPositions) {
                    String unicode = pos.getUnicode();
                    if (unicode != null) {
                        stringBuilder.append(unicode);
                    }
                }
                String segmentText = stringBuilder.toString();

                // 用傳入的文本與PDF文檔中的文本來(lái)匹配，indexOf()方法是精髓
                int index = segmentText.indexOf(searchText);
                // 大于等于0，說(shuō)明文檔中有匹配到的文本
                if (index >= 0) {
                    int charCount = 0;
                    for (TextPosition pos : textPositions) {
                        String unicode = pos.getUnicode();
                        if (unicode == null) {
                            continue;
                        }
                        if (charCount == index) {
                            foundPosition = pos;
                            return;
                        }
                        charCount++;
                    }
                }
            }

            public TextPosition getResult() {
                return foundPosition;
            }
        }

        // 遍歷每一頁(yè)
        int totalPages = document.getNumberOfPages();
        for (int pageIndex = 0; pageIndex < totalPages; pageIndex++) {
            MyTextStripper stripper = new MyTextStripper();
            stripper.setStartPage(pageIndex + 1);
            stripper.setEndPage(pageIndex + 1);

            // 處理當(dāng)前頁(yè)
            stripper.writeText(document, new StringWriter());
            TextPosition result = stripper.getResult();
            if (result != null) {
                return new TextPositionWithDTO(result, pageIndex);
            }
        }
        return null;
    }
}

注意以下兩點(diǎn)：

PDF 文本坐標(biāo)（TextPosition），是以文件左下角為原點(diǎn)的，越靠右x越大，越靠上y越大；
pageImage.getSubimage()方法，四個(gè)參數(shù)定義截取的矩形范圍，前兩個(gè)參數(shù)定義矩形左上角坐標(biāo)，后兩個(gè)參數(shù)定義矩形的寬和高

（源碼說(shuō)明）

在這里插入圖片描述

TextPositionWithDTO 對(duì)象

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.pdfbox.text.TextPosition;

import java.io.Serializable;

/**
 * 文本位置DTO
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
public class TextPositionWithDTO implements Serializable {

    /**
     * 文本位置
     */
    private TextPosition textPosition;

    /**
     * 文本位置所在的頁(yè)碼
     */
    private int pageIndex;
}

controller，寫(xiě)一個(gè)接口，先獲取 PDF 文件，再截取其中的圖片

    @PostMapping("/pdf2")
    public byte[] pdf2() throws IOException {
        // 1.獲取PDF
        byte[] pdf = pdfService.pdf();

        // 2.將PDF寫(xiě)入到本地臨時(shí)文件夾中
        File pdfFile = FileUtil.createTempFile("demo", ".pdf", null, true);
        FileUtil.writeBytes(pdf, pdfFile);

        // 3.構(gòu)建響應(yīng)
        String fileName = "截取圖片.png";
        String encodedFileName = URLEncoder.encode(fileName, StandardCharsets.UTF_8);
        HttpHeaders headers = new HttpHeaders();
        headers.setContentType(MediaType.APPLICATION_OCTET_STREAM);
        headers.setContentDispositionFormData("attachment", encodedFileName);

        // 4.截取圖片，獲取圖片的字節(jié)數(shù)組
        byte[] image = pdfCutToImageExtractor.extractImage(pdfFile);
        
        // 5.刪除臨時(shí)存儲(chǔ)的PDF文件
        FileUtil.del(pdfFile);

        // 6.返回
        return ResponseEntity.ok()
                .headers(headers)
                .body(image).getBody();
    }

以上代碼引入的 pom.xml 文件內(nèi)容如下：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.12</version>
        <relativePath/>
    </parent>

    <groupId>com.hezy</groupId>
    <artifactId>pdf_demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <!-- web依賴(lài)，用調(diào)用接口的方式來(lái)測(cè)試 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- 生成pdf依賴(lài) -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
        <dependency>
            <groupId>com.github.jhonnymertz</groupId>
            <artifactId>java-wkhtmltopdf-wrapper</artifactId>
            <version>1.3.1-RELEASE</version>
        </dependency>

        <!-- lombok依賴(lài) -->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

        <!-- PDF截取依賴(lài) -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.27</version>
        </dependency>

        <!-- 工具類(lèi) -->
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.6</version>
        </dependency>
    </dependencies>

    <!-- 編譯插件，定義編譯語(yǔ)言，后面用于構(gòu)建PDF文件byte[]，返回給前端 -->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>17</source>
                    <target>17</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

關(guān)于如何生成 PDF 文件，參看文章：Java將數(shù)據(jù)寫(xiě)入到PDF文件

啟動(dòng)，測(cè)試，先來(lái)看看生成的 PDF 文件，沒(méi)有影響，看不出“內(nèi)容信息”前后的截取點(diǎn)文本

在這里插入圖片描述

但是，復(fù)制空白處，還是可以粘貼出來(lái)的

在這里插入圖片描述

看看截取圖片效果，幾乎完美，把“內(nèi)容信息”部分的文本內(nèi)容完全截取出來(lái)了。

在這里插入圖片描述

總結(jié)

以上是我自己思考的一種將 PDF 文件中某部分內(nèi)容截取成圖片的方案。

這種方法是可以根據(jù)填充的內(nèi)容多少動(dòng)態(tài)適應(yīng)，但如果你截取的內(nèi)容位置是固定的，就更好辦了，直接在下面這個(gè)截取方法里寫(xiě)死范圍

BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);

另外，還需要考慮截取內(nèi)容跨頁(yè)的情況，涉及跨頁(yè)，以上代碼可能需要調(diào)整。

以上就是Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼的詳細(xì)內(nèi)容，更多關(guān)于Java截取PDF內(nèi)容為圖片的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼

目錄

場(chǎng)景

實(shí)現(xiàn)

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼

目錄

場(chǎng)景

實(shí)現(xiàn)

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕