Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼
說(shuō)明:本文介紹 Java 中,如何去截取 PDF 中的內(nèi)容,轉(zhuǎn)為一張圖片
場(chǎng)景
如下,該 PDF 結(jié)構(gòu)分兩部分,一部分個(gè)人信息,一部分內(nèi)容信息,我希望截取其中的內(nèi)容信息,截取成一張圖片。

實(shí)現(xiàn)
首先,在生成該 PDF 的模板文件中,需要截取的部分(內(nèi)容信息)前后,加入截取點(diǎn),字體設(shè)置為白色,這樣截取點(diǎn)內(nèi)容看不出來(lái)

編寫(xiě)代碼,找到 PDF 中截取點(diǎn)文本內(nèi)容的位置,獲取坐標(biāo),并計(jì)算
import com.hezy.pojo.TextPositionWithDTO;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.stereotype.Component;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.StringWriter;
import java.util.List;
/**
* PDF裁剪圖片處理器
*/
@Component
@Slf4j
public class PDFCutToImageExtractor {
/**
* 開(kāi)始截取點(diǎn)
*/
private static final String START_POINT = "cut-start";
/**
* 結(jié)束截取點(diǎn)
*/
private static final String END_POINT = "cut-end";
/**
* 外邊距
*/
private static final int MARGIN = 20;
/**
* 提取PDF文件中范圍的圖片
*
* @param file PDF文件
* @return 圖片字節(jié)數(shù)組
* @throws IOException
*/
public byte[] extractImage(File file) throws IOException {
try (PDDocument document = PDDocument.load(file)) {
// 1.獲取文本位置
PDFRenderer renderer = new PDFRenderer(document);
// 開(kāi)始和結(jié)束位置
TextPositionWithDTO startPos = findTextPosition(document, START_POINT);
TextPositionWithDTO endPos = findTextPosition(document, END_POINT);
// 查詢判斷(截取點(diǎn)是手動(dòng)放到模板中的,不可能找不到,但還是判斷一下)
if (startPos == null) {
return null;
}
if (endPos == null) {
return null;
}
// 獲取截取點(diǎn)坐標(biāo)
float startY = startPos.getTextPosition().getY();
float endY = endPos.getTextPosition().getY();
log.info("截取點(diǎn)坐標(biāo):startY={}, endY={}", startY, endY);
// 2.渲染圖像,計(jì)算截取位置
BufferedImage pageImage = renderer.renderImageWithDPI(startPos.getPageIndex(), 144);
// 定義縮放,這個(gè)是按照上一行代碼中設(shè)置的dpi來(lái)計(jì)算的,144/72=2
int scale = 2;
// 左上角坐標(biāo) = 起始截取點(diǎn)的x、y坐標(biāo)
float startX = startPos.getTextPosition().getX();
int imgStartX = Math.round(startX * scale) - MARGIN;
int imgStartY = Math.round(startY * scale);
// 圖片寬度 = 頁(yè)寬 - 起始點(diǎn)x坐標(biāo)
int width = pageImage.getWidth() - imgStartX;
// 圖片高度 = 兩截取點(diǎn)高度差
int height = Math.round(Math.abs(startY - endY) * scale) - MARGIN;
// 判斷是否計(jì)算有誤
if (width <= 0 || height <= 0 || imgStartX < 0 || imgStartY < 0) {
return null;
}
// 3.裁剪圖像,將截取后的圖像文件寫(xiě)入到新的文件流中,返回字節(jié)數(shù)組
log.info("imgStartX: {}, imgStartY: {}, width: {}, height: {}", imgStartX, imgStartY, width, height);
BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
ByteArrayOutputStream bos = new ByteArrayOutputStream();
try {
ImageIO.write(croppedImage, "png", bos);
return bos.toByteArray();
} catch (IOException e) {
log.warn("寫(xiě)入失敗: {}", e.getMessage());
return null;
}
}
}
/**
* 查詢文本位置
* 作用:該方法的作用是根據(jù)傳入的文本關(guān)鍵字查詢文本在文檔中所在的位置
*
* @param document PDF文檔
* @param searchText 要查詢的文本
* @return 文本位置DTO
* @throws IOException
*/
private TextPositionWithDTO findTextPosition(PDDocument document, String searchText) throws IOException {
/**
* 內(nèi)部類(lèi):繼承PDFTextStripper,提取PDF文檔中的文本內(nèi)容
*/
class MyTextStripper extends PDFTextStripper {
/**
* 找到的文本位置
*/
private TextPosition foundPosition = null;
public MyTextStripper() throws IOException {
super();
}
@Override
protected void writeString(String text, List<TextPosition> textPositions) {
// 文本位置,不為空,說(shuō)明已經(jīng)找到了,直接返回
if (foundPosition != null) {
return;
}
// 拿到PDF文檔中的文本內(nèi)容
StringBuilder stringBuilder = new StringBuilder();
for (TextPosition pos : textPositions) {
String unicode = pos.getUnicode();
if (unicode != null) {
stringBuilder.append(unicode);
}
}
String segmentText = stringBuilder.toString();
// 用傳入的文本與PDF文檔中的文本來(lái)匹配,indexOf()方法是精髓
int index = segmentText.indexOf(searchText);
// 大于等于0,說(shuō)明文檔中有匹配到的文本
if (index >= 0) {
int charCount = 0;
for (TextPosition pos : textPositions) {
String unicode = pos.getUnicode();
if (unicode == null) {
continue;
}
if (charCount == index) {
foundPosition = pos;
return;
}
charCount++;
}
}
}
public TextPosition getResult() {
return foundPosition;
}
}
// 遍歷每一頁(yè)
int totalPages = document.getNumberOfPages();
for (int pageIndex = 0; pageIndex < totalPages; pageIndex++) {
MyTextStripper stripper = new MyTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
// 處理當(dāng)前頁(yè)
stripper.writeText(document, new StringWriter());
TextPosition result = stripper.getResult();
if (result != null) {
return new TextPositionWithDTO(result, pageIndex);
}
}
return null;
}
}
注意以下兩點(diǎn):
- PDF 文本坐標(biāo)(TextPosition),是以文件左下角為原點(diǎn)的,越靠右x越大,越靠上y越大;
- pageImage.getSubimage()方法,四個(gè)參數(shù)定義截取的矩形范圍,前兩個(gè)參數(shù)定義矩形左上角坐標(biāo),后兩個(gè)參數(shù)定義矩形的寬和高
(源碼說(shuō)明)

TextPositionWithDTO 對(duì)象
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.pdfbox.text.TextPosition;
import java.io.Serializable;
/**
* 文本位置DTO
*/
@Data
@AllArgsConstructor
@NoArgsConstructor
public class TextPositionWithDTO implements Serializable {
/**
* 文本位置
*/
private TextPosition textPosition;
/**
* 文本位置所在的頁(yè)碼
*/
private int pageIndex;
}
controller,寫(xiě)一個(gè)接口,先獲取 PDF 文件,再截取其中的圖片
@PostMapping("/pdf2")
public byte[] pdf2() throws IOException {
// 1.獲取PDF
byte[] pdf = pdfService.pdf();
// 2.將PDF寫(xiě)入到本地臨時(shí)文件夾中
File pdfFile = FileUtil.createTempFile("demo", ".pdf", null, true);
FileUtil.writeBytes(pdf, pdfFile);
// 3.構(gòu)建響應(yīng)
String fileName = "截取圖片.png";
String encodedFileName = URLEncoder.encode(fileName, StandardCharsets.UTF_8);
HttpHeaders headers = new HttpHeaders();
headers.setContentType(MediaType.APPLICATION_OCTET_STREAM);
headers.setContentDispositionFormData("attachment", encodedFileName);
// 4.截取圖片,獲取圖片的字節(jié)數(shù)組
byte[] image = pdfCutToImageExtractor.extractImage(pdfFile);
// 5.刪除臨時(shí)存儲(chǔ)的PDF文件
FileUtil.del(pdfFile);
// 6.返回
return ResponseEntity.ok()
.headers(headers)
.body(image).getBody();
}
以上代碼引入的 pom.xml 文件內(nèi)容如下:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.7.12</version>
<relativePath/>
</parent>
<groupId>com.hezy</groupId>
<artifactId>pdf_demo</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<!-- web依賴(lài),用調(diào)用接口的方式來(lái)測(cè)試 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<!-- 生成pdf依賴(lài) -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-thymeleaf</artifactId>
</dependency>
<dependency>
<groupId>com.github.jhonnymertz</groupId>
<artifactId>java-wkhtmltopdf-wrapper</artifactId>
<version>1.3.1-RELEASE</version>
</dependency>
<!-- lombok依賴(lài) -->
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
</dependency>
<!-- PDF截取依賴(lài) -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.27</version>
</dependency>
<!-- 工具類(lèi) -->
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.6</version>
</dependency>
</dependencies>
<!-- 編譯插件,定義編譯語(yǔ)言,后面用于構(gòu)建PDF文件byte[],返回給前端 -->
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>17</source>
<target>17</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
關(guān)于如何生成 PDF 文件,參看文章:Java將數(shù)據(jù)寫(xiě)入到PDF文件
啟動(dòng),測(cè)試,先來(lái)看看生成的 PDF 文件,沒(méi)有影響,看不出“內(nèi)容信息”前后的截取點(diǎn)文本

但是,復(fù)制空白處,還是可以粘貼出來(lái)的

看看截取圖片效果,幾乎完美,把“內(nèi)容信息”部分的文本內(nèi)容完全截取出來(lái)了。

總結(jié)
以上是我自己思考的一種將 PDF 文件中某部分內(nèi)容截取成圖片的方案。
這種方法是可以根據(jù)填充的內(nèi)容多少動(dòng)態(tài)適應(yīng),但如果你截取的內(nèi)容位置是固定的,就更好辦了,直接在下面這個(gè)截取方法里寫(xiě)死范圍
BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
另外,還需要考慮截取內(nèi)容跨頁(yè)的情況,涉及跨頁(yè),以上代碼可能需要調(diào)整。
以上就是Java截取PDF內(nèi)容為圖片的實(shí)現(xiàn)代碼的詳細(xì)內(nèi)容,更多關(guān)于Java截取PDF內(nèi)容為圖片的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
簡(jiǎn)單了解java標(biāo)識(shí)符的作用和命名規(guī)則
這篇文章主要介紹了簡(jiǎn)單了解java標(biāo)識(shí)符的作用和命名規(guī)則,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-01-01
hashMap擴(kuò)容時(shí)應(yīng)該注意這些死循環(huán)問(wèn)題
今天給大家?guī)?lái)的是關(guān)于Java的相關(guān)知識(shí),文章圍繞著hashMap擴(kuò)容時(shí)的死循環(huán)問(wèn)題展開(kāi),文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06
Mybatis模糊查詢和動(dòng)態(tài)sql語(yǔ)句的用法
今天小編就為大家分享一篇關(guān)于Mybatis模糊查詢和動(dòng)態(tài)sql語(yǔ)句的用法,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-03-03
Java 多線程Synchronized和Lock的區(qū)別
這篇文章主要介紹了Java 多線程Synchronized和Lock的區(qū)別,幫助大家更好的理解和使用Java,感興趣的朋友可以了解下2021-01-01
Java Exchanger并發(fā)類(lèi)使用方法
這篇文章主要介紹了Java Exchanger并發(fā)類(lèi)使用方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04
Java LocalCache 本地緩存的實(shí)現(xiàn)實(shí)例
本篇文章主要介紹了Java LocalCache 本地緩存的實(shí)現(xiàn)實(shí)例,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下。2017-05-05

