python_ai/文档图片提取.py


								import re

								import os

								import docx

								from docx.document import Document

								from docx.text.paragraph import Paragraph

								from docx.parts.image import ImagePart

								from qwen_agent.agents import Assistant


								from docx.oxml.table import CT_Tbl

								from docx.oxml.text.paragraph import CT_P


								import shutil

								import re

								import json_repair

								import uuid


								# 记录程序开始的时间戳

								def getOutlineLevel(inputXml):

								    """

								    功能 从xml字段中提取出<w:outlineLvl w:val="number"/>中的数字number

								    参数 inputXml

								    返回 number

								    """

								    start_index = inputXml.find('<w:outlineLvl')

								    end_index = inputXml.find('>', start_index)

								    number = inputXml[start_index:end_index + 1]

								    number = re.search("\d+", number).group()

								    return number


								def isTitle(paragraph):

								    """

								    功能 判断该段落是否设置了大纲等级

								    参数 paragraph:段落

								    返回 None:普通正文，没有大纲级别 0:一级标题 1:二级标题 2:三级标题

								    """

								    # 如果是空行，直接返回None

								    if paragraph.text.strip() == '':

								        return None


								    # 如果该段落是直接在段落里设置大纲级别的，根据xml判断大纲级别

								    paragraphXml = paragraph._p.xml

								    if paragraphXml.find('<w:outlineLvl') >= 0:

								        return getOutlineLevel(paragraphXml)

								    # 如果该段落是通过样式设置大纲级别的，逐级检索样式及其父样式，判断大纲级别

								    targetStyle = paragraph.style

								    while targetStyle is not None:

								        # 如果在该级style中找到了大纲级别，返回

								        if targetStyle.element.xml.find('<w:outlineLvl') >= 0:

								            return getOutlineLevel(targetStyle.element.xml)

								        else:

								            targetStyle = targetStyle.base_style

								    # 如果在段落、样式里都没有找到大纲级别，返回None

								    return None


								# 该行只能有一个图片

								def is_image(graph: Paragraph, doc: Document):

								    images = graph._element.xpath('.//pic:pic')  # 获取所有图片

								    for image in images:

								        for img_id in image.xpath('.//a:blip/@r:embed'):  # 获取图片id

								            part = doc.part.related_parts[img_id]  # 根据图片id获取对应的图片

								            if isinstance(part, ImagePart):

								                return True

								    return False


								# 获取图片（该行只能有一个图片）

								def get_ImagePart(graph: Paragraph, doc: Document):

								    images = graph._element.xpath('.//pic:pic')  # 获取所有图片

								    for image in images:

								        for img_id in image.xpath('.//a:blip/@r:embed'):  # 获取图片id

								            part = doc.part.related_parts[img_id]  # 根据图片id获取对应的图片

								            if isinstance(part, ImagePart):

								                return part

								    return None

								#寻找标题名称

								def findTitleName(docxPath):

								    yield '文档图片信息检查----检查是否存在详细设计方案'

								    document = docx.Document(docxPath)

								    # 逐段读取docx文档的内容

								    titleWords=[]

								    firstTitle = 0

								    secondTitle = 0

								    sanjiTitle = 0

								    for paragraph in document.paragraphs:

								        # 判断该段落的标题级别

								        # 这里用isTitle()临时代表，具体见下文介绍的方法

								        text = paragraph.text

								        if text.strip():#非空判断

								            level = isTitle(paragraph)

								            if level=="0":

								                firstTitle+=1

								                secondTitle = 0

								                if(text.find("附件")>=0):

								                    continue

								                titleWords.append("一级标题:".format(firstTitle)+text)

								            elif level=="1":

								                secondTitle+=1

								                sanjiTitle=0

								                # words.append("\t"+"{}.{}".format(firstTitle,secondTitle)+text)

								                # titleWords.append("第{}章的二级标题:".format(firstTitle,firstTitle,secondTitle)+text)

								            elif level=="2":

								                sanjiTitle += 1

								                # words.append("\t"+"{}.{}".format(firstTitle,secondTitle)+text)

								                # titleWords.append("第{}章的三级标题".format(firstTitle, secondTitle,firstTitle, secondTitle,sanjiTitle) + text)

								    findTitleName_llm_cfg = {

								    # 'model':"qwen2-72b",

								    # 'model_server': 'http://127.0.0.1:1025/v1',  # base_url, also known as api_base

								        'model': "qwen2-72b-instruct",

								        'model_server': 'DashScope',  # base_url, also known as api_base

								        'api_key': 'sk-ea89cf04431645b185990b8af8c9bb13',

								    }

								    findTitleName_bot = Assistant(llm=findTitleName_llm_cfg,

								                                    name='Assistant',

								                                    # system_message='1：这样的是一级标题。1.1：这样的是二级标题。1.1.1：这样的是三级标题'

								                                )

								    prompt='''\n是文档的大纲，一级标题组成，哪一章存在与方案相关的内容

								    类似详细设计方案,详细服务方案，详细建设方案为最相关的，优先选择

								    类似设计方案，服务方案，建设方案为次相关，次级选择

								    类似方案是最后选择

								    按照这样的顺序选择最合适的

								    你只能从这两个答案中选择一个：{"name":"一级标题名称","answer":"存在"}或{"name":"","answer":"不存在"}，不做过多的解释,严格按回答格式作答

								    '''

								    # print("\n".join(titleWords)+prompt)

								    messages = [({'role': 'user', 'content': "\n".join(titleWords)+prompt})]

								    runList=[]

								    for rsp in findTitleName_bot.run(messages):

								        runList.append(rsp)

								    data = runList[len(runList) - 1][0]["content"]

								    parsed_data = json_repair.loads(data.replace('`', ''))

								    print(parsed_data)

								    if(parsed_data["answer"]=="存在"):

								        print("存在",parsed_data["name"])

								        yield parsed_data["name"]

								    else:

								        print("不存在",parsed_data["name"])

								        yield "文档图片信息检查----未找到与详细设计方案相关内容，无法进行图文检查"

								def saveImage(fileName,titleName,imagePath):

								    fristName=""

								    doc = docx.Document(fileName)

								    for paragraph in doc.paragraphs:

								        # 判断该段落的标题级别

								        # 这里用isTitle()临时代表，具体见下文介绍的方法

								        text = paragraph.text

								        if text.strip():  # 非空判断

								            level = isTitle(paragraph)

								            if level == "0":

								                fristName = text

								                print(text)

								            if level:

								                levelText = f"{int(level) + 1}级标题-" + text

								        else:

								            # 空说明是表格或者图片

								            r = is_image(paragraph, doc)

								            if r and fristName == titleName:

								                part = get_ImagePart(paragraph, doc)

								                img_name = levelText+"_"+ os.path.basename(part.partname)

								                with open(f'{imagePath}/{img_name}', "wb") as f:

								                    f.write(part.blob)

								                #保存完成后，上传大模型进行分析

								def checkImageText(filename):

								    llm_cfg_vl = {

								        #'model': 'qwen1.5-72b-chat',qwen2-72b-instruct

								        'model':"qwen-vl-max",

								        'model_server': 'DashScope',  # base_url, also known as api_base

								        'api_key': 'sk-ea89cf04431645b185990b8af8c9bb13',

								    }

								    botImage = Assistant(llm=llm_cfg_vl,

								                    name='Assistant',

								                    # system_message="你是一个地理专家，可以准确的判断地理位置，如果你不确定，可以使用工具"1_image4

								                    )

								    llm_cfg = {

								        #'model': 'qwen1.5-72b-chat',

								        'model':"qwen2-72b-instruct",

								        'model_server': 'DashScope',  # base_url, also known as api_base

								        'api_key': 'sk-ea89cf04431645b185990b8af8c9bb13',

								    }

								    bot = Assistant(llm=llm_cfg,

								                    name='Assistant',

								                    # description='使用RAG检索并回答，支持文件类型：PDF/Word/PPT/TXT/HTML。'


								                    )

								    for titleName in findTitleName(filename):

								        yield titleName

								    if (titleName != "文档图片信息检查----未找到与详细设计方案相关内容，无法进行图文检查"):

								        yield "文档图片信息检查----文档内容解析中"

								        imagePath = "Image" + str(uuid.uuid4())

								        os.mkdir(imagePath)

								        saveImage(filename,titleName,imagePath)

								        imagePathList = os.listdir(imagePath)

								        count = 0

								        resMap={}

								        for image in imagePathList:

								            count+=1

								            yield f"文档图片信息检查---当前处理进度{count}/{len(imagePathList)}"

								            outpath=os.path.join("imagePath", image)

								            print(outpath)

								            messagesImage = [{'role': 'user', "content": [{"image": outpath}, {"text": '提取图片中的信息，每个信息进行自动分类，不要出现与图中无关的信息，不要删减，不要修改，不要总结内容，不做过多的解释,严格按要求作答'}]}]

								            runListImage = []

								            for rsp in botImage.run(messagesImage):

								                runListImage.append(rsp)

								            data = runListImage[len(runListImage) - 1][0]["content"]

								            print(str(data))

								            prompt='''

								            依次上述内容是否与文档有关，你只能在[无关，有关]选项中选择答案,

								            按照这样的格式回答[{“text”：“内容”,"answer":"答案"},{“text”：“内容”,"answer":"答案"}]不做过多的解释,严格按回答格式作答

								            '''

								            messages = [{'role': 'user', 'content': [{'text':str(data)+prompt},{"file":filename}]}]

								            runList = []

								            for rsp in bot.run(messages):

								                runList.append(rsp)

								            textdata = runList[len(runList) - 1][0]["content"]

								            print(textdata)

								            parsed_data = json_repair.loads(textdata)

								            print(parsed_data)

								            for res in parsed_data:

								                if (res["answer"] == "无关"):

								                    print("无关", res["name"])

								                    map = resMap.get(image)

								                    if map:

								                        #存在map说明之前已经保存过了

								                        resMap[image]=map+"，"+res["text"]

								                    else:

								                        resMap[image]=res["text"]

								            out=''

								            if(len(resMap)>0):

								                for key,value in resMap:

								                    out+=f"在{key}图片中,{value}以上内容在文档中未出现相关描述<br>"

								                yield out

								            else:

								                yield "文档图片信息检查----图文符合要求"

								            shutil.rmtree(imagePath)

								        # except Exception as e:

								        #     yield f"文档图片信息检查----未找到与详细设计方案相关内容，无法进行图文检查"

								        #     return

								for i in checkImageText("1.docx"):

								    print(i)

								# import docx

								# doc = docx.Document('1.docx')

								# dict_rel = doc.part._rels  # rels其实是个目录

								# for rel in dict_rel:

								#     rel = dict_rel[rel]

								#     print("rel", rel.target_ref)

								#     if "image" in rel.target_ref:

								#         # create_dir(desc_path)

								#         img_name = re.findall("/(.*)", rel.target_ref)[0]  # windos:/

								#         print("img_name", img_name)

								#         word_name = os.path.splitext("1.docx")[0]

								#         print("word_name", word_name)

								#         #检查文件路径分隔符（os.sep），并根据不同的操作系统（Windows或Unix/Linux）处理文件名。

								#         if os.sep in word_name:

								#             new_name = word_name.split('\\')[-1]

								#         else:

								#             new_name = word_name.split('/')[-1]

								#         img_name = f'{new_name}_{img_name}'

								#         print(img_name)

								#         desc_path='workspace'

								#         with open(f'{desc_path}/{img_name}', "wb") as f:

								#             f.write(rel.target_part.blob)

								# #

								# # # prompt='''

								# # # .根据上述文本判断，是否为非泛化的公司或组织名称，你可以使用工具利用互联网查询，你只能在[非泛化的公司或组织名称,公益组织,统称,泛化名称,政府单位,机关单位,学校，委员单位]选项中选择答案,回答格式[{“placeName”：“名称”,"回答":"答案"}]，不做过多的解释,严格按回答格式作答;

								# # # '''

								# llm_cfg_vl = {

								#     #'model': 'qwen1.5-72b-chat',qwen2-72b-instruct

								#     'model':"qwen-vl-max",

								#     'model_server': 'DashScope',  # base_url, also known as api_base

								#     'api_key': 'sk-ea89cf04431645b185990b8af8c9bb13',

								# }

								# botvl = Assistant(llm=llm_cfg_vl,

								#                 name='Assistant',

								#                 # system_message="你是一个地理专家，可以准确的判断地理位置，如果你不确定，可以使用工具"1_image4

								#                 )

								# messages = [{'role': 'user', "content": [{"image": "workspace/1.png"},{"text": '提取图片中的信息，每个信息进行自动分类，不要出现与图中无关的信息，不要删减，不要修改，不要总结内容，不做过多的解释,严格按要求作答'}]}]

								# runList = []

								# for rsp in botvl.run(messages):

								#     runList.append(rsp)

								#     print(rsp)

								# data = runList[len(runList) - 1][0]["content"]

								# print(str(data))