python_ai/daijian方案.py

import uuid
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from qwen_agent.agents import Assistant
import json_repair
import json
embeddings = DashScopeEmbeddings(dashscope_api_key="sk-ea89cf04431645b185990b8af8c9bb13")
device_id=0
import re
import time
from docx import Document
import shutil
from docx.opc.pkgreader import _SerializedRelationships, _SerializedRelationship
from docx.opc.oxml import parse_xml
import logging
import logging.config
import requests
from collections import defaultdict

userLog=None
def load_from_xml_v2(baseURI, rels_item_xml):
    """
    Return |_SerializedRelationships| instance loaded with the
    relationships contained in *rels_item_xml*. Returns an empty
    collection if *rels_item_xml* is |None|.
    """
    srels = _SerializedRelationships()
    if rels_item_xml is not None:
        rels_elm = parse_xml(rels_item_xml)
        for rel_elm in rels_elm.Relationship_lst:
            if rel_elm.target_ref in ('../NULL', 'NULL'):
                continue
            srels._srels.append(_SerializedRelationship(baseURI, rel_elm))
    return srels


_SerializedRelationships.load_from_xml = load_from_xml_v2
# 记录程序开始的时间戳
def getOutlineLevel(inputXml):
    """
    功能 从xml字段中提取出<w:outlineLvl w:val="number"/>中的数字number
    参数 inputXml
    返回 number
    """
    start_index = inputXml.find('<w:outlineLvl')
    end_index = inputXml.find('>', start_index)
    number = inputXml[start_index:end_index + 1]
    number = re.search("\d+", number).group()
    return number


def isTitle(paragraph):
    """
    功能 判断该段落是否设置了大纲等级
    参数 paragraph:段落
    返回 None:普通正文，没有大纲级别 0:一级标题 1:二级标题 2:三级标题
    """
    # 如果是空行，直接返回None
    if paragraph.text.strip() == '':
        return None

    # 如果该段落是直接在段落里设置大纲级别的，根据xml判断大纲级别
    paragraphXml = paragraph._p.xml
    if paragraphXml.find('<w:outlineLvl') >= 0:
        return getOutlineLevel(paragraphXml)
    # 如果该段落是通过样式设置大纲级别的，逐级检索样式及其父样式，判断大纲级别
    targetStyle = paragraph.style
    while targetStyle is not None:
        # 如果在该级style中找到了大纲级别，返回
        if targetStyle.element.xml.find('<w:outlineLvl') >= 0:
            return getOutlineLevel(targetStyle.element.xml)
        else:
            targetStyle = targetStyle.base_style
    # 如果在段落、样式里都没有找到大纲级别，返回None
    return None

#寻找标题名称
def findTitleName(docxPath):
    yield '文档相似性检查----检查是否存在详细设计方案'
    loopCount = 0
    while True:
        loopCount+=1
        if(loopCount>=15):
            raise Exception("文档读取超时，或文档存在问题无法读取")
            break
        try:
            document = Document(docxPath)
            break
        except Exception as e:
            time.sleep(1)
            pass
    # 逐段读取docx文档的内容
    titleWords=[]
    firstTitle = 0
    secondTitle = 0
    sanjiTitle = 0
    for paragraph in document.paragraphs:
        # 判断该段落的标题级别
        # 这里用isTitle()临时代表，具体见下文介绍的方法
        text = paragraph.text
        if text.strip():#非空判断
            level = isTitle(paragraph)
            if level=="0":
                firstTitle+=1
                secondTitle = 0
                if(text.find("附件")>=0):
                    continue
                titleWords.append("一级标题:".format(firstTitle)+text)
            elif level=="1":
                secondTitle+=1
                sanjiTitle=0
                # words.append("\t"+"{}.{}".format(firstTitle,secondTitle)+text)
                # titleWords.append("第{}章的二级标题:".format(firstTitle,firstTitle,secondTitle)+text)
            elif level=="2":
                sanjiTitle += 1
                # words.append("\t"+"{}.{}".format(firstTitle,secondTitle)+text)
                # titleWords.append("第{}章的三级标题".format(firstTitle, secondTitle,firstTitle, secondTitle,sanjiTitle) + text)
    findTitleName_llm_cfg = {
    #'model': 'qwen1.5-72b-chat',
    'model':"qwen2-72b",
    'model_server': 'http://127.0.0.1:1025/v1',  # base_url, also known as api_base
    # 'api_key': 'sk-ea89cf04431645b185990b8af8c9bb13',
    }
    findTitleName_bot = Assistant(llm=findTitleName_llm_cfg,
                                    name='Assistant',
                                    # system_message='1：这样的是一级标题。1.1：这样的是二级标题。1.1.1：这样的是三级标题'
                                )
    prompt='''\n是文档的大纲，一级标题组成，哪一章存在与方案相关的内容
    类似详细设计方案,详细服务方案，详细建设方案为最相关的，优先选择
    类似设计方案，服务方案，建设方案为次相关，次级选择
    类似方案是最后选择
    按照这样的顺序选择最合适的
    你只能从这两个答案中选择一个：{"name":"一级标题名称","answer":"存在"}或{"name":"","answer":"不存在"}，不做过多的解释,严格按回答格式作答
    '''
    # print("\n".join(titleWords)+prompt)
    messages = [({'role': 'user', 'content': "\n".join(titleWords)+prompt})]
    runList=[]
    for rsp in findTitleName_bot.run(messages):
        runList.append(rsp)
    data = runList[len(runList) - 1][0]["content"]
    parsed_data = json_repair.loads(data.replace('`', ''))
    if(parsed_data["answer"]=="存在"):
        yield parsed_data["name"]
    else:
        yield "文档相似性检查----未找到与详细设计方案相关内容，无法进行相似性比较"

def merge_chapters(words):
    merged_text = {}
    for line in words:
        if "：" in line:
            key, value = line.split("：", 1)  # 根据第一个冒号分割
            if key in merged_text:
                merged_text[key].append(value.strip())  # 添加到列表
            else:
                merged_text[key] = [value.strip()]  # 初始化列表
        else:
            logging.warning(f"Skipping line without key-value pair: {line}")

    # 合并结果格式化为列表输出
    merged_words = []
    for key, values in merged_text.items():
        combined_value = "，".join(values)  # 将内容合并
        merged_words.append(f"{key}：{combined_value}")
    return merged_words
#获取文档中 详细设计方案 章节的所有内容
def getDocxToText(docxPath, titleName, vector_store_path):
    loopCount = 0
    while True:
        loopCount += 1
        if loopCount >= 15:
            raise Exception("文档读取超时，或文档存在问题无法读取")
            break
        try:
            document = Document(docxPath)
            break
        except Exception as e:
            time.sleep(1)
            pass

    # 逐段读取docx文档的内容
    levelList = []
    words = []
    addStart = False
    title_counter = []  # 用于存储当前标题的计数
    title_texts = []    # 用于存储当前各级标题的文本
    i = 0

    for paragraph in document.paragraphs:
        text = paragraph.text.strip()
        if text:  # 非空判断
            level = isTitle(paragraph)  # 确保这个函数在代码中定义

            # 当前标题的层级
            current_level = int(level) if level is not None else -1

            if current_level >= 0:  # 标题段落
                # 确保标题计数器足够长
                while len(title_counter) <= current_level:
                    title_counter.append(0)  # 初始化新级别的标题计数
                    title_texts.append('')   # 初始化对应的标题文本

                # 更新当前级别及以下的标题计数和标题文本
                title_counter[current_level] += 1  # 当前级别计数加1
                title_counter = title_counter[:current_level+1]
                title_texts[current_level] = text  # 保存当前级别的标题文本
                title_texts = title_texts[:current_level+1]

                # 重置更低级别的计数和标题文本
                for idx in range(current_level + 1, len(title_counter)):
                    title_counter[idx] = 0
                    title_texts[idx] = ''

                # 检查是否与 titleName 匹配
                if current_level == 0:
                    addStart = titleName in text  # 检查是否与 titleName 匹配

            else:  # 非标题段落
                if addStart:
                    if len(text) > 30:  # 仅记录长度大于30的内容
                        i += 1
                        # 获取当前完整的标题编号和标题名称
                        levelText = ".".join(map(str, title_counter))
                        # 使用非空的标题名称
                        current_title = title_texts[-1] if title_texts else ''
                        words.append(f"{levelText}-{current_title}：{text}")

    if len(words) == 0:
        raise Exception("checkRepeatText，获取长度为0")

    # 使用封装的合并函数
    merged_words = merge_chapters(words)

    # 将合并后的内容写入 txt 文件
    with open("checkRepeatText.txt", 'w') as txt_file:
        for line in merged_words:
            txt_file.write(f"{line}\n")

    time.sleep(3)

    # 加载文本
    loader = TextLoader(file_path='checkRepeatText.txt')
    docs = loader.load()

    # 创建唯一标识符
    uuids = []
    for _ in range(len(merged_words)):
        uuids.append(str(uuid.uuid4()))
    logging.info(f"checkRepeatTextuuidLen{len(uuids)}")

    return merged_words, uuids


# @app.route('/checkRepeatText/<filename>', methods=['GET'])
def checkRepeatText(filename):
    yield "文档相似性检查---启动中...."
    vector_store_path="vector_store"+str(uuid.uuid4())
    for titleName in findTitleName(filename):
        yield titleName
    if(titleName!="文档相似性检查----未找到与详细设计方案相关内容，无法进行相似性比较"):
        yield "文档相似性检查----文档内容解析中"
        words,uuids=getDocxToText(filename,titleName,vector_store_path)
    # 记录程序开始的时间戳‘
        reslist = []
        count = 0
        standard = {
            "清晰性": """对软件功能描述的完整性主要体现在以下两个方面：
                        a. 功能描述是否简洁明了，避免使用过于复杂或专业的术语，使得用户能够轻松理解。
                        b. 是否明确指出了功能的具体作用，没有模糊不清或含糊其辞的表述。
                        如果要将软件功能描述的清晰性划分为优秀、良好、一般、差四个从高到低的等级，每个等级的评判标准是什么？
                        将软件功能描述的清晰性划分为优秀、良好、一般、差四个等级时，每个等级的评判标准可以如下定义：
                        优秀（90~100分）
                        简洁明了：功能描述极其精炼，没有多余的词汇，每个字都承载着必要的信息。
                        通俗易懂：完全避免了专业术语或行业黑话，即使是非专业用户也能轻松理解。
                        具体明确：功能的作用、范围、限制以及用户期望的结果都被清晰、准确地阐述，没有任何模糊或含糊的表述。
                        良好（70分~90分，不包含90分）
                        较为简洁：功能描述相对简短，但可能包含一些必要的细节或背景信息。
                        易于理解：大部分术语都是通俗易懂的，对于少数专业术语，提供了简短的解释或上下文。
                        明确具体：功能的主要作用、范围和用户期望的结果都被明确阐述，但可能在某些细节上稍显模糊。
                        一般（60~70分，不包含70分）
                        稍显冗长：功能描述可能包含一些不必要的细节或重复信息，导致用户需要花费更多时间来理解。
                        有一定难度：使用了一些专业术语或行业黑话，但没有提供足够的解释或上下文，导致非专业用户可能难以理解。
                        基本明确：功能的主要作用被阐述，但在范围、限制或用户期望的结果上可能存在一些模糊或含糊的表述。
                        差（60分以下，不包含60分）
                        冗长复杂：功能描述过于详细和复杂，包含大量不必要的细节和背景信息，导致用户难以抓住重点。
                        难以理解：大量使用专业术语或行业黑话，且没有提供任何解释或上下文，使得大部分用户都难以理解。
                        模糊不清：功能的作用、范围、限制以及用户期望的结果都没有被明确阐述，存在大量的模糊和含糊表述。
                        评估的提示词举例：
                        根据这些评判标准，对下面的软件功能描述的清晰性进行客观的评价，给出优秀、良好、一般、差四个等级之一的评价，并给出具体得分。并在此基础上润色和完善，使之达到优秀的等级。
                        """,
            "完整性": """对软件功能描述的完整性主要体现在以下两个方面：
                        a. 是否涵盖了功能的所有重要方面，包括输入、输出、处理过程等。
                        b. 是否提供了足够的信息，以便用户能够全面了解功能的工作原理和用途。
                        如果要将软件功能描述的完整性划分为优秀、良好、一般、差四个从高到低的等级，每个等级的评判标准是什么？
                        将软件功能描述的完整性划分为优秀、良好、一般、差四个等级时，每个等级的评判标准可以如下定义：
                        优秀：（90~100分）
                        描述全面涵盖了功能的所有重要方面，包括但不限于输入、输出、处理过程、异常处理等。
                        提供了详尽的信息，用户能够清晰地了解功能的工作原理、用途以及在不同场景下的表现。
                        包含了必要的示例、图表或流程图，以直观展示功能的工作流程和效果。
                        没有遗漏任何对用户理解和使用功能至关重要的信息。
                        良好：（70分~90分，不包含90分）
                        描述基本涵盖了功能的主要方面，但可能有个别不太重要的细节未提及。
                        提供了足够的信息，用户能够较好地理解功能的工作原理和用途，但在某些复杂场景下可能需要额外说明。
                        可能包含一些示例或图表，但可能不如优秀等级那么全面或详细。
                        一般：（60~70分，不包含70分）
                        描述涵盖了功能的一部分重要方面，但存在较明显的遗漏或不足。
                        提供的信息有限，用户可能只能对功能有一个大致的了解，无法深入了解其工作原理和详细用途。
                        可能缺乏示例、图表或流程图等辅助材料，导致用户难以理解功能的某些复杂部分。
                        差：（60分以下，不包含60分）
                        描述严重缺失，未涵盖功能的关键方面，甚至可能误导用户。
                        提供的信息极少，用户无法全面了解功能的工作原理和用途。
                        可能存在错误或矛盾的信息，导致用户无法准确理解功能。
                        根据这些评判标准，对下面的软件功能描述的完整性进行客观的评价，给出优秀、良好、一般、差四个等级之一的评价。并在此基础上润色和完善，使之达到优秀的等级。
                        """,
            "可测试性": """软件功能描述的可测试性主要体现为以下方面：
                        a. 功能描述是否具体、明确，以便能够进行功能测试和验证。
                        b. 是否提供了足够的细节，以便开发人员和测试人员能够准确理解和实现功能。
                        如果要将软件功能描述的可测试性划分为优秀、良好、一般、差四个从高到低的等级，每个等级的评判标准是什么？
                        将软件功能描述的可测试性划分为优秀、良好、一般、差四个等级时，每个等级的评判标准可以如下定义：
                        优秀：（90~100分）
                        功能描述非常具体和明确，能够直接转化为测试用例。
                        提供了详尽的细节，包括输入、输出、边界条件、异常处理等。
                        开发人员和测试人员能够轻松理解和实现功能，无需额外澄清或假设。
                        功能描述中包含了预期的行为和非预期的行为，有助于全面覆盖测试场景。
                        良好：（70分~90分，不包含90分）
                        功能描述相对具体和明确，大部分内容可以直接用于测试。
                        提供了足够的细节，但可能需要一些额外的解释或澄清才能完全理解。
                        开发人员和测试人员能够基于描述实现和测试功能，但可能需要一些额外的沟通和协调。
                        功能描述中基本涵盖了主要的行为和边界条件，但可能缺少对某些异常情况的详细描述。
                        一般：（60~70分，不包含70分）
                        功能描述较为笼统，需要较多的解释和澄清才能用于测试和开发。
                        细节不够充分，可能导致开发人员和测试人员在实现和测试过程中产生误解或遗漏。
                        需要较多的沟通和协调来确保功能的正确实现和测试。
                        功能描述中可能只涵盖了主要的行为，对边界条件和异常情况的描述较为模糊或缺失。
                        差：（60分以下，不包含60分）
                        功能描述非常模糊和笼统，无法直接用于测试和开发。
                        缺乏必要的细节，导致开发人员和测试人员无法准确理解和实现功能。
                        需要大量的沟通和协调，甚至可能需要重新编写功能描述才能进行有效的测试和开发。
                        功能描述中可能只提到了大致的目标或意图，没有具体的行为描述、边界条件或异常处理。
                        根据这些评判标准，对下面的软件功能描述的可测试性进行客观的评价，给出优秀、良好、一般、差四个等级之一的评价。并在此基础上润色和完善，使之达到优秀的等级。
                        """,
            "详细性": """软件功能详细性主要体现在：
                        a. 功能描述是否详细，可以根据功能描述进行功能点评价，计算出ILF、EIF、EI、EO、EQ的数量；
                        如果要将软件功能描述的详细性划分为优秀、良好、一般、差四个从高到低的等级，每个等级的评判标准是什么？
                        将软件功能描述的详细性划分为优秀、良好、一般、差四个等级时，每个等级的评判标准可以如下定义：
                        优秀：（90~100分）
                        功能描述非常详尽，包含了所有必要的信息，使得评估者能够轻松地根据描述进行功能点评价。
                        ILF、EIF、EI、EO、EQ的数量可以明确且无误地计算出来，没有遗漏或模糊之处。
                        描述中不仅包含了功能的正常操作，还涵盖了异常处理、边界条件等特殊情况。
                        使用了具体的例子、流程图或伪代码来进一步阐明功能。
                        良好：（70分~90分，不包含90分）
                        功能描述相对详细，提供了足够的信息来进行功能点评价。
                        ILF、EIF、EI、EO、EQ的数量可以大致计算出来，但可能需要一些额外的解释或澄清。
                        描述中基本涵盖了功能的各个方面，但对某些细节或特殊情况可能描述不够充分。
                        整体而言，描述是清晰和准确的，但还有改进的空间。
                        一般：（60~70分，不包含70分）
                        功能描述较为笼统，缺乏具体的细节。
                        ILF、EIF、EI、EO、EQ的数量计算可能存在一定的困难或不确定性，需要较多的假设或推测。
                        描述中只涵盖了功能的主要方面，对细节和特殊情况的处理描述不足。
                        可能需要额外的沟通或澄清才能准确理解功能需求。
                        差：（60分以下，不包含60分）
                        功能描述非常模糊，缺乏必要的信息和细节。
                        无法根据描述进行准确的功能点评价，ILF、EIF、EI、EO、EQ的数量无法确定。
                        描述中可能只提到了功能的大致目标或意图，没有具体的实现细节或操作步骤。
                        需要大量的额外信息或澄清才能理解功能需求，甚至可能需要重新编写功能描述。
                        根据这些评判标准，对下面的软件功能描述的详细性进行客观的评价，给出优秀、良好、一般、差四个等级之一的评价。并在此基础上润色和完善，使之达到优秀的等级。
                        """,
        }
        weight = {
            "清晰性" : 0.4,
            "完整性" : 0.3,
            "可测试性" : 0.2,
            "详细性" : 0.1,

        }

        findTitleName_llm_cfg = {
            'model': "qwen2-72b",
            'model_server': 'http://127.0.0.1:1025/v1',
        }
        findTitleName_bot = Assistant(llm=findTitleName_llm_cfg, name='Assistant')
        for i in words:
            count += 1
            yield f"文档相似性检查--对{titleName}章节，进行文档内容检查中{count}/{len(words)}"
            chapter, rest = i.split('-', 1)
            title, text = rest.split('：', 1)

            # 生成字典
            example = {
                "chapter": chapter.strip(),
                "title": title.strip(),
                "text": text.strip()
            }
            result = {
                "title": title.strip(),
                "text": text.strip()
            }
            # 循环提取键和值
            weighted_score = 0
            for key, value in standard.items():
                prompt_score = f"""对软件功能{key}的定义：
                                    {value}
                                    模块名称：【{example['title']}】
                                    模块描述：【{example['text']}】
                                    回答格式为：{{"模块名称"："{example['text']}",
                                                "等级":"优秀/良好/一般/差",
                                                "得分":"0~100",
                                                "理由及扣分原因":"理由及扣分原因",
                                                }}，不做过多的解释,严格按回答格式作答,只给出一个回答。
                                    """

                messages = [({'role': 'user', 'content': prompt_score})]
                runList = []
                for rsp in findTitleName_bot.run(messages):
                    runList.append(rsp)
                data = runList[len(runList) - 1][0]["content"]
                parsed_data = json_repair.loads(data.replace('`', ''))
                if isinstance(parsed_data, list):  # 检查parsed_data是否为列表
                    parsed_data = parsed_data[0]  # 取第一个元素
                else:
                    parsed_data = parsed_data
                result[f"{key}等级"] = parsed_data['等级']
                result[f"{key}得分"] = parsed_data['得分']
                score = int(parsed_data['得分'])  # 假设 '得分' 是字符串，需要转换为整数
                key_weight = weight.get(key, 0)  # 根据键获取权重，如果没有匹配的权重，默认为 0
                # 计算加权得分并累加
                weighted_score += score * key_weight
            result["加权得分"] = round(weighted_score, 2)  # 保留两位小数
            answer = f"{example['text']}"
            for key, value in standard.items():
                prompt_answer = f"""对软件功能{key}的定义：\n 
                            {value}\n
                            模块名称：【{example['title']}】\n
                            模块描述：f【{answer}】\n
                            回答格式为：{{"模块名称"："{example['text']}",
                                        "改进后的描述":"改进后的描述",
                                        }}，不做过多的解释,严格按回答格式作答。
                            """
                messages = [({'role': 'user', 'content': prompt_answer})]
                runList = []
                for rsp in findTitleName_bot.run(messages):
                    runList.append(rsp)
                data = runList[len(runList) - 1][0]["content"]
                parsed_data = json_repair.loads(data.replace('`', ''))
                answer = parsed_data['改进后的描述']
            result["改进后的描述"] = answer
            textTag = i.split("：")[0]
            breakpoint()
        # vectorstore.delete(ids=uuids)
        shutil.rmtree(vector_store_path)
        resInfo=f"对{titleName}章节，发现相似内容：<br>"
        if(len(reslist)>0):
            for res in reslist:
                resInfo+="【在**"+res["yuanwen1"][:res["yuanwen1"].find('：')]+"**下包含："+res["yuanwen1"][res["yuanwen1"].find('：') + 1:]+"<br>在**"+res["yuanwen2"][:res["yuanwen2"].find('：')]+"**下包含："+res["yuanwen2"][res["yuanwen2"].find('：') + 1:]+"<br>以上两段内容***相似度***："+'{:.2f}'.format(res['similarity'])+"】<br>"
            yield resInfo
        else:
            yield "**未发现相似内容**"
            userLog.info("文档相似性检查----未发现相似内容**")

for i  in checkRepeatText("./北仑区综合行政执法局协同监管系统项目建设方案_20240824.docx"):
 print(i)