新增文件

10 months ago · 0456af0616
3 changed files with 346 additions and 0 deletions
--- a/checkPlaceNameServer.py
+++ b/checkPlaceNameServer.py
@ -0,0 +1,52 @@
+# from paddlenlp import Taskflow
+#checkPlaceNameServer
+# tagTask1 = Taskflow("ner",device_id=2,precision='fp16')##checkPlaceName
+# from flask import Flask, request, jsonify
+from fastapi import FastAPI, Request
+from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
+import uvicorn
+from fastapi.responses import JSONResponse
+from pydantic import BaseModel
+app = FastAPI()
+
+import sys 
+sys.path.append("..") 
+from ner_model import NERModel
+# model = NERModel("bert", "shibing624/bert4ner-base-chinese")
+model = NERModel("bertspan", "shibing624/bertspan4ner-base-chinese",cuda_device=5)
+class RequestData(BaseModel):
+    data: dict
+@app.post("/taskflow/checkPlaceNameServer")
+async def process_request(request: RequestData):
+    global model
+    # 提取文本数据
+    text_data = request.data.get('text')
+    # 处理文本数据，例如检查错误等
+    # 这里您可以添加实际的逻辑来检查文档错误
+    predictions, raw_outputs, entities = model.predict(text_data)
+    
+    # 返回响应
+    return JSONResponse(content={"status": "success", "data": entities}, status_code=200)
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8191)
+# # 创建一个锁对象
+# import threading
+# app = Flask(__name__)
+# lock = threading.Lock()
+# #多线程但是每次只处理一个请求，多余的请求需要排队
+# @app.route('/taskflow/checkPlaceNameServer', methods=['POST'])
+# def process_request():
+#     with lock:
+#         data = request.get_json()
+#         # print("data",data)
+#         # 提取文本数据
+#         text_data = data.get('data', {}).get('text')
+#         # 处理文本数据，例如检查错误等
+#         # 这里您可以添加实际的逻辑来检查文档错误
+#         predictions, raw_outputs, entities =model.predict(text_data)
+#         # 示例：简单打印接收到的文本
+#         # # 返回响应
+#         return jsonify({"status": "success", "data": entities}), 200
+
+# if __name__ == '__main__':
+#     app.run(threaded=True,port=8191)
--- a/checkRepeatTextServer.py
+++ b/checkRepeatTextServer.py
@ -0,0 +1,71 @@
+# from paddlenlp import Taskflow
+# similarity1 = Taskflow("text_similarity",device_id=3,precision='fp16')##checkRepeatText
+# from flask import Flask, request, jsonify
+# import threading
+# app = Flask(__name__)
+
+# # 创建一个锁对象
+# lock = threading.Lock()
+# @app.route('/taskflow/checkRepeatText', methods=['POST'])
+# def process_request():
+#     with lock:
+#         data = request.get_json()
+#         # print("data",data)
+#         # 提取文本数据
+#         text_data = data.get('data', {}).get('text')
+#         # 处理文本数据，例如检查错误等
+#         # 这里您可以添加实际的逻辑来检查文档错误
+#         res =similarity1(text_data)
+#         # 示例：简单打印接收到的文本
+#         # # 返回响应
+#         return jsonify({"status": "success", "data": res}), 200
+
+# if __name__ == '__main__':
+#     app.run(threaded=True,port=8192)
+from sentence_transformers import SentenceTransformer, util
+import itertools
+from fastapi import FastAPI, Request
+from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
+import uvicorn
+from fastapi.responses import JSONResponse
+from pydantic import BaseModel
+import torch
+app = FastAPI()
+model = SentenceTransformer("shibing624/text2vec-base-chinese",device="npu:5")
+
+class RequestData(BaseModel):
+    data: dict
+@app.post("/taskflow/checkRepeatText")
+async def process_request(request: RequestData):
+    global model
+    # 提取文本数据
+    text_data = request.data.get('text')
+    a=text_data[0][0]
+    b=text_data[0][1]
+    emb_a = model.encode(a)
+    emb_b = model.encode(b)
+    cos_sim = util.cos_sim(emb_a, emb_b)
+    results = []
+    results.append({"text1":a,"text2":b,"similarity":cos_sim.item()})
+    # 返回响应
+    return JSONResponse(content={"status": "success", "data": results}, status_code=200)
+@app.post("/taskflow/getRepeatText")
+async def process_request(request: RequestData):
+    global model
+    # 提取文本数据
+    text_data = request.data.get('text')
+    allcorpus =text_data[0] #全部文档信息
+    query=text_data[1] #要查询的文档信息
+    corpus_embeddings = model.encode(allcorpus, convert_to_tensor=True)
+    top_k = min(4, len(allcorpus))
+    query_embedding = model.encode(query, convert_to_tensor=True)
+    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
+    top_results = torch.topk(cos_scores, k=top_k)
+    results = []
+    for score, idx in zip(top_results[0], top_results[1]):
+        print(allcorpus[idx], "(Score: {:.4f})".format(score.item()))
+        results.append({"text1":allcorpus[idx],"text2":query,"similarity":score.item()})
+    # 返回响应
+    return JSONResponse(content={"status": "success", "data": results}, status_code=200)
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8192)
--- a/pytorch纠错模型服务化部署macbert4csc.py
+++ b/pytorch纠错模型服务化部署macbert4csc.py
@ -0,0 +1,223 @@
+import threading
+# from checkPlaceName import checkPlaceName
+# from checkRepeatText import checkRepeatText
+# from checkCompanyName import checkCompanyName
+# from checkDocumentError import checkDocumentError
+# from checkTitleName import checkTitleName
+# from myLogger import outLog
+# import time
+# def run_check_company_name(filename,user_id):
+#     for i in checkCompanyName(filename,user_id):
+#         pass
+
+# def run_get_document_error(filename,user_id):
+#     for i in checkDocumentError(filename,user_id):
+#         pass
+# def runcheckTitleName(filename,user_id):
+#     for i in checkTitleName(filename,user_id):
+#         pass
+# def runcheckRepeatText(filename,user_id):
+#     for i in checkRepeatText(filename,user_id):
+#         pass
+# def runcheckPlaceName(filename,user_id):
+#     for i in checkPlaceName(filename,user_id):
+#         pass
+
+# def get(user_id):
+#     time.sleep(5)
+#     while True:
+#         if outLog.is_done(user_id):
+#             break
+#         q = outLog.get_queueData(user_id)
+#         if q:
+#             text = q.pop(0)
+#             print(text)
+#     print("打印结束")
+
+# filename = "17.docx"
+
+# # 创建线程getapp
+# thread1 = threading.Thread(target=run_check_company_name, args=(filename,"1"))
+# thread2 = threading.Thread(target=run_get_document_error, args=(filename,"1"))
+# thread3 = threading.Thread(target=runcheckTitleName, args=(filename,"1"))
+# thread4 = threading.Thread(target=runcheckRepeatText, args=(filename,"1"))
+# thread5 = threading.Thread(target=runcheckPlaceName, args=(filename,"1"))
+# thread6 = threading.Thread(target=get, args=("1",))
+# thread1 = threading.Thread(target=getapp, args=(filename,))
+# thread2 = threading.Thread(target=getapp, args=(filename,))
+# thread3 = threading.Thread(target=getapp, args=(filename,))
+# thread4 = threading.Thread(target=getapp, args=(filename,))
+# thread5 = threading.Thread(target=getapp, args=(filename,))
+# thread6 = threading.Thread(target=getapp, args=("1",))
+# # 启动线程
+# thread1.start()
+# thread2.start()
+# thread3.start()
+# thread4.start()
+# thread5.start()
+# thread6.start()
+# # 等待线程完成
+# thread1.join()
+# thread2.join()
+# thread3.join()
+# thread4.join()
+# thread5.join()
+# thread6.join()
+# print("Both tasks completed.")
+# from pycorrector.macbert.macbert_corrector import MacBertCorrector
+
+# m = MacBertCorrector("models")
+# for i in range(10):
+#     i = m.correct("行政捡查是行政机关覆行政府职能、管理经济社会事务的重要方式，开展计划统筹是行政检查控总量、提质效的重要措施和手段，直接影响改革或得感和社会满意度")
+#     print(i)
+# import re
+# import json
+# import json_repair
+# import math
+# import os
+# import platform
+# import torch
+# import torch_npu
+# import operator
+# from torch_npu.contrib import transfer_to_npu
+# torch_device = "npu:4" # 0~7
+# torch.npu.set_device(torch.device(torch_device))
+# torch.npu.set_compile_mode(jit_compile=False)
+# from transformers import BertTokenizerFast,BertForMaskedLM
+# # option = {}
+# # option["NPU_FUZZY_COMPILE_BLACKLIST"] = "Tril"
+# # torch.npu.set_option(option)
+# print("torch && torch_npu import successfully")
+
+# DEFAULT_CKPT_PATH = 'macbert4csc'
+# #models=----macbert4csc-base-chinese
+# model = BertForMaskedLM.from_pretrained(
+#     DEFAULT_CKPT_PATH,
+#     torch_dtype=torch.float16,
+#     device_map=torch_device
+# ).npu().eval()
+# tokenizer = BertTokenizerFast.from_pretrained(DEFAULT_CKPT_PATH)
+# def get_errors(corrected_text, origin_text):
+#     sub_details = []
+#     for i, ori_char in enumerate(origin_text):
+#         if ori_char in [' ', '“', '”', '‘', '’', '琊', '\n', '…', '—', '擤']:
+#             # add unk word
+#             corrected_text = corrected_text[:i] + ori_char + corrected_text[i:]
+#             continue
+#         if i >= len(corrected_text):
+#             continue
+#         if ori_char != corrected_text[i]:
+#             if ori_char.lower() == corrected_text[i]:
+#                 # pass english upper char
+#                 corrected_text = corrected_text[:i] + ori_char + corrected_text[i + 1:]
+#                 continue
+#             sub_details.append((ori_char, corrected_text[i], i, i + 1))
+#     sub_details = sorted(sub_details, key=operator.itemgetter(2))
+#     return corrected_text, sub_details
+#     result = []
+# def getapp(gettext):
+#     result = []
+#     batchNum = 20
+#     sentences = re.split(r'[。\n]', gettext)
+#     # 去掉空字符
+#     sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
+#     # 计算总字符数
+#     total_chars = len(sentences)
+
+#     # 计算有多少份
+#     num_chunks = math.ceil(total_chars / batchNum)
+
+#     # 按batchNum字为一份进行处理
+#     chunks = [sentences[i:i + batchNum] for i in range(0, total_chars, batchNum)]
+#     # 打印每一份的内容
+#     err = []
+#     for i, chunk in enumerate(chunks):
+#         inputs = tokenizer(chunk, padding=True, return_tensors='pt').to(torch_device)
+#         with torch.no_grad():
+#             outputs = model(**inputs)
+#         for id, (logit_tensor, sentence) in enumerate(zip(outputs.logits, chunk)):
+#             decode_tokens_new = tokenizer.decode(
+#                 torch.argmax(logit_tensor, dim=-1), skip_special_tokens=True).split(' ')
+#             decode_tokens_new = decode_tokens_new[:len(sentence)]
+#             if len(decode_tokens_new) == len(sentence):
+#                 probs = torch.max(torch.softmax(logit_tensor, dim=-1), dim=-1)[0].cpu().numpy()
+#                 decode_str = ''
+#                 for i in range(len(sentence)):
+#                     if probs[i + 1] >= 0.7:
+#                         decode_str += decode_tokens_new[i]
+#                     else:
+#                         decode_str += sentence[i]
+#                 corrected_text = decode_str
+#             else:
+#                 corrected_text = sentence
+#             print(corrected_text)
+        #outputs = model(**tokenizer(chunk, padding=True, return_tensors='pt').to(torch_device))
+        # for ids, text in zip(outputs.logits, chunk):
+        #     _text = tokenizer.decode(torch.argmax(ids, dim=-1), skip_special_tokens=True).replace(' ', '')
+        #     corrected_text = _text[:len(text)]
+        #     corrected_text, details = get_errors(corrected_text, text)
+        #     print(text, ' => ', corrected_text, details)
+        #     result.append((corrected_text, details))
+        # for i, sent in enumerate(chunk):
+        #     decode_tokens = tokenizer.decode(outputs[i], skip_special_tokens=True).replace(' ', '')
+        #     corrected_sent = decode_tokens[:len(sent)]
+        #     print(corrected_sent)
+                # corrected_sents.append(corrected_sent)
+# from flask import Flask, request, jsonify
+# import threading
+# import time
+# import re
+# import math
+# from macbert_corrector import MacBertCorrector
+# m = MacBertCorrector("macbert4csc")
+# app = Flask(__name__)
+
+# # 创建一个锁对象
+# lock = threading.Lock()
+# #多线程但是每次只处理一个请求，多余的请求需要排队
+# @app.route('/taskflow/checkDocumentError', methods=['POST'])
+# def process_request():
+#     with lock:
+
+#         data = request.get_json()
+#         # print("data",data)
+#         # 提取文本数据
+#         text_data = data.get('data', {}).get('text', [])
+#         # print(text_data)
+#         # 处理文本数据，例如检查错误等
+#         # 这里您可以添加实际的逻辑来检查文档错误
+#         res = m.correct_batch(text_data)
+#         # 示例：简单打印接收到的文本
+#         # # 返回响应
+#         return jsonify({"status": "success", "data": res}), 200
+
+# if __name__ == '__main__':
+#     app.run(threaded=True,port=5001)
+from fastapi import FastAPI, Request
+from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
+import uvicorn
+from fastapi.responses import JSONResponse
+from pydantic import BaseModel
+app = FastAPI()
+from macbert_corrector import MacBertCorrector
+m = MacBertCorrector("macbert4csc")
+
+class RequestData(BaseModel):
+    data: dict
+@app.post("/taskflow/checkDocumentError")
+async def process_request(request: RequestData):
+    global m
+    # 提取文本数据
+    text_data = request.data.get('text')
+    # 处理文本数据，例如检查错误等
+    # 这里您可以添加实际的逻辑来检查文档错误
+
+    # print(text_data)
+    # 处理文本数据，例如检查错误等
+    # 这里您可以添加实际的逻辑来检查文档错误
+    res = m.correct_batch(text_data)
+    
+    # 返回响应
+    return JSONResponse(content={"status": "success", "data": res}, status_code=200)
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=5001)