RHM-text-summarizer-light

Paused

App Files Files Community

ar08 commited on Jun 23

Commit

2a14ed0

verified ·

1 Parent(s): 2716805

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -34

app.py CHANGED Viewed

@@ -1,57 +1,43 @@
-# pip install gradio transformers onnxruntime optimum torch
 import gradio as gr
-import torch
 from transformers import AutoTokenizer
-from optimum.onnxruntime import ORTModelForSeq2SeqLM, ORTOptimizer, ORTQuantizer
-from optimum.onnxruntime.configuration import AutoOptimizationConfig
 import onnxruntime as ort
-# Step 1: Load & optimize the ONNX model
-model_name = "Rahmat82/t5-small-finetuned-summarization-xsum"
-model = ORTModelForSeq2SeqLM.from_pretrained(model_name, export=True)
-optimizer = ORTOptimizer.from_pretrained(model)
-opt_config = AutoOptimizationConfig.O2()  # graph fusions and transformer-specific optimizations
-optimizer.optimize(save_dir="optimized_model", optimization_config=opt_config)
-optimized_model = ORTModelForSeq2SeqLM.from_pretrained("optimized_model")
-# Step 2: Apply dynamic INT8 quantization for CPU
-quantizer = ORTQuantizer.from_pretrained(optimized_model)
-opt_q = quantizer.quantize(
-    save_dir="quantized_model",
-    quantization_config=AutoOptimizationConfig.O2().quantization_config,  # dynamic quant
-)
-model = ORTModelForSeq2SeqLM.from_pretrained("quantized_model")
-# Step 3: Set up ONNXRuntime Session options for CPU multi-threading
 sess_options = ort.SessionOptions()
-sess_options.intra_op_num_threads = min(4, torch.get_num_threads())  # 4 threads for inference
 sess_options.inter_op_num_threads = 1
 sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL
-# Rebuild pipeline with optimized quantized model on CPU
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
-summarizer = gradio_pipeline = None
-from optimum.pipelines import pipeline
 summarizer = pipeline(
-    task="summarization",
     model=model,
     tokenizer=tokenizer,
-    framework="pt",
-    ort_session_options=sess_options,
-    device=-1,
     batch_size=8,
 )
 def summarize_text(text):
     text = text.strip()
     if not text:
         return "Please enter some text."
     inputs = tokenizer.encode(text, max_length=1024, truncation=True, return_tensors="pt")
-    decoded = tokenizer.decode(inputs[0], skip_special_tokens=True)
     summary = summarizer(
-        decoded,
         min_length=60,
         max_length=120,
         do_sample=False
@@ -63,8 +49,8 @@ app = gr.Interface(
     fn=summarize_text,
     inputs=gr.Textbox(lines=12, label="Input Text"),
     outputs=gr.Textbox(label="Summary"),
-    title="⚙️ CPU-Optimized ONNX T5 Summarizer",
-    description="Uses graph optimizations, INT8 quantization, and threading tweaks for fast CPU performance."
 )
 if __name__ == "__main__":

+# pip install gradio transformers optimum onnxruntime onnx
 import gradio as gr
 from transformers import AutoTokenizer
+from optimum.onnxruntime import ORTModelForSeq2SeqLM
+from optimum.pipelines import pipeline
 import onnxruntime as ort
+import torch
+# CPU optimization settings
 sess_options = ort.SessionOptions()
+sess_options.intra_op_num_threads = min(4, torch.get_num_threads())
 sess_options.inter_op_num_threads = 1
 sess_options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL
+# Load ONNX model and tokenizer
+model_name = "Rahmat82/t5-small-finetuned-summarization-xsum"
+model = ORTModelForSeq2SeqLM.from_pretrained(model_name, session_options=sess_options)
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
+# Build CPU pipeline
 summarizer = pipeline(
+    "summarization",
     model=model,
     tokenizer=tokenizer,
+    device=-1,  # Force CPU
     batch_size=8,
 )
+# Summarization function
 def summarize_text(text):
     text = text.strip()
     if not text:
         return "Please enter some text."
     inputs = tokenizer.encode(text, max_length=1024, truncation=True, return_tensors="pt")
+    input_text = tokenizer.decode(inputs[0], skip_special_tokens=True)
     summary = summarizer(
+        input_text,
         min_length=60,
         max_length=120,
         do_sample=False
     fn=summarize_text,
     inputs=gr.Textbox(lines=12, label="Input Text"),
     outputs=gr.Textbox(label="Summary"),
+    title="⚙️ ONNX T5 Summarizer (CPU-Optimized)",
+    description="Fast and optimized ONNX model for summarization on CPU. No quantization warnings or deprecated cache used."
 )
 if __name__ == "__main__":