Spaces:

Shankarm08
/

pdfcsvdatarag

Sleeping

Shankarm08 commited on Oct 6, 2024

Commit

2ceb5b6

verified ·

1 Parent(s): b80a1ef

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,22 +4,22 @@ from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
 import pandas as pd
 import pdfplumber
-# Initialize RAG components
 tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
-retriever = RagRetriever.from_pretrained("facebook/wiki_dpr", use_dummy_dataset=True)  # Correct usage of dataset
 model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever)
-# Extract text from PDF
 def extract_text_from_pdf(pdf_file):
     with pdfplumber.open(pdf_file) as pdf:
-        text = ""
         for page in pdf.pages:
             page_text = page.extract_text()
             if page_text:
                 text += page_text + "\n"
     return text.strip()
-# Streamlit UI
 st.title("RAG-Powered PDF & CSV Chatbot")
 # CSV file upload

 import pandas as pd
 import pdfplumber
+# Load the RAG model and tokenizer
 tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
+retriever = RagRetriever.from_pretrained("facebook/wiki_dpr", use_dummy_dataset=True)
 model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever)
+# Function to extract text from a PDF file
 def extract_text_from_pdf(pdf_file):
+    text = ""
     with pdfplumber.open(pdf_file) as pdf:
         for page in pdf.pages:
             page_text = page.extract_text()
             if page_text:
                 text += page_text + "\n"
     return text.strip()
+# Streamlit app
 st.title("RAG-Powered PDF & CSV Chatbot")
 # CSV file upload