Spaces:

alinia
/

sec_guard_demo

Running

App Files Files Community

Mike Ferchak commited on Nov 25, 2025

Commit

b500f71

1 Parent(s): 6303c45

pyright and .gitignore

Browse files

Files changed (2) hide show

.gitignore +75 -0
app.py +44 -29

.gitignore ADDED Viewed

	@@ -0,0 +1,75 @@

+# Environment variables and secrets
+.env
+.env.*
+!.env.example
+*.env
+# Claude Code related
+.claude/
+.clauderc
+.claude-*
+claude_*
+.clinerules
+CLAUDE.md
+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# Virtual environments
+venv/
+ENV/
+env/
+.venv
+# IDEs
+.vscode/
+.idea/
+*.swp
+*.swo
+*~
+.DS_Store
+# Jupyter Notebook
+.ipynb_checkpoints
+# pytest
+.pytest_cache/
+.coverage
+htmlcov/
+# Gradio
+flagged/
+gradio_cached_examples/
+# Logs
+*.log
+# Database
+*.db
+*.sqlite
+*.sqlite3
+# Temporary files
+tmp/
+temp/
+*.tmp

app.py CHANGED Viewed

@@ -50,7 +50,7 @@ class ChatBot:
             api_key=os.environ.get("SGLANG_API_KEY"),
         )
         self.alinia_client = httpx.AsyncClient(
-            base_url=os.environ.get("ALINIA_API_URL", "https://api.alinia.ai"),
             headers={"Authorization": f"Bearer {os.environ.get('ALINIA_API_KEY', '')}"},
         )
@@ -133,7 +133,9 @@ def _format_nested_html(data: Any) -> str:
         elif isinstance(value, float):
             score_pct = f"{value * 100:.2f}%"
             color = "red" if value > 0.7 else "orange" if value > 0.3 else "green"
-            html += f'<li>{key_str}: <span style="color: {color};">{score_pct}</span></li>'
         elif isinstance(value, bool):
             html += f"<li>{key_str}: {value}</li>"
         else:
@@ -220,7 +222,7 @@ async def bot_response_fn(
         unguarded_history[-1][1] = "▌"
         messages_for_moderation = [{"role": "user", "content": user_message}]
         # Call v1 moderation if adversarial v1 is enabled
         if security_enabled and adversarial_checkbox:
             moderation_api_response = await chatbot.moderate_chat_history(
@@ -228,7 +230,9 @@ async def bot_response_fn(
             )
             result = moderation_api_response.get("result", {})
             recommendation = moderation_api_response.get("recommendation", {})
-            user_input_blocked = recommendation.get("action") == "block" and block_content
             user_input_moderation_result = ModerationResultData(
                 flagged=result.get("flagged", False),
@@ -247,33 +251,33 @@ async def bot_response_fn(
             # Build detection config for v2 - only adversarial
             detection_config_v2 = {
                 "safety": False,
-                "security": {
-                    "adversarial": adversarial_threshold_2
-                }
             }
             moderation_api_response_v2 = await chatbot.moderate_chat_history(
                 messages_for_moderation, detection_config_v2, model_version="20251105"
             )
             print(f"[DEBUG] V2 User Input Response: {moderation_api_response_v2}")
             result_v2 = moderation_api_response_v2.get("result", {})
             recommendation_v2 = moderation_api_response_v2.get("recommendation", {})
             # Extract adversarial v2 probability from security->adversarial
             v2_probability = 0.0
             category_details_v2 = result_v2.get("category_details", {})
             print(f"[DEBUG] V2 category_details: {category_details_v2}")
             if "security" in category_details_v2:
                 v2_probability = category_details_v2["security"].get("adversarial", 0.0)
                 print(f"[DEBUG] V2 probability extracted: {v2_probability}")
             # Add to categories as adversarial_v2
             if "security" not in user_input_moderation_result.categories:
                 user_input_moderation_result.categories["security"] = {}
-            user_input_moderation_result.categories["security"]["adversarial_v2"] = v2_probability
             # Check if v2 flagged content
             v2_flagged = v2_probability > adversarial_threshold_2
             if v2_flagged or recommendation_v2.get("action") == "block":
@@ -308,8 +312,14 @@ async def bot_response_fn(
         unguarded_text += token
         unguarded_history[-1][1] = unguarded_text
         guarded_history[-1][1] = unguarded_text
-        yield unguarded_history, guarded_history, (
-            moderation_html if moderate_user_input else "<p>Moderating response...</p>"
         )
     # Step 3: Moderate bot response
@@ -317,12 +327,12 @@ async def bot_response_fn(
     if moderate_user_input:
         messages_for_moderation.append({"role": "user", "content": user_message})
     messages_for_moderation.append({"role": "assistant", "content": unguarded_text})
     # Call v1 moderation if adversarial v1 is enabled
     is_blocked = False
     categories = {}
     flagged = False
     if security_enabled and adversarial_checkbox:
         moderation_api_response = await chatbot.moderate_chat_history(
             messages_for_moderation, detection_config
@@ -339,33 +349,31 @@ async def bot_response_fn(
         # Build detection config for v2 - only adversarial
         detection_config_v2 = {
             "safety": False,
-            "security": {
-                "adversarial": adversarial_threshold_2
-            }
         }
         moderation_api_response_v2 = await chatbot.moderate_chat_history(
             messages_for_moderation, detection_config_v2, model_version="20251105"
         )
         print(f"[DEBUG] V2 Bot Response: {moderation_api_response_v2}")
         result_v2 = moderation_api_response_v2.get("result", {})
         recommendation_v2 = moderation_api_response_v2.get("recommendation", {})
         # Extract adversarial v2 probability from security->adversarial
         v2_probability = 0.0
         category_details_v2 = result_v2.get("category_details", {})
         print(f"[DEBUG] V2 category_details: {category_details_v2}")
         if "security" in category_details_v2:
             v2_probability = category_details_v2["security"].get("adversarial", 0.0)
             print(f"[DEBUG] V2 probability extracted: {v2_probability}")
         # Add to categories as adversarial_v2
         if "security" not in categories:
             categories["security"] = {}
         categories["security"]["adversarial_v2"] = v2_probability
         # Check if v2 flagged content
         v2_flagged = v2_probability > adversarial_threshold_2
         if v2_flagged or recommendation_v2.get("action") == "block":
@@ -585,7 +593,12 @@ def create_demo() -> gr.Blocks:
         )
         # Master toggle sync
-        safety_checkboxes = [hate_checkbox, sexual_checkbox, violence_checkbox, wrongdoing_checkbox]
         security_checkboxes = [adversarial_checkbox, adversarial_checkbox_2]
         def sync_subs_to_master(*subs):
@@ -608,7 +621,9 @@ def create_demo() -> gr.Blocks:
             sync_master_to_subs, [safety_enabled, *safety_checkboxes], safety_checkboxes
         )
         security_enabled.change(
-            sync_master_to_subs, [security_enabled, *security_checkboxes], security_checkboxes
         )
     return demo

             api_key=os.environ.get("SGLANG_API_KEY"),
         )
         self.alinia_client = httpx.AsyncClient(
+            base_url=os.environ.get("ALINIA_API_URL", "https://staging.api.alinia.ai"),
             headers={"Authorization": f"Bearer {os.environ.get('ALINIA_API_KEY', '')}"},
         )
         elif isinstance(value, float):
             score_pct = f"{value * 100:.2f}%"
             color = "red" if value > 0.7 else "orange" if value > 0.3 else "green"
+            html += (
+                f'<li>{key_str}: <span style="color: {color};">{score_pct}</span></li>'
+            )
         elif isinstance(value, bool):
             html += f"<li>{key_str}: {value}</li>"
         else:
         unguarded_history[-1][1] = "▌"
         messages_for_moderation = [{"role": "user", "content": user_message}]
         # Call v1 moderation if adversarial v1 is enabled
         if security_enabled and adversarial_checkbox:
             moderation_api_response = await chatbot.moderate_chat_history(
             )
             result = moderation_api_response.get("result", {})
             recommendation = moderation_api_response.get("recommendation", {})
+            user_input_blocked = (
+                recommendation.get("action") == "block" and block_content
+            )
             user_input_moderation_result = ModerationResultData(
                 flagged=result.get("flagged", False),
             # Build detection config for v2 - only adversarial
             detection_config_v2 = {
                 "safety": False,
+                "security": {"adversarial": adversarial_threshold_2},
             }
             moderation_api_response_v2 = await chatbot.moderate_chat_history(
                 messages_for_moderation, detection_config_v2, model_version="20251105"
             )
             print(f"[DEBUG] V2 User Input Response: {moderation_api_response_v2}")
             result_v2 = moderation_api_response_v2.get("result", {})
             recommendation_v2 = moderation_api_response_v2.get("recommendation", {})
             # Extract adversarial v2 probability from security->adversarial
             v2_probability = 0.0
             category_details_v2 = result_v2.get("category_details", {})
             print(f"[DEBUG] V2 category_details: {category_details_v2}")
             if "security" in category_details_v2:
                 v2_probability = category_details_v2["security"].get("adversarial", 0.0)
                 print(f"[DEBUG] V2 probability extracted: {v2_probability}")
             # Add to categories as adversarial_v2
             if "security" not in user_input_moderation_result.categories:
                 user_input_moderation_result.categories["security"] = {}
+            user_input_moderation_result.categories["security"]["adversarial_v2"] = (
+                v2_probability
+            )
             # Check if v2 flagged content
             v2_flagged = v2_probability > adversarial_threshold_2
             if v2_flagged or recommendation_v2.get("action") == "block":
         unguarded_text += token
         unguarded_history[-1][1] = unguarded_text
         guarded_history[-1][1] = unguarded_text
+        yield (
+            unguarded_history,
+            guarded_history,
+            (
+                moderation_html
+                if moderate_user_input
+                else "<p>Moderating response...</p>"
+            ),
         )
     # Step 3: Moderate bot response
     if moderate_user_input:
         messages_for_moderation.append({"role": "user", "content": user_message})
     messages_for_moderation.append({"role": "assistant", "content": unguarded_text})
     # Call v1 moderation if adversarial v1 is enabled
     is_blocked = False
     categories = {}
     flagged = False
     if security_enabled and adversarial_checkbox:
         moderation_api_response = await chatbot.moderate_chat_history(
             messages_for_moderation, detection_config
         # Build detection config for v2 - only adversarial
         detection_config_v2 = {
             "safety": False,
+            "security": {"adversarial": adversarial_threshold_2},
         }
         moderation_api_response_v2 = await chatbot.moderate_chat_history(
             messages_for_moderation, detection_config_v2, model_version="20251105"
         )
         print(f"[DEBUG] V2 Bot Response: {moderation_api_response_v2}")
         result_v2 = moderation_api_response_v2.get("result", {})
         recommendation_v2 = moderation_api_response_v2.get("recommendation", {})
         # Extract adversarial v2 probability from security->adversarial
         v2_probability = 0.0
         category_details_v2 = result_v2.get("category_details", {})
         print(f"[DEBUG] V2 category_details: {category_details_v2}")
         if "security" in category_details_v2:
             v2_probability = category_details_v2["security"].get("adversarial", 0.0)
             print(f"[DEBUG] V2 probability extracted: {v2_probability}")
         # Add to categories as adversarial_v2
         if "security" not in categories:
             categories["security"] = {}
         categories["security"]["adversarial_v2"] = v2_probability
         # Check if v2 flagged content
         v2_flagged = v2_probability > adversarial_threshold_2
         if v2_flagged or recommendation_v2.get("action") == "block":
         )
         # Master toggle sync
+        safety_checkboxes = [
+            hate_checkbox,
+            sexual_checkbox,
+            violence_checkbox,
+            wrongdoing_checkbox,
+        ]
         security_checkboxes = [adversarial_checkbox, adversarial_checkbox_2]
         def sync_subs_to_master(*subs):
             sync_master_to_subs, [safety_enabled, *safety_checkboxes], safety_checkboxes
         )
         security_enabled.change(
+            sync_master_to_subs,
+            [security_enabled, *security_checkboxes],
+            security_checkboxes,
         )
     return demo