Spaces:

versus666
/

ml_message_moderation

Runtime error

App Files Files Community

HardWorkingStation commited on Aug 18, 2022

Commit

22169da

0 Parent(s):

Initial commit

Browse files

Files changed (18) hide show

.gitattributes +2 -0
.github/workflows/main.yaml +30 -0
.gitignore +135 -0
README.md +11 -0
data/catboost_preds.csv +3 -0
data/data.csv +3 -0
data/features_emb.csv +3 -0
data/tf_idf_vocab.csv +3 -0
images/idf_formula.jpg +0 -0
images/re.jpeg +0 -0
images/tf_formula.jpg +0 -0
images/tf_idf_formula.jpg +0 -0
requirements.txt +117 -0
src/app.py +377 -0
src/model/catboost.cbm +3 -0
src/model/tf_idf.pk +3 -0
src/model/tf_idf_catboost.cbm +3 -0
src/tools.py +142 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ data/* filter=lfs diff=lfs merge=lfs -text
2	+ src/model/* filter=lfs diff=lfs merge=lfs -text

.github/workflows/main.yaml ADDED Viewed

	@@ -0,0 +1,30 @@

+name: Sync to HuggingFace hub
+on:
+  push:
+    branches: [main]
+  pull_request:
+    branches: [main]
+      # to run this workflows manually from the Actions tab
+  workflow_dispatch:
+jobs:
+  check_files:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Check large files
+        uses: ActionsDesk/lfs-warning@v2.0
+        with:
+          filesizelimit: 10485760 # this is 10MB so we can sync to HF Spaces
+  sync-to-hub:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v2
+        with:
+          fetch-depth: 0
+      - name: Push to hub
+        env:
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+        run: git lfs fetch --all && git push --force https://HF_USERNAME:$HF_TOKEN@huggingface.co/spaces/versus666/ml_message_moderation main
+    needs: check_files

.gitignore ADDED Viewed

	@@ -0,0 +1,135 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Service
+venv
+original_data
+catboost_info
+test
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+pip-wheel-metadata/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+.python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/

README.md ADDED Viewed

	@@ -0,0 +1,11 @@

+---
+title: ML message moderation
+emoji: 🤳 📨 → ✅
+colorFrom: indigo
+colorTo: red
+sdk: streamlit
+sdk_version: 1.10.0
+python_version: 3.9
+app_file: src/app.py
+pinned: false
+---

data/catboost_preds.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8110fe3b1a51cfa0a58395ef1e820442155210b11e75d9031638d04a1acf821e
+size 9003

data/data.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca00668aaf1f8e1e3b78f77ab09c770be082665a4730a24a152cf73f9c84eef5
+size 3318792

data/features_emb.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2dad8888db5bfa4f3365a0d567c7fe0e94b404a7a3b5958f0d7a6de1d550a5b
+size 25755653

data/tf_idf_vocab.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff9f91761bd164059e2c3b502e827ca93266761d500245ca0e2392e012c336ee
+size 30119044

images/idf_formula.jpg ADDED Viewed

images/re.jpeg ADDED Viewed

images/tf_formula.jpg ADDED Viewed

images/tf_idf_formula.jpg ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,117 @@

+altair==4.2.0
+argon2-cffi==21.3.0
+argon2-cffi-bindings==21.2.0
+asttokens==2.0.8
+attrs==22.1.0
+backcall==0.2.0
+beautifulsoup4==4.11.1
+bleach==5.0.1
+blinker==1.5
+cachetools==5.2.0
+catboost==1.0.6
+certifi==2022.6.15
+cffi==1.15.1
+charset-normalizer==2.1.0
+click==8.1.3
+colorama==0.4.5
+commonmark==0.9.1
+cycler==0.11.0
+debugpy==1.6.2
+decorator==5.1.1
+defusedxml==0.7.1
+entrypoints==0.4
+executing==0.10.0
+fastjsonschema==2.16.1
+filelock==3.8.0
+fonttools==4.34.4
+gitdb==4.0.9
+GitPython==3.1.27
+graphviz==0.20.1
+huggingface-hub==0.8.1
+idna==3.3
+importlib-metadata==4.12.0
+ipykernel==6.15.1
+ipython==8.4.0
+ipython-genutils==0.2.0
+ipywidgets==7.7.1
+jedi==0.18.1
+Jinja2==3.1.2
+joblib==1.1.0
+jsonschema==4.9.1
+jupyter-client==7.3.4
+jupyter-core==4.11.1
+jupyterlab-pygments==0.2.2
+jupyterlab-widgets==1.1.1
+kiwisolver==1.4.4
+lxml==4.9.1
+MarkupSafe==2.1.1
+matplotlib==3.5.3
+matplotlib-inline==0.1.3
+mistune==0.8.4
+nbclient==0.6.6
+nbconvert==6.5.3
+nbformat==5.4.0
+nest-asyncio==1.5.5
+nltk==3.7
+notebook==6.4.12
+numpy==1.23.2
+packaging==21.3
+pandas==1.4.3
+pandocfilters==1.5.0
+parso==0.8.3
+pickleshare==0.7.5
+Pillow==9.2.0
+plotly==5.10.0
+prometheus-client==0.14.1
+prompt-toolkit==3.0.30
+protobuf==3.20.1
+psutil==5.9.1
+pure-eval==0.2.2
+pyarrow==9.0.0
+pycparser==2.21
+pydeck==0.7.1
+Pygments==2.12.0
+Pympler==1.0.1
+pyparsing==3.0.9
+pyrsistent==0.18.1
+python-dateutil==2.8.2
+pytz==2022.2.1
+pytz-deprecation-shim==0.1.0.post0
+pywin32==304
+pywinpty==2.0.7
+PyYAML==6.0
+pyzmq==23.2.1
+regex==2022.7.25
+requests==2.28.1
+rich==12.5.1
+scikit-learn==1.1.2
+scipy==1.9.0
+semver==2.13.0
+Send2Trash==1.8.0
+six==1.16.0
+smmap==5.0.0
+soupsieve==2.3.2.post1
+stack-data==0.4.0
+streamlit==1.12.0
+tenacity==8.0.1
+terminado==0.15.0
+threadpoolctl==3.1.0
+tinycss2==1.1.1
+tokenizers==0.12.1
+toml==0.10.2
+toolz==0.12.0
+torch==1.12.1
+tornado==6.2
+tqdm==4.64.0
+traitlets==5.3.0
+transformers==4.21.1
+typing_extensions==4.3.0
+tzdata==2022.2
+tzlocal==4.2
+urllib3==1.26.11
+validators==0.20.0
+watchdog==2.1.9
+wcwidth==0.2.5
+webencodings==0.5.1
+widgetsnbextension==3.6.1
+zipp==3.8.1

src/app.py ADDED Viewed

	@@ -0,0 +1,377 @@

+import streamlit as st
+import tools
+st.title('Message moderation lab')
+st.write(
+	"""
+	Термин «модерация» происходит от латинского «moderor», что значит «умерять, сдерживать».
+	Суть задачи модерации состоит в контроле за выполнением законов, правил, требований и ограничений в
+	любых сообществах и сервисах — будь то простое общение в социальных сетях или деловые переговоры на онлайн площадке.
+	Автоматические системы модерации внедряются в веб-сервисы и приложения, где необходимо обрабатывать большое
+	количество сообщений пользователей. Такие системы позволяют сократить издержки на ручную модерацию, ускорить её и
+	обрабатывать все сообщения пользователей в real-time.
+	Со временем пользователи подстраиваются и учатся обманывать такие системы, например пользователи:
+	- генерируют опечатки: you are stupit asswhol, fack u
+	- заменяют буквенные символы на цифры, похожие по описанию: n1gga, b0ll0cks,
+	-  вставляют дополнительные пробелы: i d i o t,
+	- удаляют пробелы между словами: dieyoustupid
+	- указывают контактные данные: восем-906-три единицы-два раза по две единицы
+	и многое другое.
+	Для того, чтобы обучить классификатор устойчивый к таким подменам, нужно поступить так, как поступают пользователи:
+	сгенерировать такие же изменения в сообщениях и добавить их в обучающую выборку к основным данным.
+	В целом, эта борьба неизбежна: пользователи всегда будут пытаться находить уязвимости и хаки,
+	а модераторы реализовывать новые алгоритмы.
+	В примере ниже можно ознакомиться с работой разных алгоритмов по выявлению наличия контактных данных в сообщениях
+	пользователей. Это актуально в первую очередь для торговых площадок и других онлайн площадок по продаже и
+	рекомендации товаров и услуг. Актуально это потому, что пользователи не всегда желают платить комиссию за работу
+	сервиса и пытаются осуществлять сделки напрямую, минуя сервис.
+	В данном примере сообщения пользователей подвергаются проверке тремя алгоритмами по поиску контактных данных:
+	 - регулярные выражения (regex)
+	 - TF-IDF, на основе частотности слов
+	 - нейросеть BERT
+	1. Регулярные выражения
+	Регулярные выражения представляют собой похожий, но гораздо более сильный инструмент для поиска строк, проверки их
+	на соответствие какому-либо шаблону и другой подобной работы. Англоязычное название этого
+	инструмента — Regular Expressions или просто RegExp.
+	"""
+)
+with st.expander(
+	label='Блок теории про регулярные выражения'
+):
+	st.write(
+		"""
+		В самом общем смысле регулярные выражения — это последовательности символов для поиска соответствий шаблону.
+		Они являются экземплярами регулярного языка и широко применяются для парсинга текста или валидации входных строк.
+		Представьте лист картона, в котором вырезаны определенные фигуры. И только фигуры, точно соответствующие вырезам,
+		смогут через них пройти. В данном случае лист картона аналогичен строке регулярного выражения.
+		"""
+	)
+	st.image(
+		image='images/re.jpeg',
+		caption='Суть работы регулярных выражений',
+		use_column_width=True
+	)
+	st.write(
+		"""
+		Несколько случаев применения регулярных выражений:
+		- парсинг входных данных, например текста, логов, веб-информации и т.д.;
+		- валидация пользовательского ввода;
+		- тестирование результатов вывода;
+		- точный поиск текста;
+		- реструктуризация данных.
+		Регулярные выражения отлично подходят, когда есть четкий формат и структура данных. В нашем же случае пользователям
+		легко будет обмануть систему модерации сообщений, если она будет построена только на регулярных выражениях.
+		Нужно что-то посложнее.
+		"""
+	)
+st.write(
+	"""
+	2. TF-IDF (TF — term frequency, IDF — inverse document frequency).
+	Мера TF-IDF является произведением двух сомножителей TF и IDF.
+	TF - частота слова - отношение числа вхождений некоторого слова к общему числу слов документа.
+	Таким образом, оценивается важность слова в пределах отдельного документа.
+	IDF - обратная частота документа - инверсия частоты, с которой некоторое слово встречается в документах коллекции.
+	Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции
+	документов существует только одно значение IDF.
+	"""
+)
+with st.expander(
+	label='Блок теории про TF-IDF'
+):
+	st.image(
+		image='images/tf_idf_formula.jpg',
+		caption='Формула TF-IDF',
+		use_column_width=True
+	)
+	st.write(
+		"""
+		TF рассчитывается по следующей формуле:
+		"""
+	)
+	st.image(
+		image='images/tf_formula.jpg'
+	)
+	st.write(
+		"""
+		где t (от англ. term) — количество употребления слова, а n — общее число слов в тексте.
+		"""
+	)
+	st.image(
+		image='images/idf_formula.jpg'
+	)
+	st.write(
+		"""
+		где D - общее число текстов в корпусе, d - количество текстов, в которых это слово встречается.
+		IDF нужна в формуле, чтобы уменьшить вес слов, наиболее распространённых в любом другом тексте заданного корпуса.
+		"""
+	)
+	st.write(
+		"""
+		TF-IDF оценивает значимость слова в документе, на основе данных о всей коллекции документов. Данная мера
+		определяет вес слова за величину пропорциональную частоте его вхождения в документ и обратно пропорциональную
+		частоте его вхождения во всех документах коллекции.
+		Большая величина TF-IDF говорит об уникальности слова в тексте по отношению к корпусу.
+		Чем чаще оно встречается в конкретном тексте и реже в остальных, тем выше значение TF-IDF.
+		"""
+	)
+st.write(
+	"""
+	3. Нейросеть BERT.
+	BERT — это нейронная сеть от Google, показавшая с большим отрывом state-of-the-art результаты на целом ряде задач.
+	С помощью BERT можно создавать программы с ИИ для обработки естественного языка: отвечать на вопросы, заданные
+	в произвольной форме, создавать чат-ботов, автоматические переводчики, анализировать текст и так далее.
+	"""
+)
+with st.expander(
+	label='Блок теории про BERT'
+):
+	st.write(
+		"""
+		Чтобы подавать на вход нейронной сети текст, нужно его как-то представить в виде чисел. Проще всего это делать
+		побуквенно, подавая на каждый вход нейросети по одной букве. Тогда каждая букв�� будет кодироваться числом
+		от 0 до 32 (плюс какой-то запас на знаки препинания). Это так называемый character-level.
+		Но гораздо лучше результаты получаются, если мы предложения будем представлять не по одной букве, а подавая на
+		каждый вход нейросети сразу по целому слову (или хотя бы слогами). Это уже будет word-level. Самый простой
+		вариант — составить словарь со всеми существующими словами, и скармливать сети номер слова в этом словаре.
+		Например, если слово "собака" стоит в этом словаре на 1678 месте, то на вход нейросети для этого слова
+		подаем число 1678.
+		Вот только в естественном языке при слове "собака" у человека всплывает сразу множество
+		ассоциаций: "пушистая", "злая", "друг человека". Нельзя ли как-то закодировать эту особенность нашего мышления
+		в представлении для нейросети? Оказывается, можно. Для этого достаточно так пересортировать номера слов, чтобы
+		близкие по смыслу слова стояли рядом. Пусть будет, например, для "собака" число 1678, а для слова "пушистая"
+		число 1680. А для слова "чайник" число 9000. Как видите, цифры 1678 и 1680 находятся намного ближе друг к другу,
+		чем цифра 9000.
+		На практике, каждому слову назначают не одно число, а несколько — вектор, скажем, из 32 чисел. И расстояния
+		измеряют как расстояния между точками, на которые указывают эти вектора в пространстве соответствущей
+		размерности (для вектора длиной в 32 числа, это пространство с 32 размерностями, или с 32 осями).
+		Это позволяет сопоставлять одному слову сразу несколько близких по смыслу слов (смотря по какой оси считать).
+		Более того, с векторами можно производить арифметические операции. Классический пример: если из вектора,
+		обозначающего слово "король", вычесть вектор "мужчина" и прибавить вектор для слова "женщина", то получится
+		некий вектор-результат. И он чудесным образом будет соответствовать слову "королева". И действительно,
+		"король — мужчина + женщина = королева". Магия! И это не абстрактный пример, а
+		[реально так происходит](https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/). Учитывая,
+		что нейронные сети хорошо приспособлены для математических преобразований над своими входами, видимо это и
+		обеспечивает такую высокую эффективность этого метода.
+		Идея в основе BERT лежит очень простая: давайте на вход нейросети будем подавать фразы, в которых 15% слов
+		заменим на [MASK], и обучим нейронную сеть предсказывать эти закрытые маской слова.
+		Например, если подаем на вход нейросети фразу "Я пришел в [MASK] и купил [MASK]", она должна на выходе показать
+		слова "магазин" и "молоко". Это упрощенный пример с официальной страницы BERT, на более длинных предложениях
+		разброс возможных вариантов становится меньше, а ответ нейросети однозначнее.
+		А для того, чтобы нейросеть научилась понимать соотношения между разными предложениями, дополнительно обучим
+		ее предсказывать, является ли вторая фраза логичным продолжением первой. Или это какая-то случайная фраза, не
+		имеющая никакого отношения к первой.
+		Так, для двух предложений: "Я пошел в магазин." и "И купил там молоко.", нейросеть должна ответить,
+		что это логично. А если вторая фраза будет "Карась небо Плутон", то должна ответить, что это предложение никак
+		не связано с первым. Ниже мы поиграемся с обоими этими режимами работы BERT.
+		Обучив таким образом нейронную сеть на корпусе текстов из Wikipedia и сборнике книг BookCorpus
+		в течении 4 дней на 16 TPU, получили BERT.
+		"""
+	)
+if st.checkbox('Сгенерировать рандомное сообщение'):
+	user_text = st.text_area(
+		label='Введите сообщение',
+		height=200,
+		value=tools.get_random_message(),
+		help='Попробуйте указать ссылки на vk, twich, twitter и др. каналы связи а также почту')
+else:
+	user_text = st.text_area(
+		label='Введите сообщение',
+		height=200,
+		help='Попробуйте указать ссылки на vk, twich, twitter и др. каналы связи а также почту'
+	)
+with st.expander(
+	label='Показать примеры сообщений со скрытыми контактными данными'
+):
+	st.write(
+		"""
+		Ма8ш9и9н9а6 в 0хо0ро4ш4е2м9 состоянии
+		Новый велосипед Работает всё Звонить на 8 девятьсот восемь 1976829
+		Беспроводная точка доступа маршрутизатор Моя Почта xopkin317 mailru
+		My Отличный телефон TW практически новый ich хороший экран, без трещин lork не падал ing92
+		"""
+	)
+re_res = tools.get_re_pred(user_text)
+if 'Есть контактная информация' in re_res:
+	st.success(f'Regex: {re_res}')
+else:
+	st.error(f'Regex : {re_res}')
+tf_idf_res = tools.get_tf_idf_pred(user_text)
+if 'Есть контактная информация' in tf_idf_res:
+	st.success(f'TF_IDF: {tf_idf_res}')
+else:
+	st.error(f'TF_IDF: {tf_idf_res}')
+bert_res = tools.get_bert_prediction(user_text)
+if 'Есть контактная информация' in bert_res:
+	st.success(f'BERT: {bert_res}')
+else:
+	st.error(f'BERT: {bert_res}')
+with st.form(key='quiz'):
+	right_answers_count = 0
+	st.write('QUIZ')
+	answer = st.radio(
+		label='Что такое регулярные выражения?',
+		options=[
+			'Модель машинного обучения',
+			'Аналог TF-IDF',
+			'Инструмент проверки строк на соответствие какому-либо шаблону',
+			'Инструмент для классификации сообщений пользователя',
+			'Выражения, которые регулярно используются разработчиками',
+			'WEB фреймворк',
+		]
+	)
+	if answer == 'Инструмент проверки строк на соответствие какому-либо шаблону':
+		right_answers_count += 1
+	answer = st.radio(
+		label='Как пользователи обходят правила модерации сервиса?',
+		options=[
+			'Пишут в поддержку',
+			'Изменяют сообщения, маскируя запрещенный контент',
+			'Записывают голосовые сообщения',
+			'Пользуются другими сервисами, без модерации'
+		]
+	)
+	if answer == 'Изменяют сообщения, маскируя запрещенный контент':
+		right_answers_count += 1
+	answer = st.radio(
+		label='Что такое TF-IDF?',
+		options=[
+			'Вид регулярных выражения',
+			'Система модерации текстовых сообщений',
+			'Запчасть автомобиля',
+			'Мера оценки значимости слова в документе',
+			'Модель машинного обучения',
+			'Корпус текстов',
+		]
+	)
+	if answer == 'Мера оценки значимости слова в документе':
+		right_answers_count += 1
+	answer = st.radio(
+		label='Что оценивает TF-IDF?',
+		options=[
+			'Нужно ли отправлять сообщение на модерацию или нет',
+			'Значимость слова в документе',
+			'Частоту слова',
+			'Обратную частоту слова в документе'
+		]
+	)
+	if answer == 'Значимость слова в документе':
+		right_answers_count += 1
+	answer = st.radio(
+		label='Что такое BERT?',
+		options=[
+			'Персонаж из мультика "Улица Сезам"',
+			'Нейронная сеть от Google',
+			'Система модерации сообщений',
+			'Система оценки соответствия сообщений правилам организации и законам',
+			'Вид регулярных выражений'
+		]
+	)
+	if answer == 'Нейронная сеть от Google':
+		right_answers_count += 1
+	answer = st.radio(
+		label='Как обучается BERT?',
+		options=[
+			'На GPU',
+			'Никак, Google уже обучила ее, нам остается только пользоваться готовой',
+			'Маскируя 15% слов символом [MASK] и пытаясь предсказать спрятанные слова'
+		]
+	)
+	if answer == 'Маскируя 15% слов символом [MASK] и пытаясь предсказать спрятанные слова':
+		right_answers_count += 1
+	answer = st.radio(
+		label='В каком виде подается информация на вход нейросети BERT?',
+		options=[
+			'Как есть без изменений',
+			'В виде векторов с числами, обозначающими целевое слово и близких к нему по смыслу из словаря',
+			'В виде сконкатенированных строк всего обучающего датасета',
+			'В виде списка текстов'
+		]
+	)
+	if answer == 'В виде векторов с числами, обозначающими целевое слово и близких к нему по смыслу из словаря':
+		right_answers_count += 1
+	answer = st.radio(
+		label='BERT учитывает контекст в предложениях?',
+		options=[
+			'Нет',
+			'Да'
+		]
+	)
+	if answer == 'Да':
+		right_answers_count += 1
+	res = st.form_submit_button()
+if res:
+	st.info(f'Количество правильных ответов {right_answers_count} из 8.')
+	if right_answers_count <= 6:
+		st.warning('Для прохождения блока необходимо правильно ответить хотя бы на 7 вопросов.')
+	else:
+		st.success('Отлично! Блок пройден.')

src/model/catboost.cbm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61965d81b3fd4a75cdd6d1b1fdbfbd65b8f4b8d6466c483012ff40a357ef56d2
+size 20983520

src/model/tf_idf.pk ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35f46199019d8dbd3f5473b65e359db42c206b41f5c8f1dc22b36aff7cbc831b
+size 38728470

src/model/tf_idf_catboost.cbm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a457ea9813775fde8c96540bb418b6aa749e00819afcc14c7331974f6756fa93
+size 13968080

src/tools.py ADDED Viewed

	@@ -0,0 +1,142 @@

+import os
+import pickle
+import re
+import string
+import streamlit as st
+import numpy as np
+import pandas as pd
+import catboost
+import torch
+from transformers import AutoTokenizer, AutoModel
+from sklearn.feature_extraction.text import TfidfVectorizer
+import nltk
+from nltk import WordNetLemmatizer
+def check_nltk():
+	for path in nltk.data.path:
+		try:
+			if len(os.listdir(path)) > 0:
+				return
+		except:
+			continue
+	nltk.download("omw-1.4")
+	nltk.download("wordnet")
+with st.spinner('🌀 Загружаю данные...'):
+	check_nltk()
+	data = pd.read_csv('data/data.csv')
+	embeddings = pd.read_csv('data/features_emb.csv')
+	preds = pd.read_csv('data/catboost_preds.csv')
+	catboost_bert_model = catboost.CatBoostClassifier(random_state=25).load_model('src/model/catboost.cbm')
+	catboost_tf_idf_model = catboost.CatBoostClassifier(random_state=25).load_model('src/model/tf_idf_catboost.cbm')
+	bert_tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased-conversational")
+	bert_model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased-conversational")
+	tf_idf_vocab = pd.read_csv('data/tf_idf_vocab.csv', index_col='Unnamed: 0')
+def get_random_message() -> str:
+	return data.sample(1)['description'].values[0]
+def get_bert_prediction(
+	text: str
+) -> str:
+	res_mapper = {
+		0: 'Контактная информация отсутствует',
+		1: 'Есть контактная информация'
+	}
+	tokens = bert_tokenizer.encode(
+		text,
+		add_special_tokens=True,
+		truncation=True,
+		max_length=512
+	)
+	n = 512  # max длина вектора
+	padded = torch.LongTensor(
+		[
+			np.array(tokens + [0] * (n - len(tokens)))
+		]
+	)
+	attention_mask = torch.LongTensor(
+		np.where(
+			padded != 0, 1, 0
+		)
+	)
+	with torch.no_grad():
+		batch_embeddings = bert_model(padded, attention_mask=attention_mask)[0][:, 0, :].numpy()
+	return res_mapper.get(int(catboost_bert_model.predict(batch_embeddings)))
+def get_tf_idf_pred(text: str) -> str:
+	res_mapper = {
+		0: 'Контактная информация отсутствует',
+		1: 'Есть контактная информация'
+	}
+	if len(text) == 0:
+		return res_mapper.get(0)
+	def remove_symbols(data):
+		return re.sub('[/*,;-]', '', data)
+	def remove_punc(data):
+		trans = str.maketrans('', '', string.punctuation)
+		return data.translate(trans)
+	def white_space(data):
+		return ' '.join(data.split())
+	def lemmatization(data):
+		return ' '.join([WordNetLemmatizer().lemmatize(word) for word in data.split()])
+	def complete_noise(data):
+		new_data = remove_symbols(data)
+		new_data = remove_punc(new_data)
+		new_data = white_space(new_data)
+		new_data = lemmatization(new_data)
+		return new_data
+	text = complete_noise(text)
+	with open('src/model/tf_idf.pk', 'rb') as fin:
+		tf_idf = pickle.load(fin)
+	tf_idf.vocabulary_ = tf_idf_vocab.to_dict()['0']
+	# tf_idf_new = TfidfVectorizer(ngram_range=(1, 5), vocabulary=tf_idf_vocab.to_dict()['0'])
+	# st.write(tf_idf.get_params())
+	bag_of_words = tf_idf.transform([text])
+	try:
+		return res_mapper.get(int(catboost_tf_idf_model.predict(bag_of_words)))
+	except:
+		return 'В сообщении встречаются слова, отсутствующие в вокабуляре TF-IDF.'
+def get_re_pred(text: str) -> str:
+	url_pattern = re.compile(r'\b((?:https?://)?(?:(?:www\.)?(?:[\da-z\.-]+)\.(?:[a-z]{2,6})|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)|(?:(?:[0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,7}:|(?:[0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|(?:[0-9a-fA-F]{1,4}:){1,5}(?::[0-9a-fA-F]{1,4}){1,2}|(?:[0-9a-fA-F]{1,4}:){1,4}(?::[0-9a-fA-F]{1,4}){1,3}|(?:[0-9a-fA-F]{1,4}:){1,3}(?::[0-9a-fA-F]{1,4}){1,4}|(?:[0-9a-fA-F]{1,4}:){1,2}(?::[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:(?:(?::[0-9a-fA-F]{1,4}){1,6})|:(?:(?::[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(?::[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(?:ffff(?::0{1,4}){0,1}:){0,1}(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])|(?:[0-9a-fA-F]{1,4}:){1,4}:(?:(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])\.){3,3}(?:25[0-5]|(?:2[0-4]|1{0,1}[0-9]){0,1}[0-9])))(?::[0-9]{1,4}|[1-5][0-9]{4}|6[0-4][0-9]{3}|65[0-4][0-9]{2}|655[0-2][0-9]|6553[0-5])?(?:/[\w\.-]*)*/?)\b')
+	phone_pattern = re.compile(r'(\d{3}[-\.\s]??\d{3}[-\.\s]??\d{4}|\(\d{3}\)\s*\d{3}[-\.\s]??\d{4}|\d{3}[-\.\s]??\d{4})')
+	if len(re.findall(url_pattern, text)) > 0:
+		return 'Есть контактная информация (url)'
+	elif len(re.findall(r'[\w\.-]+@[\w\.-]+(\.[\w]+)+', text)) > 0:
+		return 'Есть контактная информация (mail)'
+	elif len(re.findall(phone_pattern, text)) > 0:
+		return 'Есть контактная информация (phone)'
+	else:
+		return 'Контактная информация отсутствует'