VTB-Data-Fusion-Goodsification

Receipt classification competition

Private:19/265

Команда Students:

Сивцов Данил

Тыцкий Владислав

Доразметка

Обучаем базовый SVM на tf-idf char-wb и предсказываем уникальные item_name из неразмеченных данных
Мерджим по итем нейму в таблицу(это существенно ускоряет доразметку)
Т.к. мы используем категориальные и числовые фичи, а агрегация доразмеченного датасета на для каждого уникального item_name заняла бы вечность мы сеплируем из датасета случайно N объектов и агрегируем фичи только по ним

Построение алгоритма классификации

Архитектура

Псевдолейблинг

Обучаем tfidf charwb + svm
Исключаем классы, которые svm очень плохо различает (71,84,204,79,83)
Берем метки с уверенностью больше 0.75
Произвольно выбираем из оставшихся 15000 и добаляем к изначальному датасету

Была также выделена небольшая валидационная выборка для тестирования доразметки. После подбора параметров стекинг обучался на всех данных

Далее работаем с полученными доразмеченными данными

Базовые модели

tfidf charwb + calibrated svm
Numerical & categorical features + lgb
tfidf char + naive bayes

Взята часть категориальных фичей из публичного решения exotol create_features_part_2()

Стекинг - predict proba + svm

Что не сработало:

KNN фичи на tfidf -> lgb (хотя в аналогичном соревновании от Яндекс они улучшили модель)
Стекинг бустингом. Как на классах, так и на вероятностях
Добавление нелинейности для модели стекинга(SVM). Пытались использовать RBF ядро и RFF.
Стекинг моделей с различным tfidf: charwb и word
Увеличение и уменьшение порога доразметки и количество добавляемых элементов
Агрегация фич по чекам (в соревновании Яндекса это улучшило скор)
Разделение camel case чеков, добавление к исходному названию склееного название чеков (для нас это оказалось странным, но паблик падал на пару тысячных, решили убрать)

Что мы не успели попробовать/догадаться

Использовать fastText
Семплировать с различными сидами и усреднять несколько стекингов

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
README.md		README.md
add_markup.ipynb		add_markup.ipynb
solution.ipynb		solution.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VTB-Data-Fusion-Goodsification

Команда Students:

Доразметка

Построение алгоритма классификации

Архитектура

Псевдолейблинг

Далее работаем с полученными доразмеченными данными

Базовые модели

Стекинг - predict proba + svm

Что не сработало:

Что мы не успели попробовать/догадаться

About

Releases

Packages

Languages

svtdanny/VTB-Data-Fusion-Goodsification

Folders and files

Latest commit

History

Repository files navigation

VTB-Data-Fusion-Goodsification

Команда Students:

Доразметка

Построение алгоритма классификации

Архитектура

Псевдолейблинг

Далее работаем с полученными доразмеченными данными

Базовые модели

Стекинг - predict proba + svm

Что не сработало:

Что мы не успели попробовать/догадаться

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages