Rspamd уже давненько навчився зберігати дані по статистиці між рестартами, і от її накопичилося стільки, що роздивлятися стало цікаво.

Спад чистих листів наприкінці минулого року — це я відписався від об’ємних розсилок GlusterFS і Ceph. Добре видно те, як фільтр навчається — з часом ростуть обсяги листів, які викидаються відразу, а також тих, які грейлістяться чи помічаються як імовірний спам. Для цього, звісно, треба тягати листи з інбокса у каталог для спаму.

Зараз в інбокс пролізає мало що, листи помилково мітиться спамом також дуже рідко. Не уявляю, що б я робив без цієї системи фільтрації.

Тим, хто користується spamassassin для фільтрування спаму (хоча я от планую переповзати на dspam потихеньку), знадобиться такий скрипт для автоматичного навчання:

#!/usr/bin/env bash
IFS=$'\n'
spooldir="/var/spool/virtual"
domains=`ls -1 $spooldir`
for domain in $domains
do
        users=`ls -1 $spooldir/$domain`
        for user in $users
        do
                echo Examining $user@$domain INBOX...
                /usr/bin/sa-learn --no-sync --ham $spooldir/$domain/$user/{cur,new,tmp}

                dirs=`find $spooldir/$domain/$user/ -maxdepth 1 -type d -name '.*'`
                for i in $dirs
                do
                        dir=`basename "$i"`
                        [[ "$dir" == ".Junk" ]] && continue
                        [[ "$dir" == ".Viruses" ]] && continue
                        echo Examining $user@$domain "$dir"...
                        /usr/bin/sa-learn --no-sync --ham $spooldir/$domain/$user/"$dir"/{cur,new,tmp}
                done

                if [[ -d "$spooldir/$domain/$user/.Junk" ]]
                then
                        echo Examining $user@$domain Junk...
                        /usr/bin/sa-learn --no-sync --spam $spooldir/$domain/$user/.Junk/{cur,new,tmp}
                        echo done.
                fi
        done
done

echo Syncing...
/usr/bin/sa-learn --sync
echo done.

Головне — заставити користувачів перший час не лінуватися вручну сортувати спам-не спам.

Після встановлення рекаптчі кількість спаму в каментах знизилася до нуля, що підтверджує те, що це були боти, хоча я десь читав (судячи взагалі з характеру каментів), що це можуть бути найняті люди. Ну або ж людям тепер влом читати каптчу. Аналітика Гугла також показує зниження відвідування до рівномірного рівня, без спамопохідних скачків.

P.S. Все ж, читаю Акуніна.

P.P.S. По ТЕКу заслужене «Це».

Пана Кочергіна з Днем народження!

А ще з Днем народження збірку «Музика серця» в якій я вперше «офіційно» друкуюся. Дуже радий з цього приводу, з нетерпінням чекаю свої замовлені 10 примірників, аби роздати їх бажаючим :).

P. S. Через каментовий спам періодично тут і на сайті з віршами маю закривати для коментування деякі особливо «популярні» записи. Бо задрало вичищати по 30 коментарів з черги.