Page 1 of 4

Пропадание трафика на интерфейсах

Posted: 17 May 2017, 11:52
by morfey
Отчаянья пост)
Может немного и не туда.
Вот не сколько месяцев не могу уловит проблему. Пару раз в день пропадает трафик на нескольком минут, в разное время. Просто все замирает и ходят только арп запросы.

Использую accel-ipoe с freeradius rlm_python. Проблема только там где стоит OLT BDCOM (PON).
На агрегации стоит Dlink DGS-3120. Он пакует QinQ вланы.
Тоесть например. Если в длинк включен узел с OLT или просто напрямую OLT, то проблема появляется на всех устройствах которые подключены к данному S-vlan на порту. Там где нет OLTов, проблем тоже нет. Уже от фонаря пробовал на свичах включать/отключать dhcp-snooping, arp-inspection ip verify source, фильтры dhcp и т.д. Никакой реакции.
Может олты посылают какие-то кривые пакеты?

Схемку с проведением теста для наглядности прилепил. Для теста назначил статический IP(10.0.0.2) на ноуте и БРАСе (bond0.264.1256, 10.0.0.1).
Так же, на втором сервере создал такой же интерфейс(eth0.264.1256, 10.0.0.3). Через БРАС траф пропал, со 2 сервером все работало. От чего может пропадать траф? Проц, память, conntrack таблица в норме.

BRAS - Debian 8
тюнинг https://pastebin.com/afrhkNUQ (rp_filter уже отключен, ядерный proxy_arp тоже отключен)
accel - https://pastebin.com/JKadUuCN
freeradius - https://pastebin.com/TaGAVkgy

accel-ppp version 904bc0f9eefffff153282277ea21729f46c1489d
FreeRadius 3.0.11 (git #1bb37e8)

Из логов радиуса есть только одна ругань:

Code: Select all

Wed May 17 14:26:03 2017 : Error: Received conflicting packet from client 127.0.0.1 port 60187 - ID: 21 due to unfinished request.  Giving up on old request.
Wed May 17 14:26:03 2017 : WARNING: (2557959) WARNING: Module rlm_python became unblocked for request 2557959

На брасе ~3000 accel сессий в пике. Количество сессий никак не влияет на падения.

Дамп при пропадании трафа с обеих сторон (БРАС и ноут) - http://khobta.com/dump.zip (С 20:05 упало. Но часовая метка в дампе 17:05 почему-то.)

Куда еще можно копнуть для выявления проблемы? Предоставлю любую инфу, нужен свежий взгляд)
Спасибо

Re: Пропадание трафика на интерфейсах

Posted: 30 May 2017, 09:05
by morfey
Somebody)

Re: Пропадание трафика на интерфейсах

Posted: 30 May 2017, 16:33
by dimka88
Предлагаю еще немного увеличить

Code: Select all

net.ipv4.neigh.default.gc_thresh1 = 12288
net.ipv4.neigh.default.gc_thresh2 = 13312
net.ipv4.neigh.default.gc_thresh3 = 14336
В дампе не понял, откуда столько лишних arp летит к пользователю...

Re: Пропадание трафика на интерфейсах

Posted: 30 May 2017, 16:47
by dimka88
Я все же склоняюсь к багу у DBCOM, сервер перестает получать arp от клиента, но клиент передает, это судя по дампу. У DBCOM были проблемы c ARP но мне такие не попадались, думаю стоит попытаться позадалбывать сапорт BDCOM.

Re: Пропадание трафика на интерфейсах

Posted: 31 May 2017, 09:50
by morfey
Значения увеличил. Клиент находился еще и во влане управления оборудования, чтобы постоянно доступ был, оттуда может и прелетело.

Как тогда пояснить тест при котором пинг шел на дополнительном сервере и отвалился на БРАСе ?
В представителей БДКОМа только руками развели. Сказали проблема не у них скорее всего..

Re: Пропадание трафика на интерфейсах

Posted: 31 May 2017, 13:43
by morfey
Ну и плюс странность, если на узле включен например ОЛТ , то юзеры с этого узла тоже потерпают, не только на олте(при том что каждый юзер в своем влане). Все кто входит в QinQ vlan этого узла.
Мож это длинк дропает.. Я не пойму

Re: Пропадание трафика на интерфейсах

Posted: 01 Jun 2017, 09:10
by morfey
Еще заметил на одном клиенте. Сниферил tcpdump'om. Когда пропал траф, dhcp проходило. Т.е. по ходу блочит tcp трафик. Мистика..

Re: Пропадание трафика на интерфейсах

Posted: 01 Jun 2017, 09:53
by dimka88
А кто его там может блочить? Тут я думаю что то с АРП. На железяках нет там всяких броадкаст и юникаст защит? Еще бы попробовать статикой ARP назначить на BRAS и клиенту и пару суток помониторить.
Увеличение лимитов не повлияло никак?

Re: Пропадание трафика на интерфейсах

Posted: 01 Jun 2017, 10:59
by morfey
Хз кто может блочит. Уже все включал и отключал)
Статикой в смысле arp -s IP HW ?

Re: Пропадание трафика на интерфейсах

Posted: 01 Jun 2017, 11:18
by dimka88
угу, можно деже попробовать в обход accel, просто влан поднять который не указан в регулярке interface=re:bond0\.2[0-9][0-9]\.[1-2][0-9][0-9][0-9]$, то есть bond0.264.3000