Спонтанное отключение всех IPoE интерфейсов

IPoE related questions
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

dimka88 wrote: 07 Jun 2018, 15:55 Accel не отключает!
Хорошо, пусть так. Надеюсь, этим Вы не хотите сказать, что проблема НЕ связана с accel?
dimka88 wrote: 07 Jun 2018, 15:55 По конструктиву, есть возможность поставить карту типа intel 82576 и изменить порт коммутатора?
Теоретически возможно, рейзер с PCI-ex свободен. Практически - нет свободной карты 82576 и приобрести её сейчас несколько проблематично..
А что может быть "не так" с I210? Вообще-то, изначально я тоже с опаской смотрел на эти карточки, стараясь везде использовать 82576,
но вот уже как три сервера с I210, кроме последнего, проблем не приносили.
Может быть всё же есть резон "поиграться" с параметрами, которые я указывал ранее?
Да, ещё один момент забыл озвучить - прерывания сетевых принудительно "приколочены" к ядрам Xeon E3-1220 (4 ядра).
Но думаю, это совсем не имеет значения.

Коммутатор 100% не при делах, т.к. проблема появилась ещё до того, как конкретно он был использован.
Изначально сервер был подключён к совсем другому коммутатору, тот который используется сейчас включён с ним "последовательно",
для того чтобы реализовать работу ACL, вырезающего PPPoE, ipv6 и multicast из трафика, поступающего на сервер.
К сожалению, это не помогло..

P.S. Погуглил насчёт rx-vlan-offload/tx-vlan-offload. Нашёл тут такую рекомендацию-

Code: Select all

Turn off rx-vlan-offload/tx-vlan-offload if your packets are VLAN encapsulated
Отключил. Пока всё тихо. Понаблюдаю..
dimka88
Posts: 866
Joined: 13 Oct 2014, 05:51
Contact:

Re: Спонтанное отключение всех IPoE интерфейсов

Post by dimka88 »

KovAl wrote: 07 Jun 2018, 17:26 Надеюсь, этим Вы не хотите сказать, что проблема НЕ связана с accel?
Вероятность того, что это делает accel крайне мала, точнее ее почти нет.
Есть результаты после отключения rx/tx vlan offloads, в теории не должно было приводить к падения интерфейса?
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

dimka88 wrote: 09 Jun 2018, 06:51
KovAl wrote: 07 Jun 2018, 17:26 Надеюсь, этим Вы не хотите сказать, что проблема НЕ связана с accel?
Вероятность того, что это делает accel крайне мала, точнее ее почти нет.
Я бы не стал "давить" на это, если бы не.. предыдущая проблема.
Не буду утверждать, что здесь "прямая связь", но на размышления наводит..
dimka88 wrote: 09 Jun 2018, 06:51 Есть результаты после отключения rx/tx vlan offloads, в теории не должно было приводить к падения интерфейса?
Однозначно говорить ещё рано, т.к. проблема - как уже и писал ранее - может вылезти три раза в час, а может и "затаиться" на неделю..
Пока всё нормально.

P.S. Поясню, почему я зацепился за этот момент: просматривая конфигурацию ВСЕХ интерфейсов, связанных с eth0, обнаружил такую вещь -
в конфиге непосредственно eth0 rx/tx vlan offloads были в "on", а вот во ВСЕХ интерфейсах вида eth0.XXXX.YYYY - в состоянии "off".
Ну вот и решил привести всё к "общему знаменателю".. Ну и плюс выводы, сделанные после изучения назначения функционала rx/tx vlan offloads.
Хотя, однозначного мнения по нему так и не сложилось, так - больше по наитию. Слишком мало удалось найти..
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

Не полегчало.. Те же яйца.. Два раза вподряд, через 6 мин...

Code: Select all

459   2018-06-09 21:16:04 INFO(6) Port 1:6 link up, 1000Mbps FULL duplex
458   2018-06-09 21:16:00 INFO(6) Port 1:6 link down
457   2018-06-09 21:15:04 INFO(6) Port 1:6 link up, 1000Mbps FULL duplex
456   2018-06-09 21:15:01 INFO(6) Port 1:6 link down
455   2018-06-09 21:09:05 INFO(6) Port 1:6 link up, 1000Mbps FULL duplex
454   2018-06-09 21:09:01 INFO(6) Port 1:6 link down
453   2018-06-09 21:08:11 INFO(6) Port 1:6 link up, 1000Mbps FULL duplex
452   2018-06-09 21:08:07 INFO(6) Port 1:6 link down
И снова без видимых причин.. :(
В kern.log только это

Code: Select all

Jun  9 21:09:02 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
Jun  9 21:09:02 ipoe-nas1 kernel: 8021q: adding VLAN 0 to HW filter on device eth0
Jun  9 21:09:02 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_UP): eth0.3612: link is not ready
Jun  9 21:09:02 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_UP): eth0.3612.101: link is not ready
Jun  9 21:09:02 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_UP): eth0.3612.102: link is not ready
....
Jun  9 21:09:05 ipoe-nas1 kernel: igb 0000:02:00.0 eth0: igb: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
Jun  9 21:09:05 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
Jun  9 21:09:05 ipoe-nas1 kernel: IPv6: ADDRCONF(NETDEV_CHANGE): eth0.3612: link becomes ready
.....
и т.д. ит.п...
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

Вот что ещё вспомнил - ещё в самом начале перевода абонентов с PPPoE на IPoE обнаружился вот этот баг на коммутаторах D-Link.
Теоретически он может быть причиной проблемы?
Вполне возможно, что такой "кастрированный" пакет может и долетать до сервера с accel, несмотря на ACL,
которые вполне могут его пропустить по причине не соответствия стандарту.
Правда сейчас функционал pppoe circuit id insertion я везде отключил, но кто его знает, возможно при каких-то условиях он всё равно срабатывает..
Фикс для DES-3200 ещё не вышел, сделали только для DGS-3120, да и то, не до конца..
dimka88
Posts: 866
Joined: 13 Oct 2014, 05:51
Contact:

Re: Спонтанное отключение всех IPoE интерфейсов

Post by dimka88 »

Можете немного больше выслать сообщений kernel?
Баг на D-Link может быть причиной, так как в чате встречались ребята с DGS у которых ядро уходило в панику.
Выход из ситуации был такой:
зависание сервера решилось обновлением с debian 8 на debian 9 +driver ixgb + а то что вис DGS-3000-28SC - решилось перепрошивкой, вернее обновлением прошивки на 5.05B013
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

dimka88 wrote: 10 Jun 2018, 20:02 Можете немного больше выслать сообщений kernel?
А нет в нём ничего, кроме NETDEV_UP и последующих NETDEV_CHANGE всех интерфейсов..
В том-то вся и "прелесть" - НЕТ НИЧЕГО! Ни kernel panic, ни варнингов, ни ошибок.
Прямо как суслик из "ДМБ" - ты его не видишь, а он есть!
Единственно ругнулась quagga

Code: Select all

2018/06/10 14:34:48 ZEBRA: netlink-listen recvmsg overrun: No buffer space available
2018/06/10 14:34:48 ZEBRA: netlink-listen recvmsg overrun: No buffer space available
2018/06/10 14:34:48 ZEBRA: netlink-listen recvmsg overrun: No buffer space available
Но это скорее всего "следствие", а не "причина"..
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

Добавил в "сторож" запись подробного состояния eth0 перед командой поднятия интерфейсов после отключения ifconfig eth0.XXX.YYYY up
Спойлер
Tue Jun 12 11:16:01 MSK 2018 перезагрузка по причине отключения eth0
eth0 Link encap:Ethernet HWaddr A4:BF:01:25:B5:35
BROADCAST MULTICAST MTU:1526 Metric:1
RX packets:5657874962 errors:252 dropped:0 overruns:0 frame:252
TX packets:7859823059 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:10000
RX bytes:2121981699879 (1.9 TiB) TX bytes:9454277946102 (8.5 TiB)

NIC statistics:
rx_packets: 5660054776
tx_packets: 7859823033
rx_bytes: 2150704111175
tx_bytes: 9492654973046
rx_broadcast: 2249911
tx_broadcast: 423981
rx_multicast: 2015235
tx_multicast: 19630
multicast: 2015235
collisions: 0
rx_crc_errors: 0
rx_no_buffer_count: 0
rx_missed_errors: 0
tx_aborted_errors: 0
tx_carrier_errors: 0
tx_window_errors: 0
tx_abort_late_coll: 0
tx_deferred_ok: 0
tx_single_coll_ok: 0
tx_multi_coll_ok: 0
tx_timeout_count: 0
rx_long_length_errors: 252
rx_short_length_errors: 0
rx_align_errors: 0
tx_tcp_seg_good: 0
tx_tcp_seg_failed: 0
rx_flow_control_xon: 0
rx_flow_control_xoff: 0
tx_flow_control_xon: 0
tx_flow_control_xoff: 0
rx_long_byte_count: 2150704111175
tx_dma_out_of_sync: 0
lro_aggregated: 0
lro_flushed: 0
tx_smbus: 0
rx_smbus: 2037749
dropped_smbus: 0
os2bmc_rx_by_bmc: 19630
os2bmc_tx_by_bmc: 0
os2bmc_tx_by_host: 19630
os2bmc_rx_by_host: 0
tx_hwtstamp_timeouts: 0
rx_hwtstamp_cleared: 0
rx_errors: 252
tx_errors: 0
tx_dropped: 0
rx_length_errors: 252
rx_over_errors: 0
rx_frame_errors: 0
rx_fifo_errors: 0
tx_fifo_errors: 0
tx_heartbeat_errors: 0
tx_queue_0_packets: 558
tx_queue_0_bytes: 44980
tx_queue_0_restart: 0
tx_queue_1_packets: 0
tx_queue_1_bytes: 0
tx_queue_1_restart: 0
tx_queue_2_packets: 0
tx_queue_2_bytes: 0
tx_queue_2_restart: 0
tx_queue_3_packets: 7859822501
tx_queue_3_bytes: 9454277901122
tx_queue_3_restart: 0
rx_queue_0_packets: 5657874008
rx_queue_0_bytes: 2121981197712
rx_queue_0_drops: 0
rx_queue_0_csum_err: 0
rx_queue_0_alloc_failed: 0
rx_queue_1_packets: 72
rx_queue_1_bytes: 39600
rx_queue_1_drops: 0
rx_queue_1_csum_err: 0
rx_queue_1_alloc_failed: 0
rx_queue_2_packets: 828
rx_queue_2_bytes: 435567
rx_queue_2_drops: 0
rx_queue_2_csum_err: 0
rx_queue_2_alloc_failed: 0
rx_queue_3_packets: 54
rx_queue_3_bytes: 27000
rx_queue_3_drops: 0
rx_queue_3_csum_err: 0
rx_queue_3_alloc_failed: 0
Вот это -
RX ..... errors:252 .... frame:252
наблюдалось ещё до падения интерфейса.
После "восстановления" стало так
RX ... errors:390 ... frame:390
На сабинтерфейсах этих ошибок нет.
Где ещё копнуть?
Как бы отловить хотя бы тО, что гасит eth0 -accel, или ОС?
dimka88
Posts: 866
Joined: 13 Oct 2014, 05:51
Contact:

Re: Спонтанное отключение всех IPoE интерфейсов

Post by dimka88 »

Вы пробовали подгружать igb с debug?
KovAl
Posts: 91
Joined: 26 Dec 2017, 15:35

Re: Спонтанное отключение всех IPoE интерфейсов

Post by KovAl »

dimka88 wrote: 12 Jun 2018, 09:46 Вы пробовали подгружать igb с debug?
Нет. А как это сделать?
Post Reply