|
|
Страница 1 из 1
|
[ Сообщений: 12 ] |
|
Автор |
Сообщение |
Imprisoned
Зарегистрирован: 05 апр 2019, 13:25 Сообщения: 5
|
Доброго времени суток, коллеги. Недавно сменили бордер на ASR9006 c IOS XR Version 6.4.2 на борту и столкнулись со следующими проблемами: 1. крашится процесс bgp. Код: Crashed pid:16695594 (pkg/bin/bgp) Time:Wed Mar 27 22:17:30 2019
Thread:21 received signal:11 - SIGSEGV. Segmentation fault. Sender:pkg/bin/bgp pid:16695594 Signal specific information: Signal code 0 - Unknown SIGSEGV code. Accessed BadAddr 0x0 at PC 0xffffffff. Core dump file name:dumper_harddisk:/dumper/bgp_1060.by.bgp.20190327-221730.node0_RSP1_CPU0.x86.Z
Stack Trace #0 0x429082c #1 0xf2d6a19 #2 0xa19d2de #3 0xa19d664 #4 0xf2d5d45 #5 0x429180d #6 0x428bf30 #7 0xa1f2cbf #8 0xa1f0ce8 #9 0xe7b355c #10 0x4258d6e
Registers info EDI ESI EBP(fp) EXX R0 00000001 254e9ed8 03b8bcb0 fc5e6cd0 EBX EDX ECX EAX R4 00000000 00000000 25451f48 00000064 EIP(pc) CS EFL ESP R8 0429082c 000000f3 00011202 03b8bc60 SS R12 000000fb Были найдены 4 кейса на https://bst.cloudapps.cisco.com/bugsearch/: CSCur72219 CSCvb13954 CSCuy83186 CSCvo16689 и ни один не попадает под наши реалии. Последний и вовсе скрыт от посторонних глаз. 2. В логи валят сообщения об отключении NSR для конкретного пира. Код: RP/0/RSP0/CPU0:2019 Apr 5 00:04:36.756 SAMST: tcp[451]: %IP-TCP_NSR-5-DISABLED : MF:179 <-> MF:56959:: NSR disabled for TCP connection because Retransmission threshold exceeded RP/0/RSP0/CPU0:2019 Apr 5 00:04:36.756 SAMST: bgp[1060]: %ROUTING-BGP-3-NBR_NSR_DISABLED : NSR disabled on neighbor MF due to 'ip-tcp' detected the 'warning' condition 'NSR is down because the retransmission threshold exceeded (probably because downstream RP is not healthy)' RP/0/RSP1/CPU0:2019 Apr 5 00:04:36.757 SAMST: bgp[1060]: %ROUTING-BGP-5-NBR_NSR_DISABLED_STANDBY : NSR disabled on neighbor MF on standby RP due to Peer closing down the session (VRF: default) RP/0/RSP0/CPU0:2019 Apr 5 00:07:36.760 SAMST: bgp[1060]: %ROUTING-BGP-3-IO_INITSYNC_SESSION_FAILED : No error - for session, retry RP/0/RSP1/CPU0:2019 Apr 5 00:07:36.760 SAMST: bgp[1060]: %ROUTING-BGP-5-IO_INITSYNC_FAILED : No such file or directory - set id 1 RP/0/RSP0/CPU0:2019 Apr 5 00:09:06.764 SAMST: bgp[1060]: %ROUTING-BGP-3-IO_INITSYNC_SESSION_FAILED : 'ip-tcp' detected the 'warning' condition 'NSR session was closed on standby' - for session, retry RP/0/RSP1/CPU0:2019 Apr 5 00:09:06.764 SAMST: bgp[1060]: %ROUTING-BGP-5-IO_INITSYNC_FAILED : No such file or directory - set id 1 RP/0/RSP0/CPU0:2019 Apr 5 00:10:36.768 SAMST: bgp[1060]: %ROUTING-BGP-3-IO_INITSYNC_SESSION_FAILED : 'ip-tcp' detected the 'warning' condition 'NSR session was closed on standby' - for session, retry RP/0/RSP1/CPU0:2019 Apr 5 00:10:36.768 SAMST: bgp[1060]: %ROUTING-BGP-5-IO_INITSYNC_FAILED : No such file or directory - set id 1 RP/0/RSP0/CPU0:2019 Apr 5 00:12:06.772 SAMST: bgp[1060]: %ROUTING-BGP-3-IO_INITSYNC_SESSION_FAILED : 'ip-tcp' detected the 'warning' condition 'NSR session was closed on standby' - for session, retry RP/0/RSP1/CPU0:2019 Apr 5 00:12:06.773 SAMST: bgp[1060]: %ROUTING-BGP-5-IO_INITSYNC_FAILED : No such file or directory - set id 1 RP/0/RSP0/CPU0:2019 Apr 5 00:48:20.323 SAMST: bgp[1060]: %ROUTING-BGP-5-ADJCHANGE_DETAIL : neighbor MF Down - Peer closing down the session (VRF: default; AFI/SAFI: 1/1) (AS: 31133) RP/0/RSP1/CPU0:2019 Apr 5 00:48:20.324 SAMST: bgp[1060]: %ROUTING-BGP-5-NBR_NSR_DISABLED_STANDBY : NSR disabled on neighbor MF on standby RP due to Peer closing down the session (VRF: default)
RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.826 SAMST: dumper[61]: %OS-DUMPER-7-DUMP_REQUEST : Dump request for process pkg/bin/bgp RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.827 SAMST: dumper[61]: %OS-DUMPER-7-DUMP_ATTRIBUTE : Dump request with attribute 7 for process pkg/bin/bgp RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.827 SAMST: dumper[61]: %OS-DUMPER-4-SIGSEGV : Thread 22 received SIGSEGV - Segmentation Fault RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.827 SAMST: dumper[61]: %OS-DUMPER-4-SIGSEGV_INFO : Accessed BadAddr 0x0 at PC 0xffffffff. Signal code 0 - Unknown SIGSEGV code. 0 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.827 SAMST: dumper[61]: %OS-DUMPER-4-SIGNALCORE_INFO : Core for pid = 1003820 (pkg/bin/bgp) as signal 11 sent by pkg/bin/bgp@node0_RSP1_CPU0 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.829 SAMST: dumper[61]: %OS-DUMPER-7-PROC_PAGES : Process memory pages 1027 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.830 SAMST: dumper[61]: %OS-DUMPER-6-FALLBACK_CHOICE : Fall back choice: 0(harddisk:/dumper) in use RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : EDI ESI EBP(fp) EXX RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : R0 00000000 13027a14 03b6ae18 fc57a998 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : EBX EDX ECX EAX RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : R4 0005000d 0004fff1 0adabe3c 0004fff1 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : EIP(pc) CS EFL ESP RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : R8 0adabe40 000000f3 00011202 03b6ae04 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : SS RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-REGISTERS_INFO : R12 000000fb RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.831 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #0 0xadabe40 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #1 0x10818625 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #2 0x10818955 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #3 0x108218df RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #4 0x10935c8f RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #5 0x10939713 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #6 0xad23cbf RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #7 0xad21ce8 RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #8 0x105dd55c RP/0/RSP1/CPU0:2019 Apr 5 02:04:27.840 SAMST: dumper[61]: %OS-DUMPER-6-TRACE_BACK : #9 0x1093a8b3 3. Помимо прочего при поднятии сессии с данным пиром сессии счётчик получаемых префиксов растёт крайне медленно. fullview (742к префиксов) подтягивается почти 3 часа (!) Другой пир подтягивает 747к префиксов за 15 минут. Грешили сугубо на данного пира, однако при поднятии другой, входящей в neighbour-group сессии также толкнулись с крайне большим временем получения префиксов. Первый же пир в это время получил все 742к префиксов за ~5 минут. Чем можно объяснить подобное поведение BGP? Известно, что со стороны "проблемного" пира используется оборудование Huawei.
|
11 апр 2019, 14:57 |
|
|
AlexDv
Зарегистрирован: 23 май 2012, 15:07 Сообщения: 50
|
Imprisoned писал(а): Доброго времени суток, коллеги. Недавно сменили бордер на ASR9006 c IOS XR Version 6.4.2 на борту и столкнулись со следующими проблемами:
1. крашится процесс bgp.
С таким лучше к НАГу идти. Провайдеры с fullview там живут, быстрее подскажут.
|
11 апр 2019, 15:51 |
|
|
tonve
Зарегистрирован: 26 сен 2013, 10:29 Сообщения: 422
|
sh bgp nei 1.2.3.4 sh int x 1/2/3.123
|
11 апр 2019, 16:36 |
|
|
root99
Зарегистрирован: 29 май 2017, 21:19 Сообщения: 1404
|
6.4.х промежуточная версия используйте 6.5.3 посмотрите как будет вести себя, фулл залетает по крайней мере на 9901, 9906 за 40 секунд...
И какой конфиг на данного пира... и если можно что конкретно стоит с той стороны софт и конфиг
|
11 апр 2019, 17:18 |
|
|
Imprisoned
Зарегистрирован: 05 апр 2019, 13:25 Сообщения: 5
|
tonve писал(а): sh bgp nei 1.2.3.4 sh int x 1/2/3.123 Код: #show bgp neighbor 1.1.1.1 Mon Apr 15 16:19:51.786 SAMST
BGP neighbor is 1.1.1.1 Remote AS 31133, local AS 3226, external link Description: MEGAFON Remote router ID 10.222.254.118 BGP state = Established, up for 2d03h NSR State: NSR Ready Last read 00:01:09, Last read before reset 00:00:00 Hold time is 240, keepalive interval is 60 seconds Configured hold time: 240, keepalive: 60, min acceptable hold time: 3 Last write 00:00:18, attempted 19, written 19 Second last write 00:01:18, attempted 19, written 19 Last write before reset 00:00:00, attempted 0, written 0 Second last write before reset 00:00:00, attempted 0, written 0 Last write pulse rcvd Apr 15 16:19:33.435 last full not set pulse count 43469 Last write pulse rcvd before reset 00:00:00 Socket not armed for io, armed for read, armed for write Last write thread event before reset 00:00:00, second last 00:00:00 Last KA expiry before reset 00:00:00, second last 00:00:00 Last KA error before reset 00:00:00, KA not sent 00:00:00 Last KA start before reset 00:00:00, second last 00:00:00 Precedence: internet Non-stop routing is enabled Enforcing first AS is disabled Multi-protocol capability received Neighbor capabilities: Route refresh: advertised (old + new) and received (new) 4-byte AS: advertised and received Address family IPv4 Unicast: advertised and received Received 495051 messages, 0 notifications, 95209 in queue Sent 3080 messages, 0 notifications, 0 in queue Minimum time between advertisement runs is 30 secs Inbound message logging enabled, 3 messages buffered Outbound message logging enabled, 3 messages buffered
For Address Family: IPv4 Unicast BGP neighbor version 113238169 Update group: 0.3 Filter-group: 0.3 No Refresh request being processed Inbound soft reconfiguration allowed (override route-refresh) NEXT_HOP is always this router Community attribute sent to this neighbor Extended Nexthop Encoding: advertised Route refresh request: received 0, sent 0 Default weight 100 Policy for incoming advertisements is RP_MEGAFON_IN Policy for outgoing advertisements is RP_MEGAFON_OUT 744882 accepted prefixes, 361346 are bestpaths Exact no. of prefixes denied : 153. Cumulative no. of prefixes denied: 300. No policy: 0, Failed RT match: 0 By ORF policy: 0, By policy: 300 Prefix advertised 20, suppressed 0, withdrawn 0 Maximum prefixes allowed 1048576 Threshold for warning message 75%, restart interval 0 min An EoR was not received during read-only mode Last ack version 113238169, Last synced ack version 113238169 Outstanding version objects: current 0, max 1, refresh 0 Additional-paths operation: None Advertise routes with local-label via Unicast SAFI
Connections established 1; dropped 0 Local host: 1.1.1.2, Local port: 179, IF Handle: 0x00000360 Foreign host: 1.1.1.1, Foreign port: 55703 Last reset 00:00:00 # show interfaces Bundle-Ether 30 Mon Apr 15 16:24:05.104 SAMST Bundle-Ether30 is up, line protocol is up Interface state transitions: 1 Hardware is Aggregated Ethernet interface(s), address is 8478.ac33.2bac Description: MEGAFON Internet address is 1.1.1.2/30 MTU 1514 bytes, BW 30000000 Kbit (Max: 30000000 Kbit) reliability 255/255, txload 19/255, rxload 71/255 Encapsulation ARPA, Full-duplex, 30000Mb/s loopback not set, Last link flapped 1w6d ARP type ARPA, ARP timeout 04:00:00 No. of members in this bundle: 3 TenGigE0/0/0/3 Full-duplex 10000Mb/s Active TenGigE0/0/0/13 Full-duplex 10000Mb/s Active TenGigE0/1/0/3 Full-duplex 10000Mb/s Active Last input 00:00:00, output 00:00:00 Last clearing of "show interface" counters never 5 minute input rate 8366428000 bits/sec, 966664 packets/sec 5 minute output rate 2253684000 bits/sec, 522405 packets/sec 888747805486 packets input, 983891146152040 bytes, 2625535895 total input drops 2 drops for unrecognized upper-level protocol Received 1177838 broadcast packets, 111921 multicast packets 0 runts, 181 giants, 0 throttles, 0 parity 183 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort 568939175429 packets output, 311447669983073 bytes, 0 total output drops Output 2 broadcast packets, 117180 multicast packets 0 output errors, 0 underruns, 0 applique, 0 resets 0 output buffer failures, 0 output buffers swapped out 0 carrier transitions
root99 писал(а): 6.4.х промежуточная версия используйте 6.5.3 посмотрите как будет вести себя, фулл залетает по крайней мере на 9901, 9906 за 40 секунд...
И какой конфиг на данного пира... и если можно что конкретно стоит с той стороны софт и конфиг где бы его еще взять, 6.5.3 то... не поделитесь? Настройки пира следующие: Код: ! neighbor 1.1.1.1 remote-as 31133 timers 60 240 3 description MEGAFON receive-buffer-size 131072 65536 address-family ipv4 unicast weight 100 send-community-ebgp route-policy RP_MEGAFON_IN in route-policy RP_MEGAFON_OUT out next-hop-self soft-reconfiguration inbound always ! размер кэша увеличивали в качестве эксперимента. Успехом не увенчалось. Конфиг и более подробную информацию о пире - пир не разглашает. Вендора - и то с трудом удалось выпытать. Всё что сообщили с другой стороны: Код: <IZH-PE-NE40X8-2>display bgp peer 1.1.1.2 verbose
BGP Peer is 1.1.1.2, remote AS 3226
Type: EBGP link
Peer's description: "Mark-AS3226-T2686243-INTERNET"
BGP version 4, Remote router ID xxx.xxx.xxx.xxx
Update-group ID: 14
BGP current state: Established, Up for 11h03m37s
BGP current event: KATimerExpired
BGP last state: OpenConfirm
BGP Peer Up count: 24
Received total routes: 21
Received active routes total: 12
Advertised total routes: 742787
Port: Local - 59094 Remote - 179
Configured: Connect-retry Time: 32 sec
Configured: Min Hold Time: 0 sec
Configured: Active Hold Time: 180 sec Keepalive Time:60 sec
Received : Active Hold Time: 180 sec
Negotiated: Active Hold Time: 180 sec Keepalive Time:60 sec
Peer optional capabilities:
Peer supports bgp multi-protocol extension
Peer supports bgp route refresh capability
Peer supports bgp 4-byte-as capability
Address family IPv4 Unicast: advertised and received
Received: Total 674 messages
Update messages 10
Open messages 1
KeepAlive messages 663
Notification messages 0
Refresh messages 0
Sent: Total 189002 messages
Update messages 188338
Open messages 7
KeepAlive messages 657
Notification messages 0
Refresh messages 0
Authentication type configured: None
Last keepalive received: 2019-04-08 12:36:06+04:00
Last keepalive sent : 2019-04-08 12:36:30+04:00
Last update received: 2019-04-08 01:34:05+04:00
Last update sent : 2019-04-08 12:36:21+04:00
Maximum allowed route limit: 50
Threshold: 75%, Parameter: idle-timeout 10
Minimum route advertisement interval is 30 seconds
Optional capabilities:
Route refresh capability has been enabled
4-byte-as capability has been enabled
Peer Preferred Value: 0
Routing policy configured:
No import update filter list
No export update filter list
Import prefix list is: BL-DEF-IANA-SPAR-v4
No export prefix list
Import route policy is: AS-MARK-ITT
Export route policy is: TO-CLIENTS
No import distribute policy
No export distribute policy Также крайне смущает активно растущая очередь входящих сообщений от пира... Код: Message stats: InQ depth: 97075, OutQ depth: 0 Last_Sent Sent Last_Rcvd Rcvd Open: Apr 13 13:09:44.028 1 Apr 13 13:09:44.028 1 Notification: --- 0 --- 0 Update: Apr 13 13:10:27.816 9 Apr 15 16:40:27.799 493642 Keepalive: Apr 15 16:41:33.441 3092 Apr 15 16:41:12.520 3081 Route_Refresh: --- 0 --- 0 Total: 3102 496724
|
15 апр 2019, 15:43 |
|
|
root99
Зарегистрирован: 29 май 2017, 21:19 Сообщения: 1404
|
Софт есть тут - https://certcollection.org/forum/topic/ ... try1281790По опыту скажу, стыки с хуавей говнячит на 99% точно хуавей и без совместной работы с той стороной вы не решите проблему...
|
15 апр 2019, 15:59 |
|
|
Imprisoned
Зарегистрирован: 05 апр 2019, 13:25 Сообщения: 5
|
К сожалению, вторая сторона вяло идёт на контакт... В эту сторону начали думать где-то на второй день, когда удалось по второму же результату в гугле обнаружить свежую проблему о флапе bgp при стыке с оборудованием других вендоров https://support.huawei.com/enterprise/en/doc/EDOC1000060766/d10836e7/bgp-summary-route-flaps Однако, повлиять на выбор используемого оборудования вышестоящего провайдера мы не в силах.
|
15 апр 2019, 16:06 |
|
|
root99
Зарегистрирован: 29 май 2017, 21:19 Сообщения: 1404
|
вы можете повлиять на смену ПО и вообще нормального отношения и дебажинга - а так конечно стоит задуматься нужен ли вам этот стык раз они такие тугие....
на хуавей это давняя проблема ей как минимум год, сами сталкивались практически с аналогичной ситуацией пир Vodafone с той стороны хуавей - самопроизвольный разрыв сессии - роуты могут зайти за минуту а могут зайти через 5-6 часов, решили сменой ПО на той стороне....
|
15 апр 2019, 16:18 |
|
|
tonve
Зарегистрирован: 26 сен 2013, 10:29 Сообщения: 422
|
Код: Received 495051 messages, 0 notifications, 95209 in queue O_O У анонсов от них, случаем, TTL не слишком ли свежий? Код: 888747805486 packets input, 983891146152040 bytes, 2625535895 total input drops
Адово. Трафик случайно не миррорите? Или линейная карта переподписанная, например популярная A9K-8T-L В любом случае, вам сюда https://community.cisco.com/t5/service- ... -p/3126715Попросите вывод dis int eth-t X.Y который на вас смотрит. Убедитесь что хуавей считает что на вас нужно обращаться с mtu=1500
|
15 апр 2019, 20:59 |
|
|
Imprisoned
Зарегистрирован: 05 апр 2019, 13:25 Сообщения: 5
|
root99 писал(а): 6.4.х промежуточная версия используйте 6.5.3 посмотрите как будет вести себя, фулл залетает по крайней мере на 9901, 9906 за 40 секунд... А не подскажете, почему 6.4.х является промежуточной? tonve писал(а): Адово. Трафик случайно не миррорите? Или линейная карта переподписанная, например популярная A9K-8T-L
Трафик не миррорится. Модули стоят A9K-24X10GE-SE.
|
16 апр 2019, 10:42 |
|
|
tonve
Зарегистрирован: 26 сен 2013, 10:29 Сообщения: 422
|
Imprisoned писал(а): Трафик не миррорится. Модули стоят A9K-24X10GE-SE. Всё объяснят счётчики из приведённой ссылки. Большую очередь сообщений BGP можно объяснить дропами полезного трафика на вашей стороне. Ну и mtu всё-таки попросите пока мегафон проверить. А так, между прочим, не жалко на такой карте терминировать аплинков? *-TR дешевле ведь.
|
16 апр 2019, 13:05 |
|
|
Imprisoned
Зарегистрирован: 05 апр 2019, 13:25 Сообщения: 5
|
tonve писал(а): А так, между прочим, не жалко на такой карте терминировать аплинков? *-TR дешевле ведь. Что имеем то и пользуем... Трафика то не на один 10G порт на каждом
|
16 апр 2019, 14:44 |
|
|
|
Страница 1 из 1
|
[ Сообщений: 12 ] |
|
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 36 |
|
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения
|
|
|