WiFi认证系统运维中常碰到的几类故障怎么排查
WiFi认证系统上线运行一段时间之后,故障是难免的。有些小问题重启一下就好,有些需要逐步定位才能找到原因。整理一下最常见的几种故障类型和对应的排查思路,供一线运维参考。
连上WiFi但打不开认证页面
这是投诉量最高的一类问题。先确认几个基础项:设备是否真的连上了正确的SSID(有时候附近有同名或相近名称的其他网络);设备浏览器是不是设置成了代理或VPN模式导致HTTP重定向失效;操作系统的captive portal检测功能有没有正常触发。
如果以上都没问题但还是打不开,接下来检查网关侧:captive portal的DNS劫持规则是否生效(用nslookup查一下任意域名的解析结果是否指向了网关IP)、网关的HTTP服务端口是否正常监听(telnet测试)、防火墙规则是否放行了portal端口的入站流量。很多时候问题出在链路中间有一道没预料到的ACL把portal的HTTP流量拦掉了。
验证码收不到
先区分是所有人都收不到还是个别手机号收不到。如果是所有人都不行,大概率是短信网关本身的问题:余额不足、通道宕机、API密钥过期。登录供应商后台查看发送记录和账户状态通常就能确认。
如果是个别号码收不到,先核对手机号格式有没有错误(多了0、少了86、混入了空格),然后查该号码在运营商侧是否有短信拦截(欠费停机、设置了黑名单、安装了拦截APP)。也可以手动用该号码发一条测试短信来排除运营商层面的问题。
还有一种容易被忽视的情况:某些地区的虚拟号段(170/171/162开头等)不被短信网关支持,发出去但运营商拒绝投递。这种情况需要在系统层面增加号段白名单校验,在用户输入阶段就给出提示,而不是等到发了短信才发现收不到。
认证成功但无法访问外网
这一类问题的排查方向比较宽。先确认DHCP是否正常,设备拿到IP地址了吗?子网掩码和网关对不对?能ping通网关内网地址但ping不通外部地址(如8.8.8.8),说明问题在NAT或路由层面;连内网都ping不通,可能是DHCP池耗尽或VLAN配置有问题。
然后看认证网关的状态:该MAC地址的认证是否通过?会话是否还在有效期内?有些系统会在认证成功后写入一个允许通过的MAC/IP对应表,如果这张表因某种原因(内存溢出、进程重启、数据库连接中断)丢失了已认证的记录,就会出现"认证过但不能上网"的现象。
DNS问题也是高发原因之一。设备拿到了正确的IP和网关但DNS解析失败,表现为能ping通IP但打不开网站。检查网关的DNS转发配置,确认上游DNS服务器是否可达。
系统无响应或响应极慢
整个认证系统卡死或者打开页面要十几秒,通常是资源瓶颈的表现。查看网关设备的CPU和内存使用率,如果CPU长期超过80%、内存超过90%,说明硬件规格已经不够当前负载了。
常见原因包括:日志文件太大导致磁盘I/O阻塞、并发认证请求数超过网关处理能力上限、数据库查询没有建索引导致慢SQL拖累整体响应。针对每种原因有不同的缓解措施,日志轮转和归档、水平扩展网关实例、数据库索引优化。资源紧张的情况下,最直接的临时措施是清理旧日志释放磁盘空间并重启服务。
日志异常或不完整
发现日志有断片、时间戳跳变、记录缺失,首先检查存储介质健康状况。如果是SD卡或eMMC存储的设备,写入寿命到了之后会出现读写错误导致日志损坏。换成SSD或外接存储通常能解决这个问题。
然后检查日志轮转配置,是否正确配置了按大小或按时间的自动切割和归档。没有配的话单个日志文件会一直增长直到撑满磁盘,之后无论是覆盖旧日志还是停止写入,都会导致日志完整性受损。
WiFi认证系统的故障排查不需要很高深的技术功底,但需要系统性思维,不要一上来就重启设备,而是按照"客户端→接入层→认证层→网络层→存储层"的顺序逐级排除。大部分问题在前两个环节就能定位到,需要深入到系统内部的情况并不多见。


