Một số vấn đề thường gặp trong Kubernetes¶

Kubernetes là một công cụ quản lý container mạnh mẽ, nhưng nó cũng đi kèm với một số vấn đề thường gặp. Dưới đây là một số vấn đề phổ biến và cách giải quyết chúng.

1. Pod không chạy (Pod Not Running)¶

Mô tả: Một pod không chạy có thể gặp phải nhiều tình huống khác nhau, như trạng thái Pending, CrashLoopBackOff, hoặc ImagePullBackOff. Nguyên nhân có thể do thiếu tài nguyên, lỗi cấu hình, hoặc vấn đề với image.

Nguyên nhân:¶

Thiếu tài nguyên: Node không đủ CPU hoặc RAM để khởi động pod.
Lỗi cấu hình: Thông số cấu hình sai, chẳng hạn như tham số môi trường không chính xác hoặc volume không tồn tại.
Vấn đề với Container Image: Image không thể tải do không tồn tại hoặc có quyền truy cập không đủ.

Giải pháp:¶

Kiểm tra trạng thái Pod:

kubectl get pods

Xem trạng thái pod. Nếu trạng thái là Pending, có thể do thiếu tài nguyên. Nếu là CrashLoopBackOff, có thể container đang gặp lỗi khi khởi động.

Xem logs của Pod:

kubectl logs <pod-name>

Xem log để xác định lỗi cụ thể khiến pod không khởi động

Sử dụng kubectl describe pod <pod-name>:

kubectl describe pod <pod-name>

Thông tin này bao gồm sự kiện có thể cho biết lý do tại sao pod không chạy, chẳng hạn như thiếu volume hoặc lỗi image.

Kiểm tra cấu hình tài nguyên:

Đảm bảo rằng yêu cầu tài nguyên (requests và limits) trong cấu hình pod là hợp lý. Ví dụ:

resources:
  requests:
    memory: "128Mi"
    cpu: "500m"
  limits:
    memory: "256Mi"
    cpu: "1"

Container Image:

Kiểm tra xem image có sẵn trong registry và có thể truy cập được. Nếu sử dụng private registry, đảm bảo có secret chứa thông tin xác thực.

2. Service không truy cập được (Service Unreachable)¶

Mô tả: Khi một service không thể truy cập từ bên ngoài hoặc từ các pod khác, có thể do cấu hình sai hoặc vấn đề mạng.

Nguyên nhân:¶

Service không được cấu hình đúng: Lỗi trong định nghĩa service hoặc selector không khớp với label của pod.
Pod không sẵn sàng: Tất cả các pod backend đang gặp lỗi.
Vấn đề với Network Policy: Quy tắc mạng có thể ngăn cản lưu lượng truy cập.

Giải pháp:¶

Kiểm tra trạng thái của Service:

Xem các thông tin như Cluster IP, Port, và Type. Đảm bảo rằng service đang chạy và có IP đúng.

kubectl get services

Xem logs của các Pod:

Kiểm tra các pod mà service đang truy cập để đảm bảo không có lỗi.

kubectl logs <pod-name>

Kiểm tra Network Policy:

Xác minh rằng chính sách mạng không cấm lưu lượng đến service. Nếu có, điều chỉnh lại policy để cho phép lưu lượng.

kubectl get networkpolicies
kubectl describe networkpolicy <policy-name>

3. Container Crash Loop (Container trong vòng lặp Crash)¶

Mô tả: Container có thể liên tục khởi động và dừng lại, gây ra tình trạng “CrashLoopBackOff”.

Nguyên nhân:¶

Lỗi trong mã nguồn: Container có thể gặp lỗi do vấn đề mã nguồn hoặc thư viện phụ thuộc.
Cấu hình sai: Biến môi trường không chính xác, hoặc file cấu hình không tìm thấy.

Giải pháp:¶

Xem logs của container:

Xem logs để tìm ra lỗi cụ thể khiến container gặp sự cố.

kubectl logs <pod-name> -c <container-name>

Thay đổi lệnh khởi động:

Chạy container trong chế độ tương tác để kiểm tra:

kubectl run -it --rm --image=<image-name> <pod-name> -- /bin/sh

Kiểm tra cấu hình:

Xem xét lại tất cả các biến môi trường và đảm bảo rằng tất cả đều hợp lệ. Nếu container yêu cầu file cấu hình, hãy đảm bảo rằng nó có thể truy cập.

Thêm chỉ định Restart Policy:

Nếu bạn không muốn container tự động khởi động lại liên tục, hãy đặt restartPolicy thành Never để giúp phân tích vấn đề tốt hơn.

4. Lỗi khi Scale Up/Down (Lỗi khi mở rộng/thu hẹp)¶

Mô tả: Khi cố gắng mở rộng hoặc thu hẹp số lượng pod, có thể gặp phải lỗi liên quan đến tài nguyên hoặc cấu hình.

Nguyên nhân:¶

Thiếu tài nguyên trên Node: Node không còn đủ tài nguyên để chứa thêm pod.
Quy tắc HPA không đúng: Horizontal Pod Autoscaler (HPA) có thể không hoạt động đúng.

Giải pháp:¶

Kiểm tra trạng thái Pod:

Xem trạng thái của tất cả các pod trong deployment.

kubectl get pods

Kiểm tra tài nguyên trên Node:

Kiểm tra tình trạng tài nguyên và xem xét việc bổ sung thêm node hoặc tối ưu hóa resource requests.

kubectl describe nodes

Thay đổi số lượng replicas:

Sử dụng lệnh sau để thay đổi số lượng replicas:

kubectl scale deployment <deployment-name> --replicas=<number>

5. Node Not Ready (Node không sẵn sàng)¶

Mô tả: Khi một node không sẵn sàng cho việc chứa các pod, có thể do lỗi phần cứng, cấu hình sai, hoặc các vấn đề mạng.

Nguyên nhân:¶

Vấn đề phần cứng hoặc mạng: Node có thể gặp vấn đề với phần cứng hoặc mạng, dẫn đến trạng thái “NotReady”.
Kubelet không hoạt động: Kubelet có thể không chạy hoặc gặp lỗi.

Giải pháp:¶

Kiểm tra trạng thái Node:

Xem trạng thái của tất cả các pod trong deployment.

kubectl get pods

Xem chi tiết về Node:

Thông tin này cung cấp chi tiết về các sự kiện và lý do khiến node không sẵn sàng.

kubectl describe node <node-name>

Kiểm tra logs của Kubelet:

Xem logs để tìm hiểu vấn đề cụ thể liên quan đến Kubelet.

journalctl -u kubelet

Lưu ý: Đây chỉ là một phần nhỏ trong thế giới rộng lớn của Kubernetes. Việc hiểu sâu về các khái niệm và công cụ là rất quan trọng để bạn có thể tự tin quản lý và vận hành các ứng dụng trên Kubernetes.

Việc hiểu và khắc phục các vấn đề thường gặp trong Kubernetes sẽ giúp các kỹ sư và nhà quản lý hệ thống duy trì tính ổn định và hiệu suất của cụm Kubernetes. Luôn theo dõi logs, trạng thái pod, service và node để phát hiện và xử lý sự cố kịp thời. Bên cạnh đó, việc triển khai các giải pháp giám sát và cảnh báo sẽ giúp phát hiện vấn đề sớm hơn và giảm thiểu tác động đến dịch vụ.