日志分析新范式：手把手教你用Filebeat导入腾讯云ES

Filebeat简介

Filebeat 是 Elastic Stack 中的一部分，是用于转发和集中日志数据的轻量级传送器。它作为代理安装在您的服务器上，监控指定的日志文件或目录，收集日志事件，并将它们转发到 Elasticsearch 或 Logstash 进行索引和处理。

Filebeat的构成

Harvesters（收集器）：Harvester 负责读取单个文件的内容，逐行读取每个文件，并将内容发送到输出。每个 harvester 对应一个文件，负责打开和关闭文件描述符，这意味着文件描述符在Harvester运行时保持打开状态。

如果在收集文件时删除或重命名文件，Filebeat 将继续读取该文件。这样做的副作用是，磁盘上的空间一直保留到 harvester 关闭。默认情况下，Filebeat 保持文件打开，直到达到 close_inactive。

Inputs（输入）：Input 负责管理 harvester 并寻找所有来源读取。如果 input 类型是 log，则 input 将查找驱动器上与定义的路径匹配的所有文件，并为每个文件启动一个 harvester。每个 input 在它自己的 Go 进程中运行，Filebeat 当前支持多种输入类型。每个输入类型可以定义多次。日志输入检查每个文件，以查看是否需要启动 harvester、是否已经在运行 harvester 或是否可以忽略该文件。

Filebeat如何保证文件内容不丢失

保证文件内容不丢失，即所有内容至少发送一次：

Filebeat 使用 registry 来记录每个 harvester 最后读取到的文件偏移量(offset)。只有在数据成功发送后，Filebeat 才会更新 registry，否则会一直重试发送。
如果运行中的 Filebeat 突然关闭，Filebeat 不会等待所有接受方确认完，而是立即关闭。等再次启动的时候，这部分内容会重新发送（至少发送一次）。

启动方式

sudo ./filebeat -e -c filebeat.yml

Filebeat常见配置

filebeat.inputs:
- type: log
  paths:
    - /root/logs/*.log
  symlinks: true
processors:
  - add_host_metadata:
      when.not.contains.tags: forwarded
  - drop_fields:
      fields: ["ecs","icmp","igmp","agent","kafka","azure","input","stream","syslog","docker","process","host.id","fileset","host.os","host.mac","log.offset","user_agent","log.source","host.hostname","http.response","read_timestamp","host.architecture","host.containerized"]
      ignore_missing: true

setup.ilm.enabled: false
setup.template.enabled: false
output.elasticsearch:
  hosts: ['http://space-egsejxu8.ap-guangzhou.qcloudes.com:80']
  username: "elastic"
  password: "1L46-.be%*8cS@xf5I39"
  bulk_max_size: 2048
  compression_level: 5
  index: "zijian-egsejxu8"
  allow_older_versions: true

Input -- 输入源

常见的输入组件：Log、kafka、k8s、cvm 、docker、TCP、UDP

以 Log 为例：

基础配置

filebeat.inputs:
// 类型log
- type: log
// 输入要采集日志的路径，支持同时采集多个
  paths:
    - /root/logs/*.log
    - /var/logs/access.log
  exclude_lines: ['vpc-(([a-z0-9]){8,8})']

Configure inputs | Filebeat Reference [8.12] | Elastic

（复制下列链接至浏览器打开：https://www.elastic.co/guide/en/beats/filebeat/current/configuration-filebeat-options.html ）

进阶配置

symlinks：#符号链接选项允许filebeat除常规文件外,可以收集符号链接。收集符号链接时，即使报告了符号链接的路径，
encoding：#指定被监控的文件的编码类型，使用plain和utf-8都是可以处理中文日志
exclude_lines: ['vpc-(([a-z0-9]){8,8}'] #不包含匹配正则的行
include_lines: ['^ERR', '^WARN']  #包含匹配正则的行
exclude_files: ['\.gz$']  #用于匹配希望filebeat忽略的文件的正则表达式列表

harvester_buffer_size: 16384 #每个harvester在获取文件时使用的缓冲区的字节大小，这部分根据业务可以进行调优
max_bytes: 10485760 #单个日志消息可以拥有的最大字节数。max_bytes之后的所有字节都被丢弃而不发送。默认值为10MB (10485760)
ingore_older: 0 #默认为0，表示禁用，可以配置2h，2m等；参数在filebeat配置中用于指定filebeat忽略文件中比指定时间更早的事件。这个参数的值通常使用时间格式来表示，例如1d表示一天，2h表示两小时，或者5m表示五分钟。当filebeat开始监控一个文件时，它会检查文件的修改时间，并忽略在ignore_older指定时间之前发生的事件；注意ignore_older必须大于close_inactive的值；用于减少数据量、提高性能
close_inactive：#是filebeat配置中的一个参数，它用于指定在harvester没有读取活动时，filebeat应该在多长时间后关闭并重新打开日志文件。这个参数的目的是确保filebeat能够在文件不再有新内容写入时释放资源，并在文件再次有新内容时重新打开文件以继续收集日志；当设置为0或者不设置时，filebeat将不会关闭不活动的文件；用于资源管理
tail_files：#如果设置为true，filebeat从文件尾开始监控文件新增内容，把新增的每一行文件作为一个事件依次发送，
harvester_limit：#harvester_limit选项限制一个prospector并行启动的harvester数量，直接影响文件打开数

multiline.pattern #必须匹配的regexp模式
multiline.negate #定义上面的模式匹配条件的动作是 否定的，默认是false假如模式匹配条件'^b'，默认是false模式，表示讲按照模式匹配进行匹配 将不是以b开头的日志行进行合并如果是true，表示将不以b开头的日志行进行合并
multiline.match # 指定Filebeat如何将匹配行组合成事件,在之前或者之后，取决于上面所指定的negate
multiline.max_lines #可以组合成一个事件的最大行数，超过将丢弃，默认500
multiline.timeout #定义超时时间，如果开始一个新的事件在超时时间内没有发现匹配，也将发送日志，默认是5s
max_procs #设置可以同时执行的最大CPU数。默认值为系统中可用的逻辑CPU的数量。

Output -- 输出

常见的输出地址：ES、Logstash、Kafka、Redis

以输出腾讯云 ES Serverless 为例：

基础配置

output.elasticsearch:
  hosts: ['http://space-egsejxu8.ap-guangzhou.qcloudes.com:80']
  username: "elastic"
  password: "1L46-.be%*8cS@xf5I39"
  #单个bulk API 索引请求中批量的最大事件数。默认值是 1600；增加批次大小可以通过降低发送事件的开销来提高性能，但过大的批次大小也可能增加处理时间，可能导致 API错误、连接被杀、发布请求超时，最终导致吞吐量降低。将 bulk_max_size 设置为 0 或负值将禁用批次分割
  bulk_max_size: 2048
  compression_level: 5
  index: "zijian-egsejxu8"
  allow_older_versions: true

Configure the output | Filebeat Reference [8.12] | Elastic

（复制下列链接至浏览器打开：https://www.elastic.co/guide/en/beats/filebeat/current/configuring-output.html ）

进阶配置

output.elasticsearch:
  hosts: ['http://space-egsejxu8.ap-guangzhou.qcloudes.com:80']
  username: "elastic"
  password: "1L46-.be%*8cS@xf5I39"
  indices:
    - index: "warning-%{[agent.version]}"
      when.contains:
        message: "WARN"
    - index: "error-%{[agent.version]}"
      when.contains:
        message: "ERR"
    - index: "%{[fields.log_type]}"
      mappings:
        critical: "sev1"
        normal: "sev2"
      default: "sev3"
        
pipeline: my_pipeline_id #可以输出到es中的某个pipeline，然后pilepline对数据进行处理，最后存入es，使用方式和存入某个index类似
max_retries：#filebeat的重试次数，默认无限次重试
backoff.init：#在网络错误后，filebeat等待多长时间再尝试重新连接到Elasticsearch。在等待backoff.init 秒后，filebeat尝试重新连接。如果连接尝试失败，退避计时器会按指数方式增加，直到 backoff.max。成功连接后，退避计时器被重置。默认值是 1s
timeout：#定义了 Elasticsearch 请求的HTTP请求超时时间，单位是秒。默认值是90秒

Processors -- 处理器

Dissect

# dissect模块是一个处理器，它的作用是对日志数据进行解析和转换。dissect处理器使用预定义的模式来识别和提取日志行中的特定字段，并将这些字段作为单独的事件字段存储。这使得可以将复杂的日志格式转换为结构化的事件数据，便于后续的索引、搜索和分析
processors:
  - dissect:
      when:
          contains:
              message: "[SLOW_LOG]"
          tokenizer: "%{msg1} total_latency=%{total_latency}, upstream_latency=%{upstream_latency}, business_latency=%{business_latency}, %{msg2}"
          field: "message"
          target_prefix: ""

# 示例
echo '[SLOW_LOG] demofilebeat total_latency=1996, upstream_latency=996, business_latency=1000, end!' >> access.log

请在此添加图片描述

Drop_fields

processors:
  - add_host_metadata:
      when.not.contains.tags: forwarded
  - drop_fields:
      fields: ["total_latency"]
      ignore_missing: true

# 返回的结果：
{
  "_index": ".ds-zijian-egsejxu8-2024.03.24-000003",
  "_type": "_doc",
  "_id": "D8l1cY4BBQ5-GDn5KF94",
  "_score": 1,
  "_source": {
    "@timestamp": "2024-03-24T17:14:37.241Z",
    "ecs": {
      "version": "8.0.0"
    },
    "host": {
      "name": "VM-0-6-tencentos"
    },
    "business_latency": "1000",
    "total": {
      "latency": 1996
    },
    "business": {
      "latency": 1000
    },
    "log": {
      "offset": 5719,
      "file": {
        "path": "/root/logs/access.log"
      }
    },
    "message": "[SLOW_LOG] demofilebeat total_latency=1996, upstream_latency=996, business_latency=1000, end!",
    "input": {
      "type": "log"
    },
    "msg1": "[SLOW_LOG] demofilebeat",
    "agent": {
      "ephemeral_id": "19666091-b6d2-4998-ad62-6eabfebbcb96",
      "id": "5b126ba6-d763-4bb9-a658-984c60c17f87",
      "name": "VM-0-6-tencentos",
      "type": "filebeat",
      "version": "8.12.2"
    },
    "msg2": "end!",
    "upstream": {
      "latency": 996
    },
    "upstream_latency": "996"
  },
  "fields": {
    "msg2": [
      "end!"
    ],
    "msg1": [
      "[SLOW_LOG] demofilebeat"
    ],
    "upstream_latency": [
      "996"
    ],
    "business.latency": [
      1000
    ],
    "input.type": [
      "log"
    ],
    "log.offset": [
      5719
    ],
    "message": [
      "[SLOW_LOG] demofilebeat total_latency=1996, upstream_latency=996, business_latency=1000, end!"
    ],
    "upstream.latency": [
      996
    ],
    "business_latency": [
      "1000"
    ],
    "agent.type": [
      "filebeat"
    ],
    "@timestamp": [
      "2024-03-24T17:14:37.241Z"
    ],
    "agent.id": [
      "5b126ba6-d763-4bb9-a658-984c60c17f87"
    ],
    "ecs.version": [
      "8.0.0"
    ],
    "log.file.path": [
      "/root/logs/access.log"
    ],
    "agent.ephemeral_id": [
      "19666091-b6d2-4998-ad62-6eabfebbcb96"
    ],
    "agent.name": [
      "VM-0-6-tencentos"
    ],
    "agent.version": [
      "8.12.2"
    ],
    "host.name": [
      "VM-0-6-tencentos"
    ],
    "total.latency": [
      1996
    ],
    "log.file.path.keyword": [
      "/root/logs/access.log"
    ]
  }
}

可以看到 total_latency 这个字段被删除了，upstream_latency 这个字段依旧存在。

Convert

# convert
processors:
  - convert:
      fields:
          - {from: "total_latency", to: "total.latency", type: "integer"}
          - {from: "upstream_latency", to: "upstream.latency", type: "integer"}
          - {from: "business_latency", to: "business.latency", type: "integer"}
      # ignore_missing是使用该processor出现错误的时候不进行报错，可以提高filebeat的健壮性
      ignore_missing: true
      fail_on_error: false

用了 Convert 之后可以将一些字段转换为特殊的特性，从而方便做一些操作；比如说转换为 Integer 类型之后，可以做范围查询。

请在此添加图片描述

Decode_json_fields

# decode_json_fields
processors:
  - decode_json_fields:
      fields:
      - message
      max_depth: 1
      overwrite_keys: true

腾讯云Filebeat日志采集方案

对于需要采集并分析日志的场景，可以使用 Filebeat采集数据，然后传输到腾讯云 Elasticsearch Serverless中进行存储，之后可以在 Kibana 中查询并分析日志。本文介绍如何配置 Filebeat 采集部署在服务器上的服务日志。

优点

Filebeat 是一个轻量型的日志采集器，可以轻松地采集服务器上的日志，从而使得查询或者分析业务服务端的日志变得简单。

Filebeat 能够逐行读取并发送日志，支持在出现中断的情况下，记录中断时读取到的文件位置信息，后续恢复正常后可以从中断前停止的位置继续开始。

Filebeat 非常适合采集 Nginx、Apache 以及容器服务的日志，并且提供可以直接引用的配置模板，极大的简化了这类服务的日志采集过程。

Filebeat 内置的processor具有强大的功能，比如 dissect 、drop_fields 、convert 等，在 Filebeat 介绍中对常见的 processor 进行详细介绍。

服务器部署Filebeat日志采集方案

一、部署条件

1、一台服务器

2、用户服务器和云上 vpc 网络相通

二、部署方案

方案：采集业务特定输出日志

1. 修改采集配置

修改 filebeat-path-diy.yaml 文件里的下述属性，以 node 主机路径作为过滤条件进行采集。

printf("hello world!");filebeat.inputs:
// 类型log
- type: log
// 输入要采集日志的路径，支持同时采集多个
  paths:
    - /root/logs/*.log
    - /var/logs/access.log

2. 修改索引配置

根据索引详情页信息，修改 filebeat-path-diy.yaml 文件里的下述属性。

请在此添加图片描述

    output.elasticsearch:
        hosts: ['http://space-6eiold1x.ap-guangzhou.qcloudes.com:80']  # 修改为项目空间内网访问地址和80端口号
        username: "elastic"                                            # 无须修改
        password: "xxxxxxx"                                            # 修改为对应用户密码 
        bulk_max_size: 2048                                            # 无须修改
        compression_level: 5                                           # 无须修改
        index: "old-index2-6eiold1x"                                   # 修改为索引名
        allow_older_versions: true                                     # 无须修改

3. 启动 Filebeat

sudo ./filebeat -e -c filebeat.yml

K8S集群部署Filebeat日志采集方案

一、部署条件

1、 K8s 集群

2、能连接 K8s 集群的 kubectl 客户端

3、用户 K8s 集群和云上 vpc 网络相通

二、部署方案

采集有两种方式，第一种方式，采集业务日志输出（非/var/log/containers/下的标准输出日志），选择node的主机路径；第二种方式，采集标准输出（/var/log/containers/下的标准输出日志），选择空间、 label 等来指定 pod。

方案1：采集业务特定输出日志

1. 修改采集配置

修改 filebeat-path-diy.yaml 文件里的下述属性，以 node 主机路径作为过滤条件进行采集。

# 修改日志采集路径，支持多个
    filebeat.inputs:
    - type: log
      paths:
        - /var/log/containers/1.log   # 改为node的主机路径，路径支持到文件
    - type: log
      paths:
        - /var/log/containers/*.txt   # 改为node的主机路径，路径支持通配符

2. 修改索引配置

根据索引详情页信息，修改 filebeat-path-diy.yaml 文件里的下述属性。

请在此添加图片描述

    output.elasticsearch:
        hosts: ['http://space-6eiold1x.ap-guangzhou.qcloudes.com:80']  # 修改为项目空间内网访问地址和80端口号
        username: "elastic"                                            # 无须修改
        password: "xxxxxxx"                                            # 修改为对应用户密码 
        bulk_max_size: 2048                                            # 无须修改
        compression_level: 5                                           # 无须修改
        index: "old-index2-6eiold1x"                                   # 修改为索引名
        allow_older_versions: true                                     # 无须修改

3. DaemonSet 部署 Filebeat

kubectl create -f filebeat-path-diy.yaml

方案2：采集标准输出日志

1. 修改采集配置

修改 filebeat-path-var.yaml 文件里的下述属性，以标签或者命名空间作为过滤条件进行采集

# 1. 根据labels和namespace过滤pod
    filebeat.autodiscover:
      providers:
        - type: kubernetes
          node: ${NODE_NAME}
          templates:
            - condition.and:
                - or:  # 填写选择的空间和标签信息
                    - equals.kubernetes.namespace: default
                    - equals.kubernetes.namespace: kube-system
                - equals.kubernetes.labels.k8s-app: "kube-dns"
                - equals.kubernetes.labels.pod-template-hash: "56555dd999"
                
# 2. 选择所有空间所有pod，包含现存及未来   
    filebeat.autodiscover:
      providers:
        - type: kubernetes
          node: ${NODE_NAME}
          templates:
            - condition:
                regexp.kubernetes.namespace: ".*"

2. 修改索引配置

根据索引详情页信息，修改 filebeat-path-var.yaml 文件里的下述属性

请在此添加图片描述

    output.elasticsearch:
        hosts: ['http://space-6eiold1x.ap-guangzhou.qcloudes.com:80']  # 修改为空间的内网访问地址和80端口号
        username: "elastic"                                            # 无须修改
        password: "xxxxxxx"                                            # 修改为对应用户密码 
        bulk_max_size: 2048                                            # 无须修改
        compression_level: 5                                           # 无须修改
        index: "old-index2-6eiold1x"                                   # 修改为索引名
        allow_older_versions: true                                     # 无须修改

3. DaemonSet 部署 Filebeat

kubectl create -f filebeat-path-var.yaml

总结

本文简单介绍了如何利用 Filebeat轻量级日志收集器，高效地将业务日志导入腾讯云的 ES Serverless 服务。Filebeat 以其轻量级和灵活性，成为日志收集的首选工具之一。结合腾讯云 ES Serverless 的一站式日志采集解决方案，用户可以轻松实现日志数据的集中管理和分析，无需担心基础设施的维护和扩展问题。文章中提供的一键部署功能，极大地简化了 Filebeat 的部署流程，使得即使是初学者也能快速上手。我们通过实际操作案例，向读者展示了从配置 Filebeat 到日志数据成功导入腾讯云ES的完整流程。使用 Filebeat 和腾讯云 ES Serverless，用户不仅可以节省时间和资源，还可以利用强大的搜索和分析能力，从日志中获得宝贵的业务洞察。随着日志管理和分析技术的不断进步，我们期待未来能为用户带来更多创新和便利。

文章来源于腾讯云开发者社区，点击查看原文

腾讯云开发者社区

免费产品

推荐排行

官方网站

热门标签