高负载数据处理的解决方案与选择

250次阅读

问题描述

在构建一个基于AWS的数据科学系统时，用户遇到了处理大量数据的问题。目前的流程是从Redis获取数据，从FSx/EBS获取模型，然后运行数据科学脚本。该脚本的处理时间约为5-10秒，具体取决于数据和模型的大小。他们已经开发了一个在Kubernetes中运行的Python应用程序来监听队列并执行数据科学流程。但是，他们面临了Python内存泄漏的问题。无论他们如何尝试，每次加载/卸载大型对象的长时间运行应用程序都会不断增长内存。因此，他们正在尝试新的方法，即每次创建新的进程来运行脚本，并在完成后关闭进程（仍在Kubernetes中）。
用户的问题是：是否有更好的方法来解决这个问题？AWS Lambda可能是一个不错的选择，但它有内存/ CPU 限制，不适合当前情况。Kubernetes Job的效率不高，因为脚本本身只需要几秒钟的运行时间。用户正在寻找其他资源/基础设施解决方案，而不是软件方案。

解决方案

在面对高负载数据处理问题时，有多种资源和基础设施解决方案可供选择。根据你的需求和限制，可以选择适合的技术来实现。以下是一些可能的解决方案：

方案1：AWS Lambda

AWS Lambda是一种无服务器计算服务，它可以在需要时自动运行代码，而无需管理基础设施。然而，Lambda有内存和CPU限制，这可能不适合你的CPU/内存密集型工作负载。如果你的数据科学脚本需要更多的资源，那么Lambda可能不是最佳选择。

方案2：AWS Batch

AWS Batch是一种批处理计算服务，适用于大规模的批量作业处理。你可以定义作业队列和作业定义，以及需要的计算资源。这可以帮助你有效地处理高负载的数据处理工作。

方案3：AWS Fargate

AWS Fargate是一种容器计算服务，它使你无需管理底层基础设施即可运行容器。你可以将数据科学脚本打包成容器，并在Fargate中运行。这可以为你提供更多的资源和控制，适用于CPU/内存密集型工作负载。

方案4：AWS EC2

如果你需要更大的自定义性和控制权，你可以考虑在AWS EC2实例上运行你的数据处理脚本。你可以选择适合你工作负载的实例类型，并根据需要调整资源配置。

方案5：Kubernetes Job

虽然你提到Kubernetes Job的效率问题，但它仍然是一种处理批量作业的有效方式。如果你的脚本只需要几秒钟的运行时间，你可以将多个作业放在同一个Job中，以最大限度地减少开销。

方案6：AWS Step Functions

AWS Step Functions是一种可视化的工作流编排服务，可以将多个AWS服务和Lambda函数组合成复杂的工作流程。你可以使用Step Functions来管理和协调你的数据处理流程，根据需要运行各个步骤。

根据你的需求，可以从上述解决方案中选择一个或多个来构建适合你的高负载数据处理系统。请根据资源需求、性能要求和预算限制进行权衡和选择。希望这些选项能对你有所帮助！

正文完

devops 运维

发表至：运维问题

2023-11-30

在Terraform中引用本地构建的Docker镜像

Istio中Envoy代理与同一Pod中的https容器通信

Salt状态中如何匹配模式并替换目录中的所有文件

Kubernetes多云部署

Jenkins插件：用于处理pylint检查结果的方法