<div dir="ltr">Dear all,<div><br></div><div>As you may know, the Caerus project of the Open Infra Labs investigates techniques such as near-data processing and semantic caching to optimize the performance of disaggregated data lakes. I am pleased to announce that an initial version of the project code is now available in the open infra lab repo (<a href="https://github.com/open-infrastructure-labs/caerus">https://github.com/open-infrastructure-labs/caerus</a>). The initial code base enables the pushing down of Spark SQL operations to the data nodes of HDFS. Attached is a preliminary evaluation of the work using TPCH benchmark. You are all welcome to check out and, better yet, contribute to the work. We will be using the project wiki (<a href="https://github.com/open-infrastructure-labs/caerus/wiki">https://github.com/open-infrastructure-labs/caerus/wiki</a>) for discussions and questions. </div><div><br></div><div>- Hui Lei<br><div><br></div></div></div>