<div dir="ltr">Dear all,<div><br></div><div>I would like to take this opportunity to give you another update on Project Caerus. As you may remember, the project develops techniques such as near-data processing and semantic caching to optimize the performance of disaggregated data lakes. On the front of near data processing, we have implemented the pushdown of a wide range of SQL operators from a Spark cluster to a storage cluster that deploys either HDFS (CSV format) or S3.  Our evaluation using TCPH has shown significant improvements in application latency, network I/O and compute-side CPU time. You can check out our <a href="https://github.com/open-infrastructure-labs/caerus-dike/blob/master/doc/ndp_design.pdf">design document</a> and latest <a href="https://github.com/open-infrastructure-labs/caerus-dike/blob/master/doc/s3_hdfs_results_6_1_2021.pdf">evaluation results</a> in GitHub.</div><div><br></div><div>On the front of semantic cache, which explores opportune caching of a variety of data and metadata, we have the core functionality working, with 4x-5x improvement in execution time and CPU time. Again the <a href="https://github.com/open-infrastructure-labs/caerus-semantic-cache/blob/master/Design.docx">design document</a> and the <a href="https://github.com/open-infrastructure-labs/caerus-semantic-cache/blob/master/Evaluation.docx">initial evaluation results</a> are available in GitHub.</div><div><br></div><div>As always, your comments and contributions are welcome.</div><div><br></div><div>- Hui</div></div>