Projects

Selected work.

A few projects that capture how I think about LLM systems, evaluation, and applied ML.

Fortune 50 enterprise

Petabyte-Scale Streaming Data Platform

Migrated batch ingestion to near-real-time Spark/Kafka pipelines, reducing latency to under 5 minutes while improving throughput by 40% and lowering cost by 15%.

Spark Structured StreamingKafkaAirflowDelta LakeHiveGCPAzureTerraform

Fortune 50 enterprise

RAG-Powered Supply-Chain Forecasting

End-to-end RAG forecasting system grounding LLM responses in fresh supply-chain telemetry. Lifted predictive accuracy by 30%.

PythonFastAPIPyTorchLangChainKafkaSparkKubernetesGCP

Fortune 50 enterprise

Production LLM Evaluation Pipeline

Offline + online evaluation harness with golden sets, faithfulness and contradiction scoring, and release gating on quality deltas.

PythonLLM evalsCI/CDKubernetes

Ph.D. Dissertation University of the Cumberlands

Summarization vs RAG for Long-Term LLM Memory

Comparative study of summarization and retrieval-augmented generation as memory mechanisms for long-running conversational agents.

ResearchLLMsMemory architectures

M.Sc. Research, University of Kentucky

Glutini Research FTIR + Machine Learning

FTIR spectroscopy coupled with machine learning to detect and quantify gluten contamination in grain-based foods.

Pythonscikit-learnFTIRSignal processing

Visit site

Open Source

llm-memory-eval

Reproducible evaluation harness comparing summarization-based memory and retrieval-augmented generation for long-term conversational performance in LLMs (LongBench, LoCoMo, LongMemEval).

PythonLLM evalsRAGBenchmarking

Visit site

Open Source

CanonIQ

AI-assisted, local-first engine that automatically maps messy data to your canonical schema — with a confidence score and a plain-English reason for every match. Profiles, validates, and detects schema drift.

PythonETLData validationData mapping

Visit site

Open Source

bizdata-doctor

Open-source CLI and MCP server for scanning business datasets, detecting data quality issues, and generating AI-powered data health reports.

PythonCLIMCPData quality

Visit site

Open Source

ContextTrust

Open-source LLM memory governance and evaluation toolkit for tracking, scoring, auditing, and improving conversational memory and context retrieval.

PythonLLMsMemory governanceEvaluation

Visit site

Open Source

StoryForge

Turns written short-fiction episodes into ready-to-post vertical videos for TikTok, Reels & YouTube Shorts — all from your laptop.

PythonFFmpegTTSVideo generation

Visit site