目录

Github 2024-04-16 Python开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-16统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下:

开发语言项目数量
Python项目10
TypeScript项目1
Vue项目1

系统设计指南

  • 创建周期:2507 天
  • 开发语言:Python
  • 协议类型:Other
  • Star数量:241693 个
  • Fork数量:42010 次
  • 关注人数:241693 人
  • 贡献人数:109 人
  • Open Issues数量:413 个
  • Github地址:https://github.com/donnemartin/system-design-primer.git

/images/donnemartin-system-design-primer-0.png

系统设计指南是一个开源项目,帮助个人学习如何设计大规模系统并为系统设计面试做准备。它还包括Anki记忆卡,以便有效学习。

Python中的算法实现集合

  • 创建周期:2831 天
  • 开发语言:Python
  • 协议类型:MIT License
  • Star数量:178357 个
  • Fork数量:43408 次
  • 关注人数:178357 人
  • 贡献人数:457 人
  • Open Issues数量:240 个
  • Github地址:https://github.com/TheAlgorithms/Python.git
  • 项目首页: https://the-algorithms.com/

该项目包含了用Python实现的各种算法,旨在用于学习目的。需要注意的是,这些实现可能不如Python标准库中的实现高效,因此在使用时应谨慎。

Zulip:开源团队协作工具

  • 创建周期:3126 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:19936 个
  • Fork数量:7409 次
  • 关注人数:19936 人
  • 贡献人数:391 人
  • Open Issues数量:2518 个
  • Github地址:https://github.com/zulip/zulip.git
  • 项目首页: https://zulip.com

Zulip是一个开源的团队协作工具,具有独特的基于主题的线程,旨在进行实时和异步对话。它被财富500强公司、领先的开源项目和成千上万其他组织所使用。Zulip由来自世界各地的分布式开发人员社区构建,每个月有1000多名贡献者合并了500多次提交。

多平台爬虫工具

  • 创建周期:282 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:2419 个
  • Fork数量:451 次
  • 关注人数:2419 人
  • 贡献人数:8 人
  • Open Issues数量:24 个
  • Github地址:https://github.com/NanmiCoder/MediaCrawler.git

这个开源项目提供了针对小红书、抖音、快手、B站、微博等平台的爬虫工具,可以抓取视频、图片、评论、点赞、转发等信息。项目使用playwright搭建桥梁,保留登录成功后的上下文浏览器环境,并通过执行JS表达式获取一些加密参数,从而简化了核心加密JS代码的复现和逆向难度。

LitGPT: 高度优化的LLM预训练、微调和部署工具

  • 创建周期:348 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:6410 个
  • Fork数量:684 次
  • 关注人数:6410 人
  • 贡献人数:66 人
  • Open Issues数量:165 个
  • Github地址:https://github.com/Lightning-AI/litgpt.git

LitGPT是一个命令行工具,允许用户使用闪电关注、FSDP、4位、LoRA等最先进的技术来预训练、微调和部署大型语言模型(LLMs)。它基于高度优化的配置和训练配方,用于训练开源LLMs,重新实现了模型架构和训练配方,以消除抽象层,确保Apache 2.0合规性,并优化性能,实现更快的训练和更低的成本。

Bisheng:下一代人工智能应用的开放LLM DevOps平台

  • 创建周期:230 天
  • 开发语言:Python, TypeScript
  • 协议类型:Apache License 2.0
  • Star数量:5250 个
  • Fork数量:873 次
  • 关注人数:5250 人
  • 贡献人数:17 人
  • Open Issues数量:19 个
  • Github地址:https://github.com/dataelement/bisheng.git
  • 项目首页: https://bisheng.dataelem.com/

/images/dataelement-bisheng-0.png

Bisheng 是一个面向下一代人工智能应用的开放LLM DevOps平台。它为开发和部署人工智能应用提供了全面的环境。

aiXcoder-7B代码大型语言模型

  • 创建周期:14 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:630 个
  • Fork数量:53 次
  • 关注人数:630 人
  • 贡献人数:3 人
  • Open Issues数量:3 个
  • Github地址:https://github.com/aixcoder-plugin/aiXcoder-7B.git

aiXcoder-7B代码大型语言模型是一种最先进的模型,旨在理解和生成多种编程语言的代码。它在代码完成、理解、生成和其他编程语言任务方面具有高性能。

Parler-TTS: 轻量级开源文本到语音模型

  • 创建周期:61 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:1080 个
  • Fork数量:76 次
  • 关注人数:1080 人
  • 贡献人数:2 人
  • Open Issues数量:16 个
  • Github地址:https://github.com/huggingface/parler-tts.git

Parler-TTS是一个轻量级的、完全开源的文本到语音(TTS)模型,旨在以给定说话者的风格生成高质量、自然流畅的语音。它基于 Stability AI 和 Edinburgh University 的 Dan Lyth 和 Simon King 的论文《自然语言引导的高保真文本到语音与合成注释》,该存储库包含了 Parler-TTS 的推理和训练代码,并以宽松的许可证公开发布,允许社区在此基础上构建并开发自己强大的TTS模型。他们还发布了 Parler-TTS Mini v0.1,这是一个基于1.05万小时音频数据训练的6亿参数模型,计划将数据规模扩大到5万小时,以准备v1模型。

MiniCPM-V 和 OmniLMM: 图文理解的开源多模态大模型系列

  • 创建周期:78 天
  • 开发语言:Python
  • 协议类型:Apache License 2.0
  • Star数量:861 个
  • Fork数量:49 次
  • 关注人数:861 人
  • 贡献人数:8 人
  • Open Issues数量:10 个
  • Github地址:https://github.com/OpenBMB/MiniCPM-V.git

MiniCPM-V 和 OmniLMM 是面向图文理解的开源多模态大模型系列。它们接受图像和文本输入,并提供高质量的文本输出。MiniCPM-V 2.0 版本能够处理任意长宽比的图像,具有 180 万像素,实现了类似 Gemini Pro 的场景文字识别能力和与 GPT-4V 相当的低幻觉率。OmniLMM-12B 模型在多个基准测试中优于同规模的其他模型,并实现了比 GPT-4V 更低的幻觉率。

MaxKB:基于LLM大语言模型的知识库问答系统

  • 创建周期:215 天
  • 开发语言:Python, Vue
  • 协议类型:GNU General Public License v3.0
  • Star数量:739 个
  • Fork数量:128 次
  • 关注人数:739 人
  • 贡献人数:32 人
  • Open Issues数量:29 个
  • Github地址:https://github.com/1Panel-dev/MaxKB.git

/images/1panel-dev-maxkb-0.png

MaxKB 是基于 LLM 大语言模型的知识库问答系统。它旨在成为一种开箱即用的解决方案,支持轻松集成到第三方业务系统中。它允许直接上传文档、自动网络文档爬取、文本分割、向量化,并提供智能问答交互体验。它可以零编码快速嵌入到第三方业务系统,并支持多个大型模型,包括本地私有模型如 Llama 2、Azure OpenAI 和百度千帆大模型。