Categories

Python

Xiaomi Home:小米官方开源 Home Assistant 插件
开源项目

Xiaomi Home:小米官方开源 Home Assistant 插件

Home Assistant 已成为开源家庭自动化的行业标准,将来自数十家制造商的设备统一到单一控制界面中。但与特定生态系统的集成历来依赖于社区开发的插件,这些插件逆向工程通信协议,并在制造商更新固件时失效。Xiaomi Home(ha_xiaomi_home)彻底改变了这种动态:它是由小 …

ScrapeGraphAI:LLM 驱动的图形逻辑网页抓取工具
AI

ScrapeGraphAI:LLM 驱动的图形逻辑网页抓取工具

传统的网页抓取很脆弱。基于 CSS 选择器和 XPath 表达式建立的爬虫,在目标网站更新其 HTML 结构时就会失效。大规模维护爬虫变成了不断追赶版面变化、重构选择器和重新测试管线的游戏。ScrapeGraphAI 采用了一种根本不同的方法:它不硬编码提取规则,而是使用 LLM 从语义上 …

RapidLayout:开源中英文文档版面分析工具
AI

RapidLayout:开源中英文文档版面分析工具

文档版面分析是任何文档理解管线中至关重要的第一步。在 OCR 提取文本之前、在表格被解析之前、在内容被分类之前,系统需要先了解事物在页面上的位置。RapidLayout 是 RapidAI 团队开发的开源库,专注于解决这一挑战,并同时支持中英文文档内容。

MongoEngine:Python 对象文档映射器(ODM)for MongoDB
Python

MongoEngine:Python 对象文档映射器(ODM)for MongoDB

MongoDB 是最受欢迎的 NoSQL 数据库之一,但直接使用原始的 PyMongo 可能会显得冗长且容易出错。您会花太多时间编写用于文档验证、字段类型检查和关系管理的样板代码。MongoEngine 解决了这个问题,它为 MongoDB 带来了类似 Django 的声明式抽象层,在超过 …

MediaCrawler:开源社交媒体数据爬虫,获 3 万颗星
Open Source

MediaCrawler:开源社交媒体数据爬虫,获 3 万颗星

社交媒体数据是市场研究、趋势分析和竞争情报的金矿——但要通过编程方式访问却出了名地困难。平台会主动封锁爬虫、变更 API 并要求复杂的认证流程。MediaCrawler 已成为应对这一挑战最受欢迎的开源解决方案之一,拥有超过 30,000 个 GitHub 星标,并支持所有主要的中文社交媒 …

TAG
CATEGORIES