Categories

Python

Xiaomi Home:小米官方開源 Home Assistant 外掛
開源專案

Xiaomi Home:小米官方開源 Home Assistant 外掛

Home Assistant 已成為開源家庭自動化的業界標準,將來自數十家製造商的裝置統一到單一控制介面中。但與特定生態系統的整合歷來依賴於社群開發的外掛,這些外掛逆向工程通訊協定,並在製造商更新韌體時失效。Xiaomi Home(ha_xiaomi_home)徹底改變了這種動態:它是由小 …

ScrapeGraphAI:LLM 驅動的圖形邏輯網頁爬取工具
AI

ScrapeGraphAI:LLM 驅動的圖形邏輯網頁爬取工具

傳統的網頁爬取很脆弱。基於 CSS 選擇器和 XPath 表達式建立的爬蟲,在目標網站更新其 HTML 結構時就會失效。大規模維護爬蟲變成了不斷追趕版面變化、重構選擇器和重新測試管線的遊戲。ScrapeGraphAI 採用了一種根本不同的方法:它不硬編碼提取規則,而是使用 LLM 從語意上 …

RapidLayout:開源中英文文件版面分析工具
AI

RapidLayout:開源中英文文件版面分析工具

文件版面分析是任何文件理解管線中至關重要的第一步。在 OCR 提取文字之前、在表格被解析之前、在內容被分類之前,系統需要先了解事物在頁面上的位置。RapidLayout 是 RapidAI 團隊開發的開源函式庫,專注於解決這一挑戰,並同時支援中英文文件內容。

MongoEngine:Python 物件文件對映器(ODM) for MongoDB
Python

MongoEngine:Python 物件文件對映器(ODM) for MongoDB

MongoDB 是最受歡迎的 NoSQL 資料庫之一,但直接使用原始的 PyMongo 可能會顯得冗長且容易出錯。您會花太多時間撰寫用於文件驗證、欄位型別檢查和關係管理的樣板程式碼。MongoEngine 解決了這個問題,它為 MongoDB 帶來了類似 Django 的宣告式抽象層,在超 …

MediaCrawler:開源社群媒體資料爬蟲,獲 3 萬顆星
Open Source

MediaCrawler:開源社群媒體資料爬蟲,獲 3 萬顆星

社群媒體資料是市場研究、趨勢分析和競爭情報的金礦——但要透過程式化方式存取卻出了名地困難。平台會主動封鎖爬蟲、變更 API 要求複雜的驗證流程。MediaCrawler 已成為應對這一挑戰最受歡迎的開源解決方案之一,擁有超過 30,000 個 GitHub 星星,並支援所有主要的中文社群媒 …

TAG