42K StarCrawl4AI几行代码就可实现强大的网页爬虫

在当代 AI 研究中，尤其是大型措辞模型（LLM）演习和运用中，数据的获取与处理是一个关键环节。

为了帮助开拓者更高效地抓取和整理网络数据，Crawl4AI 出身了。
这是一个专为 LLM 优化的开源网页爬虫工具，其便捷的利用办法与强大的功能，使得网页数据采集变得前所未有的轻松。

Crawl4AI 是一款基于 LLM（大型措辞模型）的开源网页爬虫工具，它的设计初衷是为开拓者供应一个大略易用、功能强大的数据抓取办理方案，特殊是为了知足 AI 研究中的数据采集需求。

通过仅需几行代码，用户便能实现高效的网页爬取和数据提取。

42K StarCrawl4AI几行代码就可实现强大的网页爬虫

核心功能开源且免费：Crawl4AI 完备开源，开拓职员可以自由利用和修正，无需担心本钱问题。
AI 驱动的自动化数据提取：通过 LLM，Crawl4AI 能够智能化地识别和解析网页元素，自动进行数据提取，极大节省开拓者的韶光与精力。
构造化数据输出：支持将提取到的数据转换为 JSON、Markdown 等构造化格式，方便后续的剖析和处理，确保数据能够无缝集成到 AI 模型演习中。
多功能支持/多URL抓取：支持滚动页面、抓取多个 URL、提取媒体标签（如图片、视频、音频）、元数据、外部/内部链接以及屏幕截图等。
高度定制化：支持用户自定义认证、要求头信息、爬取前页面修正、用户代理以及 JavaScript 脚本实行，确保爬虫可以针对不同网页做出灵巧调度。
高等提取策略：支持多种提取策略，包括基于主题、正则表达式、句子的分块策略，以及利用 LLM 或余弦聚类的高等提取策略。
如何利用？

安装

利用 pip 安装：

pip install crawl4ai

利用 Docker 安装：

构建 Docker 镜像并运行：

docker build -t crawl4ai .docker run -d -p 8000:80 crawl4ai

从 Docker Hub 直接运行：

docker pull unclecode/crawl4ai:latestdocker run -d -p 8000:80 unclecode/crawl4ai:latest

利用

Crawl4AI 的利用非常大略，仅需几行代码就能实现强大的功能。
以下是利用 Crawl4AI 进行网页数据抓取的示例：

import asynciofrom crawl4ai import AsyncWebCrawlerasync def main(): async with AsyncWebCrawler(verbose=True) as crawler: js_code = ["const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();"] result = await crawler.arun( url="https://www.nbcnews.com/business", js_code=js_code, css_selector="article.tease-card", bypass_cache=True ) print(result.extracted_content)if __name__ == "__main__": asyncio.run(main())

利用场景

Crawl4AI 适宜以了局景：

• AI 研究：须要大量网页数据用于措辞模型演习的研究职员和开拓者。
• 数据科学：须要高效从网页中提取数据进行剖析的科学家或剖析师。
• 开拓者：希望在运用程序中实现网页数据抓取和自动化信息采集的开拓者。
总结

Crawl4AI 是一个功能强大且易用的网页爬虫工具，它为大型措辞模型和 AI 运用量身打造，供应了丰富的功能和灵巧的配置选项。

从构造化输出到多种提取策略，Crawl4AI 为开拓者在数据抓取领域带来了极大的便利。

GitHub：https://github.com/unclecode/crawl4ai

欢迎点赞关注我，获取更多关于 AI 的前沿资讯。
别忘了将本日的内容分享给你的朋友们，让我们一起见证 AI 技能的飞跃！

每期AI知识网

42K StarCrawl4AI几行代码就可实现强大的网页爬虫

打造个性化时尚_探索能设计衣服的网站创新之路

真没整容靠换脸翻身的檀健次出道前后差距来了