词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
爬虫1.0.jsonsitemap.xml 链接,工作流会:<head> 与 #nearstream-content 主区块,清理、规整为适合 RAG 的文本docId、contentHash)sitemap.xml 的 URL(由 When chat message received 获取 chatInput)When chat message received(Chat Trigger)chatInput(预期为 sitemap.xml 的 URL)HTTP Request3chatInput 指向的 URL,获取 sitemap XMLXML1urlset.url 列表Filter(Code)productsName 白名单过滤,只保留目标产品路径{ urls: [...] }Split Out1urls 数组拆成多条 itemLimit1Loop Over Items1HTTP Request4http://49.51.248.71:11235/crawl)urls[0] = {{ $json.loc }}(对当前 URL 发起抓取)Wait2Loop Over Items1 继续下一条 URLHTMLresults[0].html 执行选择器提取:head → html#nearstream-content → htmlCodehead 中提取 SEO 相关标签(title/meta/link/script ld+json)content:保留 <img> 属性,其他标签去属性,移除注释(示例中注释函数留空,可按需完善)data;附带 url 与 name(URL 最后一 段)onError: continueErrorOutput,单条失败不会中断全流程Build Doc Fingerprint(Code)docId = sha1(url)contentHash = sha256(data)AI Agent1(LangChain Agent)data 包入 <html>...</html>,按预设 Prompt 将页面内容整理为更适合 RAG 的结构化文本(英文输出)Google Gemini Chat Model1Convert to File1Pinecone Vector Storeinsertnearstream-content-0810(示例值,需替换为你的索引)Default Data Loader、Recursive Character Text Splitter、Embeddings Google Gemini 等节点用于 LangChain 文档/切分/嵌入,但请注意:Default Data Loader(document)再到 Text Splitter(chunk)再到 Embeddings(embedding),最终连到 Pinecone 的相应输入(ai_document/ai_textSplitter/ai_embedding)Default Data Loader提示:如果你只想先跑通“抓取→清洗→生成文本文件”,可以暂时断开 Pinecone 相关节点。
HTTP Request4.url 替换为你的爬虫服务地址urls[0])Filter 节点内的 domain 与 productsName 为你的站点与产品路径前缀Google Gemini Chat Model1 需要配置 API Key/凭证Pinecone Vector Store 配置索引名称与凭证Default Data Loader、Text Splitter、Embeddings 的参数满足你的需求sitemap.xml 的 URLHTTP Request3 是否成功返回 XMLFilter 是否筛出目标 URLHTTP Request4 是否得到 HTMLHTML/Code 是否获得结构化 dataAI Agent1 是否产出文本Convert to File1 是否生成文件Limit1.maxItems:单次运行最大处理 URL 数量Wait2.amount:抓取两次之间的等待秒数(节流)Filter 中 canonicalize/白名单逻辑:对新站点进行调整AI Agent1 的 Prompt:根据期望的 RAG 结构进行微调Text Splitter 的 chunkOverlap、chunkSize:影响向量化粒度HTTP Request4 的 URL、Body、鉴权与 CORS/防火墙配置Wait2 间隔,避免触发对方限流HTML 节点选择器(#nearstream-content 是否存在)Default Data LoaderEmbeddings 与 Pinecone 凭证/索引正确robots.txt 及相关条例