网络工具 | 18M
语言:简体
3 .0
应用简介
XPath2Doc通用网站数据采集及Doc生成工具是一款半自动采集网页并生成WordDocx文件的工具。具有七茶茶和天眼茶合集配置。使用XPath2Doc需要在WebBrowser窗口中手动登录,找到需要的数据页面,然后点击程序按钮收集数据,所以它是一个半自动的网页数据填充Docx工具。
XPath2Doc(通用网站数据采集和Doc生成工具)是一个半自动采集网页并生成Word docx文件的工具。具有七茶茶和天眼茶合集配置。要使用XPath2Doc,您需要在WebBrowser窗口中手动登录并找到所需的数据页面。然后点击程序按钮进行采集,所以它是一个半自动的网页数据填充Docx工具。
工作准则
网页的每个元素都可以表示为一条XPath语句,因此我们可以读取浏览器打开的网站页面的源代码,并通过XPath语句获取网页元素中的文本。
如何获取XPath语句:
通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,移动鼠标就可以看到网页内容被阴影覆盖,点击三角形符号,您可以进一步精确定位,直到找到所需的最终数据位置。右键单击找到的文本,在弹出的菜单中选择Copy-复制XPath,然后将其粘贴到记事本中,即可得到所需的XPath语句。
这里需要说明一件事:如果复制的XPath语句中有/tbody,就会影响集合。程序内部已经处理了这个问题,但在某些特殊情况下仍然可能影响数据采集,可以手动去除。
操作环境
请为Windows 7 Sp1操作系统安装以下组件(重要:如果未安装VC库,则该程序无法启动):
VC2017起
.net框架4.5.2
Windows 10系统下,上述组件一般都是自带的,不需要单独安装。 Windows 10 1903 运行成功。
不支持Windows XP 操作系统。
指示
1、本程序需要三个配置文件:General.ini、customization.ini、customization template.docx。最后两个文件名是你自己定义的。
General.ini 文件定义了INI 文件和Docx 模板文件的存储目录。您可以将其留空。默认是程序所在的目录。
定制.ini和定制模板.docx是软件用户用来从网页中收集XPath语句并最终生成文件的Docx模板。具体设置方法请参见ini文件中的说明。需要注意的是,Docx模板文件中的“@#0001#@”等字符是INI文件中定义的标签字符串,用于替换网页集合内容。替换关键字的后缀和模板文件名在ini文件中定义。
2. 在使用本程序之前,请创建您自己的INI配置文件和Docx模板文件。 (具体请参见附上的七查查、天眼查配置文件及起诉书模板)
需要注意的是,模板文件支持使用不同的URL来收集文档的不同部分。注意Url设置。
指示
启动程序——选择一个模板——点击数据采集按钮旁边的黑色三角符号,点击下拉菜单,点击需要采集的部分。等待浏览器加载完网页,手动输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察列表中是否已经获取到了需要的数据正确的。继续点击下拉菜单,选择下一个要收集的部分。如果URL 发生变化,请等待浏览器加载并找到所需的数据页面。单击“收集数据”按钮,查看右侧列表中是否获取到第二部分数据。重复此操作,直到收集完所有数据。
如果前后两部分的URL相同,则在点击下一部分的下拉菜单之前,必须在浏览器中重新查询新的数据。新的数据页面出来后,点击下拉菜单选择下一部分进行采集。 (当URL相同时,点击下一部分将直接从网页中获取数据。如果浏览器不改变页面,数据将是错误的。)如果某个部分需要重新收集,请先点击下拉菜单中的零件名称,然后点击采集按钮,重复采集该零件(此时可以随意更换浏览器的数据页面,会得到不同公司的数据) )。
如果列表中收集到的数据有偏差,可以点击自行修改。如果XPath语句有错误,也可以自己修改一下看测试结果(XPath语句修改后会立即重新获取浏览器的数据,所以浏览器最好使用有效的数据页面)。程序中修改的XPath语句不会保存在INI文件中,请手动保存。
如果列表中的数据正确且预览窗口中的Docx模板内容正确,则可以单击“创建文档”按钮,填写要生成的文件名。软件将使用捕获的网页数据替换模板中的索引字符串并自动生成Docx文档。
需要注意的是,右下角的Docx预览窗口无法完全支持Word文档,非标准文档中文本可能会丢失或错位。在这种情况下,您可以忽略它,或者将模板文件更改为标准文本格式(单倍行距)。
热门攻略