XPath2Doc(通用网站数据采集及Doc生成工具)v1.0.0.0-17软件园

应用简介

XPath2Doc通用网站数据采集及Doc生成工具是一款半自动采集网页并生成WordDocx文件的工具。具有七茶茶和天眼茶合集配置。使用XPath2Doc需要在WebBrowser窗口中手动登录，找到需要的数据页面，然后点击程序按钮收集数据，所以它是一个半自动的网页数据填充Docx工具。

XPath2Doc（通用网站数据采集和Doc生成工具）是一个半自动采集网页并生成Word docx文件的工具。具有七茶茶和天眼茶合集配置。要使用XPath2Doc，您需要在WebBrowser窗口中手动登录并找到所需的数据页面。然后点击程序按钮进行采集，所以它是一个半自动的网页数据填充Docx工具。

XPath2Doc(通用网站数据采集及Doc生成工具)

工作准则

网页的每个元素都可以表示为一条XPath语句，因此我们可以读取浏览器打开的网站页面的源代码，并通过XPath语句获取网页元素中的文本。

如何获取XPath语句：

通常我们可以使用谷歌的Chrome浏览器打开网站页面，按F12调出开发者工具界面，在ELements选项卡下，移动鼠标就可以看到网页内容被阴影覆盖，点击三角形符号，您可以进一步精确定位，直到找到所需的最终数据位置。右键单击找到的文本，在弹出的菜单中选择Copy-复制XPath，然后将其粘贴到记事本中，即可得到所需的XPath语句。

这里需要说明一件事：如果复制的XPath语句中有/tbody，就会影响集合。程序内部已经处理了这个问题，但在某些特殊情况下仍然可能影响数据采集，可以手动去除。

操作环境

请为Windows 7 Sp1操作系统安装以下组件（重要：如果未安装VC库，则该程序无法启动）：

VC2017起

.net框架4.5.2

Windows 10系统下，上述组件一般都是自带的，不需要单独安装。 Windows 10 1903 运行成功。

不支持Windows XP 操作系统。

指示

1、本程序需要三个配置文件：General.ini、customization.ini、customization template.docx。最后两个文件名是你自己定义的。

General.ini 文件定义了INI 文件和Docx 模板文件的存储目录。您可以将其留空。默认是程序所在的目录。

定制.ini和定制模板.docx是软件用户用来从网页中收集XPath语句并最终生成文件的Docx模板。具体设置方法请参见ini文件中的说明。需要注意的是，Docx模板文件中的“@#0001#@”等字符是INI文件中定义的标签字符串，用于替换网页集合内容。替换关键字的后缀和模板文件名在ini文件中定义。

2. 在使用本程序之前，请创建您自己的INI配置文件和Docx模板文件。（具体请参见附上的七查查、天眼查配置文件及起诉书模板）

需要注意的是，模板文件支持使用不同的URL来收集文档的不同部分。注意Url设置。

指示

启动程序——选择一个模板——点击数据采集按钮旁边的黑色三角符号，点击下拉菜单，点击需要采集的部分。等待浏览器加载完网页，手动输入需要查询的内容，点击查询，找到数据的具体页面，然后点击采集数据按钮，观察列表中是否已经获取到了需要的数据正确的。继续点击下拉菜单，选择下一个要收集的部分。如果URL 发生变化，请等待浏览器加载并找到所需的数据页面。单击“收集数据”按钮，查看右侧列表中是否获取到第二部分数据。重复此操作，直到收集完所有数据。

如果前后两部分的URL相同，则在点击下一部分的下拉菜单之前，必须在浏览器中重新查询新的数据。新的数据页面出来后，点击下拉菜单选择下一部分进行采集。（当URL相同时，点击下一部分将直接从网页中获取数据。如果浏览器不改变页面，数据将是错误的。）如果某个部分需要重新收集，请先点击下拉菜单中的零件名称，然后点击采集按钮，重复采集该零件（此时可以随意更换浏览器的数据页面，会得到不同公司的数据））。

如果列表中收集到的数据有偏差，可以点击自行修改。如果XPath语句有错误，也可以自己修改一下看测试结果（XPath语句修改后会立即重新获取浏览器的数据，所以浏览器最好使用有效的数据页面）。程序中修改的XPath语句不会保存在INI文件中，请手动保存。

如果列表中的数据正确且预览窗口中的Docx模板内容正确，则可以单击“创建文档”按钮，填写要生成的文件名。软件将使用捕获的网页数据替换模板中的索引字符串并自动生成Docx文档。

需要注意的是，右下角的Docx预览窗口无法完全支持Word文档，非标准文档中文本可能会丢失或错位。在这种情况下，您可以忽略它，或者将模板文件更改为标准文本格式（单倍行距）。