Mr. Table (by TYO lab)
截图:
简介:
简而言之,Mr.Table 是一个可以帮助从网页的表格(例如<table>*</table>)中提取数据的工具,提取的数据可以保存为“csv”或“json” “ 格式。
我们经常需要从 Internet 上收集数据以用于我们的工作或学习,但是网页中显示的数据往往不是我们想要的格式。例如,网页中的大部分数据都是使用 HTML 标签 '<table></table>' 或 '<div></div>' 来呈现的,但我们希望数据可以通过我们的程序或我们的工具(例如 Excel ).
通过“表先生”,可以将数据从你在网页上看到的转换成我们实际可以使用的格式。
数据通常使用 HTML 表格和相关标签以下列方式呈现:
- <table> 代表表格
- <thead> 用于表列名称
- <tr> 用于表格标题行
- <th> 用于表头单元格
- <tbody> 用于实际数据
- <tr> 用于数据行
- <td> 用于数据单元格
对于这些数据,您可以简单地使用 pset 表选择器、列选择器、单元格选择器等的默认设置。
数据也经常使用 CSS 显示,数据在 <div> 标签中分组并使用 CSS 类设置样式,例如:
<ol>
<!-- 列标题是列表的第一项 -->
<李>
<div>#</div>
<分区>
<div>编号</div>
<div>名称</div>
<div>年龄</div>
</div>
...
</li>
<李>
<div>1</div>
<分区>
<div>李四</div>
<div>23</div>
</div>
...
</li>
<李>
<div>1</div>
<分区>
<div>约翰·史密斯</div>
<div>37</div>
</div>
...
</li>
...
</ol>
不幸的是,对于此类表,您只能通过手动指定选择器来提取它们。
如果我们能够获得更多支持,我们可以采用一种巧妙的方式从此类表格中提取数据。