数据集

莎士比亚作品词汇数据集

数据来源：互联网公开数据

标签：莎士比亚, 文学, 词汇分析, 文本数据, 语言学研究, Google BigQuery, 开源数据

数据概述：本数据集来源于Google BigQuery的公开数据集bigquery-public-data.samples.shakespeare，包含了莎士比亚作品中的词汇记录。数据集以CSV格式存储，包含两个字段：word和corpus，分别表示词汇本身及其所属的作品集。数据集的总行数为164,656行，列数为2列，文件大小约为3.4MB。该数据集经过简单的SQL查询提取，可快速用于分析莎士比亚作品中的词汇使用情况。

数据用途概述：该数据集适用于多种学术和研究场景，包括但不限于： 1. 文学研究：分析莎士比亚作品中词汇的使用频率和分布，研究其语言风格和创作特点。 2. 语言学研究：研究早期英语语言的词汇构成、语法特征以及历史演变。 3. 文本分析：通过词汇统计和可视化，探索莎士比亚作品的主题分布和情感倾向。 4. 教育场景：为文学爱好者和研究者提供原始数据，帮助理解莎士比亚作品的语言特点。 5. 自然语言处理（NLP）：作为训练数据集，用于开发与文学文本相关的NLP模型，例如文本生成、情感分析或主题建模。

示例数据：该数据集包含以下字段： - word：莎士比亚作品中的词汇，如“love”、“honor”等。 - corpus：词汇所属的作品集，如“Hamlet”、“Romeo and Juliet”等。

通过查询部分数据，可以快速了解数据的结构和内容。例如： | word | corpus | ||| | love | Hamlet | | honor | Macbeth | | justice | King Lear | | dream | A Midsummer Night's Dream | | ... | ... |

注意事项： 1. 数据集为公开数据，可用于非商业和研究目的。 2. 数据字段简单明了，但需要结合具体研究需求进行深度分析。 3. 如需进一步研究，可直接访问Google BigQuery获取完整数据集或进行扩展查询。

此数据集为莎士比亚研究提供了基础的词汇数据，适合用于文学、语言学和文本分析等多个领域的研究与应用。

数据与资源

莎士比亚作品词汇数据集.zipZIP
0.67 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.67 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

莎士比亚作品词汇数据集

数据与资源

附加信息

注册成功！