Mercurial > pub > ImplabNet
comparison Implab/Parsing/Scanner.cs @ 55:c0bf853aa04f
Added initial JSON support
+JSONParser
+JSONWriter
author | cin |
---|---|
date | Sun, 15 Jun 2014 19:39:11 +0400 |
parents | |
children | 7759c80cad95 |
comparison
equal
deleted
inserted
replaced
51:2c332a9c64c0 | 55:c0bf853aa04f |
---|---|
1 using Implab; | |
2 using System; | |
3 using System.Collections.Generic; | |
4 using System.Linq; | |
5 using System.Text; | |
6 using System.Threading.Tasks; | |
7 | |
8 namespace Implab.Parsing { | |
9 /// <summary> | |
10 /// Базовый класс для разбора потока входных символов на токены. | |
11 /// </summary> | |
12 /// <remarks> | |
13 /// Сканнер имеет внутри буффер с симолами входного текста, по которому перемещаются два | |
14 /// указателя, начала и конца токена, при перемещении искользуется ДКА для определения | |
15 /// конца токена и допустимости текущего символа. | |
16 /// </remarks> | |
17 public class Scanner { | |
18 struct ScannerConfig { | |
19 public DFAStateDescriptior[] states; | |
20 public int[] alphabetMap; | |
21 } | |
22 | |
23 Stack<ScannerConfig> m_defs = new Stack<ScannerConfig>(); | |
24 | |
25 DFAStateDescriptior[] m_states; | |
26 int[] m_alphabetMap; | |
27 | |
28 protected DFAStateDescriptior m_currentState; | |
29 int m_previewCode; | |
30 | |
31 protected int m_tokenLen = 0; | |
32 protected int m_tokenOffset; | |
33 | |
34 protected char[] m_buffer; | |
35 protected int m_bufferSize; | |
36 protected int m_pointer; | |
37 | |
38 public Scanner(CDFADefinition definition, string text) { | |
39 Safe.ArgumentNotNull(definition, "definition"); | |
40 Safe.ArgumentNotEmpty(text, "text"); | |
41 | |
42 m_states = definition.States; | |
43 m_alphabetMap = definition.Alphabet.GetTranslationMap(); | |
44 | |
45 Feed(text.ToCharArray()); | |
46 } | |
47 | |
48 public Scanner(CDFADefinition definition) { | |
49 Safe.ArgumentNotNull(definition, "definition"); | |
50 | |
51 m_states = definition.States; | |
52 m_alphabetMap = definition.Alphabet.GetTranslationMap(); | |
53 | |
54 Feed(new char[0]); | |
55 } | |
56 | |
57 /// <summary> | |
58 /// Заполняет входными данными буффер. | |
59 /// </summary> | |
60 /// <param name="data">Данные для обработки.</param> | |
61 /// <remarks>Копирование данных не происходит, переданный массив используется в | |
62 /// качестве входного буффера.</remarks> | |
63 public void Feed(char[] data) { | |
64 Safe.ArgumentNotNull(data, "data"); | |
65 | |
66 Feed(data, data.Length); | |
67 } | |
68 | |
69 /// <summary> | |
70 /// Заполняет буффур чтения входными данными. | |
71 /// </summary> | |
72 /// <param name="data">Данные для обработки.</param> | |
73 /// <param name="length">Длина данных для обработки.</param> | |
74 /// <remarks>Копирование данных не происходит, переданный массив используется в | |
75 /// качестве входного буффера.</remarks> | |
76 public void Feed(char[] data, int length) { | |
77 Safe.ArgumentNotNull(data, "data"); | |
78 Safe.ArgumentInRange(length, 0, data.Length, "length"); | |
79 | |
80 m_pointer = -1; | |
81 m_buffer = data; | |
82 m_bufferSize = length; | |
83 Shift(); | |
84 } | |
85 | |
86 /// <summary> | |
87 /// Получает текущий токен в виде строки. | |
88 /// </summary> | |
89 /// <returns></returns> | |
90 public string GetTokenValue() { | |
91 return new String(m_buffer, m_tokenOffset, m_tokenLen); | |
92 } | |
93 | |
94 /// <summary> | |
95 /// Метки текущего токена, которые были назначены в регулярном выражении. | |
96 /// </summary> | |
97 public int[] TokenTags { | |
98 get { | |
99 return m_currentState.tag; | |
100 } | |
101 } | |
102 | |
103 /// <summary> | |
104 /// Читает следующий токен, при этом <see cref="m_tokenOffset"/> указывает на начало токена, | |
105 /// <see cref="m_tokenLen"/> на длину токена, <see cref="m_buffer"/> - массив символов, в | |
106 /// котором находится токен. | |
107 /// </summary> | |
108 /// <returns><c>false</c> - достигнут конец данных, токен не прочитан.</returns> | |
109 protected bool ReadTokenInternal() { | |
110 if (m_pointer >= m_bufferSize) | |
111 return false; | |
112 | |
113 m_currentState = m_states[CDFADefinition.INITIAL_STATE]; | |
114 m_tokenLen = 0; | |
115 m_tokenOffset = m_pointer; | |
116 int nextState = CDFADefinition.UNREACHEBLE_STATE; | |
117 do { | |
118 nextState = m_currentState.transitions[m_previewCode]; | |
119 if (nextState == CDFADefinition.UNREACHEBLE_STATE) { | |
120 if (m_currentState.final) | |
121 return true; | |
122 else | |
123 throw new ParserException( | |
124 String.Format( | |
125 "Unexpected symbol '{0}', at pos {1}", | |
126 m_buffer[m_pointer], | |
127 Position | |
128 ) | |
129 ); | |
130 } else { | |
131 m_currentState = m_states[nextState]; | |
132 m_tokenLen++; | |
133 } | |
134 | |
135 } while (Shift()); | |
136 | |
137 // END OF DATA | |
138 if (!m_currentState.final) | |
139 throw new ParserException("Unexpected end of data"); | |
140 | |
141 return true; | |
142 } | |
143 | |
144 | |
145 bool Shift() { | |
146 m_pointer++; | |
147 | |
148 if (m_pointer >= m_bufferSize) { | |
149 return ReadNextChunk(); | |
150 } | |
151 | |
152 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
153 | |
154 return true; | |
155 } | |
156 | |
157 /// <summary> | |
158 /// Вызывается по достижению конца входного буффера для получения | |
159 /// новых данных. | |
160 /// </summary> | |
161 /// <returns><c>true</c> - новые двнные получены, можно продолжать обработку.</returns> | |
162 protected virtual bool ReadNextChunk() { | |
163 return false; | |
164 } | |
165 | |
166 /// <summary> | |
167 /// Позиция сканнера во входном буфере | |
168 /// </summary> | |
169 public int Position { | |
170 get { | |
171 return m_pointer + 1; | |
172 } | |
173 } | |
174 | |
175 /// <summary> | |
176 /// Преключает внутренний ДКА на указанный, позволяет реализовать подобие захватывающей | |
177 /// группировки. | |
178 /// </summary> | |
179 /// <param name="states">Таблица состояний нового ДКА</param> | |
180 /// <param name="alphabet">Таблица входных символов для нового ДКА</param> | |
181 protected void Switch(DFAStateDescriptior[] states, int[] alphabet) { | |
182 Safe.ArgumentNotNull(states, "dfa"); | |
183 | |
184 m_defs.Push(new ScannerConfig { | |
185 states = m_states, | |
186 alphabetMap = m_alphabetMap | |
187 }); | |
188 | |
189 m_states = states; | |
190 m_alphabetMap = alphabet; | |
191 | |
192 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
193 } | |
194 | |
195 /// <summary> | |
196 /// Восстанавливает предыдущей ДКА сканнера. | |
197 /// </summary> | |
198 protected void Restore() { | |
199 if (m_defs.Count == 0) | |
200 throw new InvalidOperationException(); | |
201 var prev = m_defs.Pop(); | |
202 m_states = prev.states; | |
203 m_alphabetMap = prev.alphabetMap; | |
204 m_previewCode = m_alphabetMap[m_buffer[m_pointer]]; | |
205 } | |
206 } | |
207 } |